Category : map_reduce

MapReduce 教程 MapReduce – 介绍 MapReduce – 算法 MapReduce – 安装 MapReduce – API MapReduce – Hadoop 实现 MapReduce – 分区器 MapReduce – 组合器 MapReduce – Hadoop 管理 MapReduce 资源 MapReduce – Hadoop 实现 MapReduce 是一个框架,用于编写应用程序以可靠的方式处理大型商品硬件集群上的大量数据。本章带你使用Java在Hadoop框架中操作MapReduce。 MapReduce 算法 通常,MapReduce 范式是基于将 map-reduce 程序发送到实际数据所在的计算机。 在 MapReduce 作业期间,Hadoop 将 Map 和 Reduce 任务发送到集群中的适当服务器。 该框架管理数据传递的所有细节,例如发出任务、验证任务完成以及在节点之间的集群周围复制数据。 大多数计算发生在节点上,数据位于本地磁盘上,从而减少了网络流量。 完成给定的任务后,集群收集并缩减数据以形成适当的结果,并将其发送回Hadoop服务器。 输入和输出(Java 视角) ..

Read more

MapReduce 教程 MapReduce – 介绍 MapReduce – 算法 MapReduce – 安装 MapReduce – API MapReduce – Hadoop 实现 MapReduce – 分区器 MapReduce – 组合器 MapReduce – Hadoop 管理 MapReduce 资源 MapReduce – 算法 MapReduce 算法包含两个重要的任务,即 Map 和 Reduce。 map任务通过Mapper类完成 reduce 任务是通过 Reducer 类完成的。 Mapper 类接受输入,对其进行标记化、映射和排序。Mapper 类的输出被 Reducer 类用作输入,它依次搜索匹配对并减少它们。 MapReduce 实现了各种数学算法,将任务分成小部分并将它们分配给多个系统。在技​​术方面,MapReduce 算法有助于将 Map & Reduce 任务发送到集群中的适当服务器。 ..

Read more

MapReduce 教程 MapReduce – 介绍 MapReduce – 算法 MapReduce – 安装 MapReduce – API MapReduce – Hadoop 实现 MapReduce – 分区器 MapReduce – 组合器 MapReduce – Hadoop 管理 MapReduce 资源 MapReduce – API 在本章中,我们将仔细研究 MapReduce 编程操作中涉及的类及其方法。我们将主要关注以下方面 – 作业上下文接口 工作班级 映射器类 减速机类 作业上下文接口 JobContext 接口是所有类的超级接口,它定义了 MapReduce 中的不同作业。它为您提供了在任务运行时提供给任务的作业的只读视图。 以下是 JobContext 接口的子接口。 S.No. 子接口说明 1. MapContext<KEYIN, VALUEIN, KEYOUT, ..

Read more

MapReduce 教程 MapReduce – 介绍 MapReduce – 算法 MapReduce – 安装 MapReduce – API MapReduce – Hadoop 实现 MapReduce – 分区器 MapReduce – 组合器 MapReduce – Hadoop 管理 MapReduce 资源 MapReduce – 组合器 组合器,也称为半简化器,是一个可选类,它通过接受来自 Map 类的输入然后将输出键值对传递给 Reducer 类来进行操作。 组合器的主要功能是汇总具有相同键的地图输出记录。组合器的输出(键值集合)将通过网络发送到实际的 Reducer 任务作为输入。 合路器 在 Map 类和 Reduce 类之间使用了 Combiner 类,以减少 Map 和 Reduce 之间的数据传输量。通常,map任务的输出量大,传输给reduce任务的数据量大。 下面的 MapReduce ..

Read more

MapReduce 教程 MapReduce – 介绍 MapReduce – 算法 MapReduce – 安装 MapReduce – API MapReduce – Hadoop 实现 MapReduce – 分区器 MapReduce – 组合器 MapReduce – Hadoop 管理 MapReduce 资源 讨论 MapReduce MapReduce 是一种在 Hadoop 后台运行的编程范式,可提供可扩展性和简单的数据处理解决方案。本教程解释了 MapReduce 的功能以及它如何分析�..

Read more

MapReduce 教程 MapReduce – 介绍 MapReduce – 算法 MapReduce – 安装 MapReduce – API MapReduce – Hadoop 实现 MapReduce – 分区器 MapReduce – 组合器 MapReduce – Hadoop 管理 MapReduce 资源 MapReduce – Hadoop 管理 本章介绍 Hadoop 管理,包括 HDFS 和 MapReduce 管理。 HDFS 管理包括监控 HDFS 文件结构、位置和更新的文件。 MapReduce 管理包括监控应用程序列表、节点配置、应用程序状态等。 HDFS监控 HDFS(Hadoop分布式文件系统)包含用户目录、输入文件和输出文件。使用 MapReduce 命令put和get进行存储和检索。 通过在“/$HADOOP_HOME/sbin”上传递命令“start-all.sh”启动Hadoop框架(守护进程)后,将以下URL传递给浏览器“http://localhost:50070”。您应该会在浏览器上看到以下屏幕。 以下屏幕截图显示了如何浏览浏览 HDFS。 以下屏幕截图显示了 ..

Read more

MapReduce 教程 MapReduce – 介绍 MapReduce – 算法 MapReduce – 安装 MapReduce – API MapReduce – Hadoop 实现 MapReduce – 分区器 MapReduce – 组合器 MapReduce – Hadoop 管理 MapReduce 资源 MapReduce – 安装 MapReduce 仅适用于 Linux 风格的操作系统,并且它内置了 Hadoop 框架。我们需要执行以下步骤来安装 Hadoop 框架。 验证 JAVA 安装 在安装 Hadoop 之前,必须在您的系统上安装 Java。使用以下命令检查您的系统上是否安装了 Java。 $ java –version 如果您的系统上已经安装了 Java,您将看到以下响应 – ..

Read more

MapReduce 教程 MapReduce – 介绍 MapReduce – 算法 MapReduce – 安装 MapReduce – API MapReduce – Hadoop 实现 MapReduce – 分区器 MapReduce – 组合器 MapReduce – Hadoop 管理 MapReduce 资源 MapReduce – 介绍 MapReduce 是一种编程模型,用于编写可以在多个节点上并行处理大数据的应用程序。MapReduce 提供用于分析大量复杂数据的分析功能。 什么是大数据? 大数据是无法使用传统计算技术处理的大型数据集的集合。例如,Facebook 或 Youtube 需要它每天收集和管理的数据量,就属于大数据的范畴。然而,大数据不仅仅是关于规模和数量,它还涉及以下一个或多个方面——速度、多样性、数量和复杂性。 为什么是 MapReduce? 传统的企业系统通常有一个集中式服务器来存储和处理数据。下图描绘了传统企业系统的示意图。传统模型当然不适合处理海量的可扩展数据,标准数据库服务器也无法容纳。此外,集中式系统在同时处理多个文件时会产生太多的瓶颈。 Google 使用一种称为 MapReduce 的算法解决了这个瓶颈问题。MapReduce 将一个任务分成小部分,并将它们分配给多台计算机。之后,将结果集中在一处,并进行整合,形成结果数据集。 MapReduce 是如何工作的? MapReduce 算法包含两个重要的任务,即 Map 和 ..

Read more

MapReduce 教程 MapReduce – 介绍 MapReduce – 算法 MapReduce – 安装 MapReduce – API MapReduce – Hadoop 实现 MapReduce – 分区器 MapReduce – 组合器 MapReduce – Hadoop 管理 MapReduce 资源 MapReduce – 分区器 分区器的工作方式类似于处理输入数据集的条件。分区阶段发生在 Map 阶段之后,Reduce 阶段之前。 分区器的数量等于减速器的数量。这意味着 partitioner 将根据 reducer 的数量划分数据。因此,从单个分区器传递的数据由单个 Reducer 处理。 分区器 分区器对中间映射输出的键值对进行分区。它使用用户定义的条件对数据进行分区,其工作方式类似于散列函数。分区总数与作业的 Reducer 任务数相同。让我们举个例子来理解分区器是如何工作的。 MapReduce 分区器实现 为方便起见,假设我们有一个名为 Employee 的小表,其中包含以下数据。我们将使用此示例数据作为我们的输入数据集来演示分区器的工作原理。 Id 名称 ..

Read more

MapReduce 教程 MapReduce – 介绍 MapReduce – 算法 MapReduce – 安装 MapReduce – API MapReduce – Hadoop 实现 MapReduce – 分区器 MapReduce – 组合器 MapReduce – Hadoop 管理 MapReduce 资源 MapReduce – 快速指南 MapReduce – 介绍 MapReduce 是一种编程模型,用于编写可以在多个节点上并行处理大数据的应用程序。MapReduce 提供用于分析大量复杂数据的分析功能。 什么是大数据? 大数据是无法使用传统计算技术处理的大型数据集的集合。例如,Facebook 或 Youtube 需要它每天收集和管理的数据量,就属于大数据的范畴。然而,大数据不仅仅是关于规模和数量,它还涉及以下一个或多个方面——速度、多样性、数量和复杂性。 为什么是 MapReduce? 传统的企业系统通常有一个集中式服务器来存储和处理数据。下图描绘了传统企业系统的示意图。传统模型当然不适合处理海量的可扩展数据,标准数据库服务器也无法容纳。此外,集中式系统在同时处理多个文件时会产生太多的瓶颈。 Google 使用一种称为 MapReduce 的算法解决了这个瓶颈问题。MapReduce 将一个任务分成小部分,并将它们分配给多台计算机。之后,将结果集中在一处,并进行整合,形成结果数据集。 MapReduce 是如何工作的? MapReduce ..

Read more