Mahout - 环境 - Gingerdoc 姜知笔记

Mahout – 环境

本章教你如何设置mahout。Java和Hadoop是mahout的先决条件。下面给出了下载和安装 Java、Hadoop 和 Mahout 的步骤。

预安装设置

在将 Hadoop 安装到 Linux 环境之前，我们需要使用ssh（Secure Shell）设置 Linux 。按照下面提到的步骤设置 Linux 环境。

创建用户

建议为 Hadoop 创建一个单独的用户，以将 Hadoop 文件系统与 Unix 文件系统隔离。按照以下步骤创建用户：

使用命令“su”打开root。
使用命令“useradd username”从 root 帐户创建一个用户。
现在您可以使用命令“su username”打开一个现有的用户帐户。
打开 Linux 终端并键入以下命令以创建用户。

$ su
password:
# useradd hadoop
# passwd hadoop
New passwd:
Retype new passwd

SSH 设置和密钥生成

SSH 设置需要在集群上执行不同的操作，例如启动、停止和分布式守护进程 shell 操作。为了对Hadoop的不同用户进行身份验证，需要为一个Hadoop用户提供公钥/私钥对，并与不同的用户共享。

以下命令用于使用SSH生成键值对，将id_rsa.pub中的公钥复制到authorized_keys，分别为authorized_keys文件提供owner、读写权限。

$ ssh-keygen -t rsa
$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
$ chmod 0600 ~/.ssh/authorized_keys

验证 ssh

ssh localhost

安装 Java

Java 是 Hadoop 和 HBase 的主要先决条件。首先，您应该使用“java -version”验证系统中是否存在 Java。Java version 命令的语法如下所示。

$ java -version

它应该产生以下输出。

java version "1.7.0_71"
Java(TM) SE Runtime Environment (build 1.7.0_71-b13)
Java HotSpot(TM) Client VM (build 25.0-b02, mixed mode)

如果您的系统中没有安装 Java，请按照下面给出的步骤安装 Java。

步骤1

访问以下链接下载 java (JDK <最新版本> – X64.tar.gz)：
Oracle

然后将jdk-7u71-linux-x64.tar.gz 下载到您的系统上。

第2步

通常，您可以在下载文件夹中找到下载的 Java 文件。验证它并使用以下命令提取jdk-7u71-linux-x64.gz文件。

$ cd Downloads/
$ ls
jdk-7u71-linux-x64.gz
$ tar zxf jdk-7u71-linux-x64.gz
$ ls
jdk1.7.0_71 jdk-7u71-linux-x64.gz

第 3 步

要使所有用户都可以使用 Java，您需要将其移动到“/usr/local/”位置。打开root，输入以下命令。

$ su
password:
# mv jdk1.7.0_71 /usr/local/
# exit

第四步

要设置PATH和JAVA_HOME变量，请将以下命令添加到~/.bashrc 文件中。

export JAVA_HOME=/usr/local/jdk1.7.0_71
export PATH= $PATH:$JAVA_HOME/bin

现在，如上所述从终端验证java -version命令。

下载 Hadoop

安装Java后，首先需要安装Hadoop。使用“Hadoop version”命令验证Hadoop的存在，如下所示。

hadoop version

它应该产生以下输出：

Hadoop 2.6.0
Compiled by jenkins on 2014-11-13T21:10Z
Compiled with protoc 2.5.0
From source with checksum 18e43357c8f927c0695f1e9522859d6a
This command was run using /home/hadoop/hadoop/share/hadoop/common/hadoopcommon-2.6.0.jar

如果您的系统无法找到 Hadoop，请下载 Hadoop 并将其安装在您的系统上。按照下面给出的命令执行此操作。

使用以下命令从 apache 软件基础下载并解压 hadoop-2.6.0。

$ su
password:
# cd /usr/local
# wget http://mirrors.advancedhosters.com/apache/hadoop/common/hadoop-
2.6.0/hadoop-2.6.0-src.tar.gz
# tar xzf hadoop-2.6.0-src.tar.gz
# mv hadoop-2.6.0/* hadoop/
# exit

安装 Hadoop

以任何所需的模式安装 Hadoop。在这里，我们在伪分布式模式下演示 HBase 功能，因此在伪分布式模式下安装 Hadoop。

按照下面给出的步骤在您的系统上安装Hadoop 2.4.1。

第 1 步：设置 Hadoop

您可以通过将以下命令附加到~/.bashrc文件来设置 Hadoop 环境变量。

export HADOOP_HOME=/usr/local/hadoop
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME

export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native

export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
export HADOOP_INSTALL=$HADOOP_HOME

现在，将所有更改应用到当前运行的系统中。

$ source ~/.bashrc

第 2 步：Hadoop 配置

您可以在“$HADOOP_HOME/etc/hadoop”位置找到所有 Hadoop 配置文件。需要根据您的 Hadoop 基础架构对这些配置文件进行更改。

$ cd $HADOOP_HOME/etc/hadoop

为了使用 Java 开发 Hadoop 程序，您需要通过将JAVA_HOME值替换为 Java 在您系统中的位置来重置hadoop-env.sh文件中的 Java 环境变量。

export JAVA_HOME=/usr/local/jdk1.7.0_71

下面给出了您必须编辑以配置 Hadoop 的文件列表。

核心站点.xml

该芯-的site.xml文件包含的信息，如用于Hadoop的实例的端口号，分配给文件系统，存储器限制用于存储数据的存储器，和读/写缓冲器的大小。

打开 core-site.xml 并在 <configuration>、</configuration> 标记之间添加以下属性：

<configuration>
   <property>
      <name>fs.default.name</name>
      <value>hdfs://localhost:9000</value>
   </property>
</configuration>

hdfs-site.xm

在HDFS-的site.xml文件中包含的信息，如复制数据的价值，名称节点的路径，你的本地文件系统的数据节点的路径。它意味着您要存储 Hadoop 基础架构的地方。

让我们假设以下数据：

dfs.replication (data replication value) = 1

(In the below given path /hadoop/ is the user name.
hadoopinfra/hdfs/namenode is the directory created by hdfs file system.)
namenode path = //home/hadoop/hadoopinfra/hdfs/namenode

(hadoopinfra/hdfs/datanode is the directory created by hdfs file system.)
datanode path = //home/hadoop/hadoopinfra/hdfs/datanode

打开此文件并在此文件的 <configuration>、</configuration> 标记之间添加以下属性。

<configuration>
   <property>
      <name>dfs.replication</name>
      <value>1</value>
   </property>
	
   <property>
      <name>dfs.name.dir</name>
      <value>file:///home/hadoop/hadoopinfra/hdfs/namenode</value>
   </property>
	
   <property>
      <name>dfs.data.dir</name>
      <value>file:///home/hadoop/hadoopinfra/hdfs/datanode</value>
   </property>
</configuration>

注意：在上述文件中，所有属性值都是用户定义的。您可以根据您的 Hadoop 基础架构进行更改。

mapred-site.xml

该文件用于将 yarn 配置到 Hadoop 中。打开 mapred-site.xml 文件并在此文件的 <configuration>、</configuration> 标记之间添加以下属性。

<configuration>
   <property>
      <name>yarn.nodemanager.aux-services</name>
      <value>mapreduce_shuffle</value>
   </property>
</configuration>

mapred-site.xml

该文件用于指定我们使用的 MapReduce 框架。默认情况下，Hadoop 包含一个 mapred-site.xml 模板。首先，需要使用以下命令将文件从mapred-site.xml.template复制到mapred-site.xml文件。

$ cp mapred-site.xml.template mapred-site.xml

打开mapred-site.xml文件并在此文件的 <configuration>、</configuration> 标记之间添加以下属性。

<configuration>
   <property>
      <name>mapreduce.framework.name</name>
      <value>yarn</value>
   </property>
</configuration>

验证 Hadoop 安装

以下步骤用于验证 Hadoop 安装。

步骤 1：名称节点设置

使用命令“hdfs namenode -format”设置namenode，如下所示：

$ cd ~
$ hdfs namenode -format

预期结果如下：

10/24/14 21:30:55 INFO namenode.NameNode: STARTUP_MSG:
/************************************************************
STARTUP_MSG: Starting NameNode
STARTUP_MSG: host = localhost/192.168.1.11
STARTUP_MSG: args = [-format]
STARTUP_MSG: version = 2.4.1
...
...
10/24/14 21:30:56 INFO common.Storage: Storage directory
/home/hadoop/hadoopinfra/hdfs/namenode has been successfully formatted.
10/24/14 21:30:56 INFO namenode.NNStorageRetentionManager: Going to retain
1 images with txid >= 0
10/24/14 21:30:56 INFO util.ExitUtil: Exiting with status 0
10/24/14 21:30:56 INFO namenode.NameNode: SHUTDOWN_MSG:
/************************************************************
SHUTDOWN_MSG: Shutting down NameNode at localhost/192.168.1.11
************************************************************/

第 2 步：验证 Hadoop dfs

以下命令用于启动dfs。此命令启动您的 Hadoop 文件系统。

$ start-dfs.sh

预期输出如下：

10/24/14 21:37:56
Starting namenodes on [localhost]
localhost: starting namenode, logging to /home/hadoop/hadoop-
2.4.1/logs/hadoop-hadoop-namenode-localhost.out
localhost: starting datanode, logging to /home/hadoop/hadoop-
2.4.1/logs/hadoop-hadoop-datanode-localhost.out
Starting secondary namenodes [0.0.0.0]

第 3 步：验证纱线脚本

以下命令用于启动 yarn 脚本。执行此命令将启动您的纱线恶魔。

$ start-yarn.sh

预期输出如下：

starting yarn daemons
starting resource manager, logging to /home/hadoop/hadoop-2.4.1/logs/yarn-
hadoop-resourcemanager-localhost.out
localhost: starting node manager, logging to /home/hadoop/hadoop-
2.4.1/logs/yarn-hadoop-nodemanager-localhost.out

第 4 步：在浏览器上访问 Hadoop

访问 hadoop 的默认端口号是 50070。使用以下 URL 在浏览器上获取 Hadoop 服务。

http://localhost:50070/

访问 Hadoop

步骤 5：验证集群的所有应用程序

访问集群所有应用的默认端口号是8088。使用以下网址访问该服务。

http://localhost:8088/

集群应用

下载 Mahout

Mahout 可在网站Mahout 中找到。从网站提供的链接下载 Mahout。这是网站的截图。

下载 Mahout

步骤1

使用以下命令从链接
http://mirror.nexcess.net/apache/mahout/下载 Apache mahout 。

[Hadoop@localhost ~]$ wget
http://mirror.nexcess.net/apache/mahout/0.9/mahout-distribution-0.9.tar.gz

然后mahout-distribution-0.9.tar.gz将被下载到您的系统中。

第2步

浏览存储mahout-distribution-0.9.tar.gz的文件夹并解压缩下载的 jar 文件，如下所示。

[Hadoop@localhost ~]$ tar zxvf mahout-distribution-0.9.tar.gz

Maven 存储库

下面给出了使用 Eclipse 构建 Apache Mahout 的 pom.xml。

<dependency>
   <groupId>org.apache.mahout</groupId>
   <artifactId>mahout-core</artifactId>
   <version>0.9</version>
</dependency>

<dependency>
   <groupId>org.apache.mahout</groupId>
   <artifactId>mahout-math</artifactId>
   <version>${mahout.version}</version>
</dependency>

<dependency>
   <groupId>org.apache.mahout</groupId>
   <artifactId>mahout-integration</artifactId>
   <version>${mahout.version}</version>
</dependency>