Category : mahout

Mahout 教程 Mahout – 介绍 Mahout – 机器学习 Mahout – 环境 Mahout – 推荐 Mahout – 聚类 Mahout – 分类 Mahout – 资源 Mahout – 介绍 我们生活在一个信息丰富的时代。信息过载已达到如此高度,以至于有时管理我们的小邮箱变得困难!想象一下,一些流行网站(如 Facebook、Twitter 和 Youtube)每天必须收集和管理的数据量和记录。即使是鲜为人知的网站,批量接收大量信息的情况也并不少见。 通常我们依靠数据挖掘算法来分析大量数据以识别趋势并得出结论。但是,除非计算任务在分布在云上的多台机器上运行,否则没有数据挖掘算法可以有效地处理非常大的数据集并快速提供结果。 我们现在有了新的框架,允许我们将计算任务分解为多个段,并在不同的机器上运行每个段。Mahout就是这样一个数据挖掘框架,它通常与 Hadoop 基础设施在其后台运行,以管理海量数据。 什么是 Apache Mahout? 一个象夫是谁驾驶大象作为它的主人。这个名字来自它与 Apache Hadoop 的密切关联,后者使用大象作为其标志。 Hadoop是 Apache 的一个开源框架,它允许使用简单的编程模型在跨计算机集群的分布式环境中存储和处理大数据。 Apache Mahout是一个开源项目,主要用于创建可扩展的机器学习算法。它实现了流行的机器学习技术,例如: 推荐 分类 聚类 Apache Mahout 于 2008 年作为 Apache ..

Read more

Mahout 教程 Mahout – 介绍 Mahout – 机器学习 Mahout – 环境 Mahout – 推荐 Mahout – 聚类 Mahout – 分类 Mahout – 资源 Mahout – 机器学习 Apache Mahout 是一个高度可扩展的机器学习库,使开发人员能够使用优化的算法。Mahout 实现了流行的机器学习技术,例如推荐、分类和聚类。因此,在我们进一步讨论之前,最好先简要介绍一下机器学习。 什么是机器学习? 机器学习是科学的一个分支,它对系统进行编程,使它们能够自动学习并随着经验不断改进。在这里,学习意味着识别和理解输入数据并根据提供的数据做出明智的决策。 根据所有可能的输入来满足所有决策是非常困难的。为了解决这个问题,开发了算法。这些算法根据统计、概率论、逻辑、组合优化、搜索、强化学习和控制理论的原理,从特定数据和过去的经验中构建知识。 开发的算法构成了各种应用的基础,例如: 视觉处理 语言处理 预测(例如,股市趋势) 模式识别 游戏 数据挖掘 专家系统 机器人 机器学习是一个广阔的领域,要涵盖其所有功能已经超出了本教程的范围。有实现机器学习技术几种方法,但是最常用的是监督和无监督的学习。 监督学习 监督学习处理从可用的训练数据中学习一个函数。监督学习算法分析训练数据并生成推断函数,该函数可用于映射新示例。监督学习的常见例子包括: 将电子邮件归类为垃圾邮件, 根据网页的内容标记网页,以及 语音识别。 有许多监督学习算法,例如神经网络、支持向量机 (SVM) 和朴素贝叶斯分类器。Mahout 实现了朴素贝叶斯分类器。 无监督学习 无监督学习可以理解未标记的数据,而无需任何预定义的训练数据集。无监督学习是分析可用数据和寻找模式和趋势的极其强大的工具。它最常用于将相似的输入聚类到逻辑组中。无监督学习的常见方法包括: k均值 ..

Read more

Mahout 教程 Mahout – 介绍 Mahout – 机器学习 Mahout – 环境 Mahout – 推荐 Mahout – 聚类 Mahout – 分类 Mahout – 资源 Mahout – 快速指南 Mahout – 介绍 我们生活在一个信息丰富的时代。信息过载已达到如此高度,以至于有时管理我们的小邮箱变得困难!想象一下,一些流行网站(如 Facebook、Twitter 和 Youtube)每天必须收集和管理的数据量和记录。即使是鲜为人知的网站批量接收大量信息的情况也并不少见。 通常,我们依靠数据挖掘算法来分析大量数据以识别趋势并得出结论。但是,除非计算任务在分布在云上的多台机器上运行,否则没有数据挖掘算法可以有效地处理非常大的数据集并快速提供结果。 我们现在有了新的框架,允许我们将计算任务分解为多个段,并在不同的机器上运行每个段。Mahout就是这样一个数据挖掘框架,它通常与 Hadoop 基础设施在其后台运行,以管理大量数据。 什么是 Apache Mahout? 一个象夫是谁驾驶大象作为它的主人。这个名字来自它与 Apache Hadoop 的密切关联,后者使用大象作为其标志。 Hadoop是 Apache 的一个开源框架,它允许使用简单的编程模型在跨计算机集群的分布式环境中存储和处理大数据。 Apache Mahout是一个开源项目,主要用于创建可扩展的机器学习算法。它实现了流行的机器学习技术,例如: 推荐 分类 聚类 Apache Mahout 于 ..

Read more

Mahout 教程 Mahout – 介绍 Mahout – 机器学习 Mahout – 环境 Mahout – 推荐 Mahout – 聚类 Mahout – 分类 Mahout – 资源 Mahout – 推荐 本章介绍了称为推荐的流行机器学习技术、其机制以及如何编写实现 Mahout 推荐的应用程序。 推荐 有没有想过亚马逊是如何列出推荐商品的清单来吸引您注意您可能感兴趣的特定产品的! 假设您想从亚马逊购买“Mahout in Action”一书: 除了选定的产品外,亚马逊还会显示相关推荐项目列表,如下所示。 此类推荐列表是在推荐引擎的帮助下生成的。Mahout 提供了几种类型的推荐引擎,例如: 基于用户的推荐, 基于项目的推荐,以及 其他几种算法。 Mahout 推荐引擎 Mahout 有一个非分布式、非基于 Hadoop 的推荐引擎。您应该传递具有用户对项目首选项的文本文档。该引擎的输出将是特定用户对其他项目的估计偏好。 例子 考虑一个销售消费品(如手机、小工具及其配件)的网站。如果我们想在这样的站点中实现 Mahout 的功能,那么我们可以构建一个推荐引擎。该引擎分析用户过去的购买数据,并在此基础上推荐新产品。 Mahout 提供的构建推荐引擎的组件如下: 数据模型 用户相似度 物品相似度 ..

Read more

Mahout 教程 Mahout – 介绍 Mahout – 机器学习 Mahout – 环境 Mahout – 推荐 Mahout – 聚类 Mahout – 分类 Mahout – 资源 Mahout – 有用的资源 以下资源包含有关 Mahout 的其他信息。请使用它们来获得更深入的知识。 Mahout 上的有用链接 Mahout – Mahout 的官方网站。 Mahout 维基百科– Mahout 维基百科 关于 Mahout 的有用书籍 要在此页面上登记您的网站,请发送电子邮件至gingerdoc-contact..

Read more

Mahout 教程 Mahout – 介绍 Mahout – 机器学习 Mahout – 环境 Mahout – 推荐 Mahout – 聚类 Mahout – 分类 Mahout – 资源 Mahout – 分类 什么是分类? 分类是一种机器学习技术,它使用已知数据来确定应如何将新数据分类到一组现有类别中。例如, iTunes 应用程序使用分类来准备播放列表。 邮件服务提供商,例如 Yahoo! Gmail 使用此技术来决定是否应将新邮件归类为垃圾邮件。分类算法通过分析用户将某些邮件标记为垃圾邮件的习惯来训练自己。基于此,分类器决定未来的邮件应该存放在您的收件箱中还是垃圾邮件文件夹中。 分类的工作原理 在对给定数据集进行分类时,分类器系统执行以下操作: 最初,使用任何学习算法准备一个新的数据模型。 然后对准备好的数据模型进行测试。 此后,该数据模型用于评估新数据并确定其类别。 分类的应用 信用卡欺诈检测– 分类机制用于预测信用卡欺诈。使用先前欺诈的历史信息,分类器可以预测哪些未来交易可能会变成欺诈。 垃圾邮件– 根据以前垃圾邮件的特征,分类器确定是否应将新遇到的电子邮件发送到垃圾邮件文件夹。 朴素贝叶斯分类器 Mahout 使用朴素贝叶斯分类器算法。它使用两种实现: 分布式朴素贝叶斯分类 互补朴素贝叶斯分类 朴素贝叶斯是一种构建分类器的简单技术。它不是用于训练此类分类器的单一算法,而是一系列算法。贝叶斯分类器构建模型来对问题实例进行分类。这些分类是使用可用数据进行的。 朴素贝叶斯的一个优点是它只需要少量的训练数据来估计分类所需的参数。 对于某些类型的概率模型,可以在监督学习设置中非常有效地训练朴素贝叶斯分类器。 尽管假设过于简单,朴素贝叶斯分类器在许多复杂的现实世界情况中都表现得很好。 分类程序 实施分类应遵循以下步骤: ..

Read more

Mahout 教程 Mahout – 介绍 Mahout – 机器学习 Mahout – 环境 Mahout – 推荐 Mahout – 聚类 Mahout – 分类 Mahout – 资源 Mahout – 聚类 聚类是根据项目之间的相似性将给定集合的元素或项目组织成组的过程。例如,与在线新闻发布相关的应用程序使用聚类对他们的新闻文章进行分组。 聚类的应用 聚类广泛用于许多应用,例如市场研究、模式识别、数据分析和图像处理。 聚类可以帮助营销人员在他们的客户基础上发现不同的群体。他们可以根据购买模式来描述他们的客户群。 在生物学领域,它可用于推导植物和动物分类法,对具有相似功能的基因进行分类并深入了解种群固有的结构。 聚类有助于识别地球观测数据库中类似土地利用的区域。 聚类还有助于对网络上的文档进行分类以进行信息发现。 聚类用于异常检测应用,例如信用卡欺诈检测。 作为一种数据挖掘功能,聚类分析作为一种工具来深入了解数据的分布以观察每个聚类的特征。 使用 Mahout,我们可以对一组给定的数据进行聚类。所需步骤如下: 算法您需要选择合适的聚类算法来对聚类的元素进行分组。 相似性和不相似性您需要制定规则来验证新遇到的元素与组中的元素之间的相似性。 停止条件需要停止条件来定义不需要聚类的点。 聚类过程 要对给定的数据进行聚类,您需要 – 启动 Hadoop 服务器。创建在 Hadoop 文件系统中存储文件所需的目录。(为输入文件、序列文件和集群输出创建目录,以防万一)。 将输入文件从 Unix 文件系统复制到 Hadoop 文件系统。 从输入数据准备序列文件。 运行任何可用的聚类算法。 ..

Read more

Mahout 教程 Mahout – 介绍 Mahout – 机器学习 Mahout – 环境 Mahout – 推荐 Mahout – 聚类 Mahout – 分类 Mahout – 资源 Mahout – 讨论 Apache Mahout 是一个开源项目,主要用于生成可扩展的机器学习算法。这个简短的教程提供了对 Apache Mahout 的快速介绍,并解释了如何应用它来提出建议并在更有用的集群中组织文档。 Please enable JavaScript to view the comments powered ..

Read more

Mahout 教程 Mahout – 介绍 Mahout – 机器学习 Mahout – 环境 Mahout – 推荐 Mahout – 聚类 Mahout – 分类 Mahout – 资源 Mahout – 环境 本章教你如何设置mahout。Java和Hadoop是mahout的先决条件。下面给出了下载和安装 Java、Hadoop 和 Mahout 的步骤。 预安装设置 在将 Hadoop 安装到 Linux 环境之前,我们需要使用ssh(Secure Shell)设置 Linux 。按照下面提到的步骤设置 Linux 环境。 创建用户 建议为 Hadoop 创建一个单独的用户,以将 Hadoop 文件系统与 Unix 文件系统隔离。按照以下步骤创建用户: 使用命令“su”打开root。 使用命令“useradd username”从 root 帐户创建一个用户。 ..

Read more