Mahout.docx - 冰豆网

资源描述

Mahout.docx

《Mahout.docx》由会员分享，可在线阅读，更多相关《Mahout.docx（21页珍藏版）》请在冰豆网上搜索。

Mahout.docx

Mahout

认识Mahout

ApacheMahout是ApacheSoftwareFoundation（ASF）旗下的一个开源项目，提供一些可扩展的机器学习领域经典算法的实现，旨在帮助开发人员更加方便快捷地创建智能应用程序，并且，在Mahout的最近版本中还加入了对ApacheHadoop的支持，使这些算法可以更高效的运行在云计算环境中。

Mahout源码目录说明

mahout项目是由多个子项目组成的，各子项目分别位于源码的不同目录下，下面对mahout的组成进行介绍：

1、mahout-core：

核心程序模块，位于/core目录下；

2、mahout-math：

在核心程序中使用的一些数据通用计算模块，位于/math目录下；

3、mahout-utils：

在核心程序中使用的一些通用的工具性模块，位于/utils目录下；

上述三个部分是程序的主题，存储所有mahout项目的源码。

另外，mahout提供了样例程序，分别在taste-web和examples目录下：

4、taste-web：

利用mahout推荐算法而建立的基于WEB的个性化推荐系统demo；

5、examples：

对mahout中各种机器学习算法的应用程序；

6、bin：

bin目录下只有一个名为mahout的文件，是一个shell脚本文件，用于在hadoop平台的命令行下调用mahout中的程序；

在buildtools、eclipse和distribution目录下，有mahout相关的配置文件

7、buildtools目录下是用于核心程序构建的配置文件，以mahout-buildtools的模块名称在mahout的pom.xml文件中进行说明；

8、eclipse下的xml文件是对利用eclipse开发mahout的配置说明；

9、distribution目录下有两个配置文件：

bin.xml和src.xml，进行mahout安装时的一些配置信息。

（在开发的时候一般很少对这个目录下的文件进行修改，所以不用太关注，知道大体什么意思就ok）

另外，在mahout的下载地址下可以看到有个文件夹与mahout处于同一级别，它是mahout项目的分支项目—mahout-collections，用于实现了核心程序中使用的集合类操作，该模块独立于mahout进行开发，是对标准jdk中关于集合类的修改，使其可以适应数据密集型项目的开发。

在Mahout实现的机器学习算法见下表：

算法类

算法名

中文名

分类算法

LogisticRegression

逻辑回归

Bayesian

贝叶斯

SVM

支持向量机

Perceptron

感知器算法

NeuralNetwork

神经网络

RandomForests

随机森林

RestrictedBoltzmannMachines

有限波尔兹曼机

聚类算法

CanopyClustering

Canopy聚类

K-meansClustering

K均值算法

FuzzyK-means

模糊K均值

ExpectationMaximization

EM聚类（期望最大化聚类）

MeanShiftClustering

均值漂移聚类

HierarchicalClustering

层次聚类

DirichletProcessClustering

狄里克雷过程聚类

LatentDirichletAllocation

LDA聚类

SpectralClustering

谱聚类

关联规则挖掘

ParallelFPGrowthAlgorithm

并行FPGrowth算法

回归

LocallyWeightedLinearRegression

局部加权线性回归

降维/维约简

SingularValueDecomposition

奇异值分解

PrincipalComponentsAnalysis

主成分分析

IndependentComponentAnalysis

独立成分分析

GaussianDiscriminativeAnalysis

高斯判别分析

进化算法

并行化了Watchmaker框架