厦门大学林子雨大数据技术原理与应用上机练习图计算框架Hama的基础操作实践.docx
《厦门大学林子雨大数据技术原理与应用上机练习图计算框架Hama的基础操作实践.docx》由会员分享,可在线阅读,更多相关《厦门大学林子雨大数据技术原理与应用上机练习图计算框架Hama的基础操作实践.docx(11页珍藏版)》请在冰豆网上搜索。
厦门大学林子雨大数据技术原理与应用上机练习图计算框架Hama的基础操作实践
厦门大学林子雨编著
《大数据技术原理与应用》
教材配套上机练习
图计算框架Hama的基础操作实践
(版本号:
2016年1月18日版本)
主讲教师:
林子雨
厦门大学数据库实验室
二零一六年一月
(版权所有,请勿用于商业用途)
目录
1作业题目1
2作业目的1
3作业性质1
4作业考核方法1
5作业提交日期与方式1
6作业准备1
6.1、Hama计算框架的安装配置1
6.2、用Hama计算模型实现寻找最大独立集问题算法3
7作业内容9
8实验报告9
附录1:
任课教师介绍9
附录2:
课程教材介绍10
《大数据技术原理与应用》
图计算框架Hama基础操作实践
上机练习说明
主讲教师:
林子雨
E-mail:
ziyulin@个人主页:
1作业题目
图计算框架Hama基础操作实践。
2作业目的
旨在让学生了解Pregel图计算模型,并学会用Pregel的开源实现Hama实现一些基本操作。
3作业性质
课后作业,必做,作为课堂平时成绩。
4作业考核方法
提交上机实验报告,任课老师根据上机实验报告评定成绩。
5作业提交日期与方式
图计算章节内容结束后的下一周周六晚上9点之前提交。
6作业准备
请阅读厦门大学林子雨编著的大数据专业教材《大数据技术原理与应用》(官网:
6.1、Hama计算框架的安装配置
ApacheHama是GooglePregel的开源实现,与Hadoop适合于分布式大数据处理不同,Hama主要用于分布式的矩阵、graph、网络算法的计算。
简单说,Hama是在HDFS上实现的BSP(BulkSynchronousParallel)计算框架,弥补Hadoop在计算能力上的不足。
(1).安装好合适版本的jdk和hadoop,并且进行测试,保证他们能用。
(2).下载hama安装文件,从http:
//hama.apache.org/downloads.html处下载合适的版本,我当时下的是0.6.4版本的。
(3).在用户主目录下创建合适的安装目录文件,我这里是在~下创建了hama文件夹作为安装目录,即~/hama为安装目录。
(4).将下载好的hama-0.6.4.tar.gz拷贝到~/hama中去,并用tarzvxfhama-0.6.4.tar.gz进行解压。
(5).进入hama-0.6.4中的conf文件夹,修改hama-env.sh文件,在其中加入java的home路径,即加入:
ExportJAVA_HOME=/home/wanglianping/java/jdk.1.7.0_91
( 6).修改 hama-site.xml文件,这时hama配置的核心文件,具体内容如下:
bsp.master.address
192.168.91.128:
40000
Theaddressofthebspmasterserver.Eitherthe
literalstring"local"orahost:
portfordistributedmode
fs.default.name
hdfs:
//192.168.91.128:
9000/
Thenameofthedefaultfilesystem.Eithertheliteralstring
"local"orahost:
portforHDFS.
hama.zookeeper.quorum
192.168.91.128
CommaseparatedlistofserversintheZooKeeperQuorum.
Forexample,",,".
Bydefaultthisissettolocalhostforlocalandpseudo-distributedmodes
ofoperation.Forafully-distributedsetup,thisshouldbesettoafull
listofZooKeeperquorumservers.IfHAMA_MANAGES_ZKissetinhama-env.sh
thisisthelistofserverswhichwewillstart/stopzookeeperon.
hama.zookeeper.property.clientPort
2181
其中,bsp.master.address即bsp中的BSPMaster的地址和端口。
fs.default.name这个值要特别注意,是hadoop中nameNode的地址和端口,因为hama要用到hadoop的hdfs分布式文件系统。
剩下的俩个是zookeeper的相关配置。
(7).另外,在conf文件夹下还有一个groomservers文件,这个在分布式环境下配置groomserver的地址,在单机模式下就不用配置了,里面默认值为localhost。
同时,你也可以在~/.bashrc中添加hama的环境变量,这样每次启动就不同转到相应的目录下去了。
(8).启动hadoop,并验证是否启动成功。
命令:
HADOOP_HOME/bin/start-all.sh,如果启动成功,如下:
启动hama,命令:
HAMA_HOME/bin/start-bspd.sh,结果如下:
出现上述结果,则表明hama已经成功启动。
6.2、用Hama计算模型实现寻找最大独立集问题算法
(1).本算法参考Luby'sclassicparallelalgorithm《asimpleparallelalgorithmformaximalindependentsetproblem》,把顶点分为三类:
1)S:
TheMISbeingconstructed.Startsemptyandgrowsiniterations.
2)NotInS:
VerticesthathaveatleastoneedgetoavertexinSandasaresultcannotbeinS.
3)Unknown:
VerticesthatdonothaveanedgetoanyvertexinSbutarenotyetinS.
(2).Hama模型下MIS(MaximalIndependentSet)算法描述。
1)初始时,把所有顶点的value值赋值为自己的vertexID,表明初始所有顶点均在UnKnown集合中,然后把自己的VertexID发送给邻接顶点。
2)若顶点u的VertexID比自己所有邻接顶点都小,则该顶点进入S集合中,并发送neighbor-in-set消息给所有邻接顶点,通知它们退出Unknown集合进入到NotInS集合中,并最后把u置为InActive状态;否则,顶点u继续保持UnKnown状态。
3)S集合中顶点的邻接顶点收到neighbor-in-set消息,则该顶点进入NotInS,并且设置为Inactive状态。
返回继续迭代,直到UnKnown集合为空。
(3).程序中按照顶点value取值不同来区分顶点的类别,具体如下:
1)value等于vertexID,表示顶点在Unknown集合中;
2)value等于-1,表示顶点在S集合中
3)value等于-2,表示顶点在NotInS集合中。
当所有顶点进入S或者NotInS集合中,就停止计算,表明已找到一个MIS。
源码如下:
packagegraph.mis;
importjava.io.IOException;
importjava.util.Iterator;
importorg.apache.hadoop.conf.Configuration;
importorg.apache.hadoop.fs.Path;
importorg.apache.hadoop.io.LongWritable;
importorg.apache.hadoop.io.NullWritable;
importorg.apache.hadoop.io.Text;
importorg.apache.hama.HamaConfiguration;
importorg.apache.hama.bsp.HashPartitioner;
importorg.apache.hama.bsp.TextInputFormat;
importorg.apache.hama.bsp.TextOutputFormat;
importorg.apache.hama.graph.Edge;
importorg.apache.hama.graph.GraphJob;
importorg.apache.hama.graph.Vertex;
importorg.apache.hama.graph.VertexInputReader;
publicclassFindMIS{
publicstaticclassMISVertexextends
Vertex{
@Override
publicvoidcompute(Iteratormessages)throwsIOException{
if(getSuperstepCount()==0){
setValue(getVertexID());
sendMessageToNeighbors(getValue());
}else{
if(getValue().get()==-2){
voteToHalt();
}else{