大数据离线分析项目HadoopWord文件下载.docx

上传人:b****4 文档编号:16815067 上传时间:2022-11-26 格式:DOCX 页数:4 大小:218.50KB
下载 相关 举报
大数据离线分析项目HadoopWord文件下载.docx_第1页
第1页 / 共4页
大数据离线分析项目HadoopWord文件下载.docx_第2页
第2页 / 共4页
大数据离线分析项目HadoopWord文件下载.docx_第3页
第3页 / 共4页
大数据离线分析项目HadoopWord文件下载.docx_第4页
第4页 / 共4页
亲,该文档总共4页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

大数据离线分析项目HadoopWord文件下载.docx

《大数据离线分析项目HadoopWord文件下载.docx》由会员分享,可在线阅读,更多相关《大数据离线分析项目HadoopWord文件下载.docx(4页珍藏版)》请在冰豆网上搜索。

大数据离线分析项目HadoopWord文件下载.docx

2、具体设计

2.1捕获(JsSDK)用户行为数据(launch事件、pageView事件、event事件、chargerequet事件)

2.2将捕获的数据发送给web服务器,生成日志文件(Nginx)

2.3将日志文件上传至文件存储系统中(Shell脚本、Flume)

2.4在文件存储系统中对日志文件进行清洗,过滤掉脏数据和不需要的字段(MapReucejob任务)

2.5将过滤后的日志文件导入到数据库中(HBase)

2.6通过MapReduce程序或Hive进行统计分析(Hive)

2.7将统计分析后的结果导入到本地数据库中进行永久储存(Mysql)

2.8在前端进行展示(SpringMVC+Highcharts)

二、项目架构(画图)

具体分为三个部分(如下图所示):

数据收集层

hadoop、hive、flume、kafka、shell

数据分析层

hive、MapReduce、spark

数据展示层

springmvc+highcharts

三、技术选型、特点、为什么

1.JsSDK捕获前端页面数据。

Javascript编写页面日志生成与发送工具(原则:

保持对业务代码最小影响)

特点:

采用原生的JavaScript编写,以js文件嵌入到前端,页面触发业务所关注的事件(按照收集数据的不同分为不同的事件)时调用相关方法。

2.Javasdk后台服务日志生成与发送工具

JavaSDK代码很简单,可以打成jar包或者直接拷贝类到具体的项目中,正常逻辑处理到JavaSDK所关注的事件后,调用JavaSDK提供的api即可。

3.Nginxweb服务器,产生日志文件

特点:

Nginx是一个小巧而高效的Linux下的web服务器软件,相比较Apache它不仅有稳定性、丰富的功能集、示例配置文件,更重要的是Nginx是基于事件的,它的内存使用很低,系统资源消耗小很多。

3.shell脚本上传日志文件(数据量一般比较小的场景,不会立即进行分析)

分割日志,每天定时分割成昨天的日志文件。

(visplit.sh)

上传到HDFS。

(viput2hdfs.sh)

flume上传(数据量一般比较大的场景,需要实时处理。

5.HBase数据库

数据解析以后,我们把它存入HBase表。

因为:

不同的事件,最后上传到HDFS里面每行数据的字段数量是不一样的;

而且HBase中,单表数据量相对比较大

6.MySql最终结果存储

Mysql是关系型数据库,结构十分清晰,能够与JavaWeb中的SpringMVC进行很好的对接;

而且SQL语句是结构化的查询语言,方便运营页面查询数据

7.SpringMVC+Highcharts进行报表显示

四、具体实现需求(分析了哪些功能pv、uv)

主要实现需求:

Pv:

页面的浏览次数,衡量网站用户访问的网页数量;

用户每打开一个页面就记录一次,多次打开同一个页面则浏览量累计。

描述用户访问网站信息,应用于基本的各个不同计算任务

Uv:

独立访客数

1天内访问某站点的人数(以cookie为依据)

1天内同一访客的多次访问只计为1个访客

S_time:

会话时长

详细需求:

五、项目中遇到了哪些问题,怎么解决

1、日志格式有点混乱,以至于给后面的数据清洗带来困扰

办法:

最后调整数据格式,并重新定义了分隔符

2、对日志文件进行分析时,建立Hive外部表与Hbase表的链接字段搞错,以至于HBase与Hive整合不成功

查看数据字典,查找字段,并将hive外部表的字段名和HBase表的列名一样。

六、项目总结

通过本次项目搭建,我对大数据的实际应用,以及客户需求的具体实现有了更为清晰的认识,同时也对之前所学到的知识进行了温故与整合。

同时看到了自己的很多不足,究其原因,是对Hadoop以及诸多协作框架的理解应用仅限于皮毛,缺乏透彻的研究,实际开发能力仍大有欠缺,需要更多的实战来历练。

总之,通过本次项目搭建我收获颇丰,受益匪浅,并清楚了自己以后学习的重点,努力的方向。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 考试认证 > 其它考试

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1