MongoDBSpark大数据解决方案资料下载.pdf

上传人:b****1 文档编号:16119065 上传时间:2022-11-20 格式:PDF 页数:31 大小:4.07MB
下载 相关 举报
MongoDBSpark大数据解决方案资料下载.pdf_第1页
第1页 / 共31页
MongoDBSpark大数据解决方案资料下载.pdf_第2页
第2页 / 共31页
MongoDBSpark大数据解决方案资料下载.pdf_第3页
第3页 / 共31页
MongoDBSpark大数据解决方案资料下载.pdf_第4页
第4页 / 共31页
MongoDBSpark大数据解决方案资料下载.pdf_第5页
第5页 / 共31页
点击查看更多>>
下载资源
资源描述

MongoDBSpark大数据解决方案资料下载.pdf

《MongoDBSpark大数据解决方案资料下载.pdf》由会员分享,可在线阅读,更多相关《MongoDBSpark大数据解决方案资料下载.pdf(31页珍藏版)》请在冰豆网上搜索。

MongoDBSpark大数据解决方案资料下载.pdf

50:

50,host:

xyz,error:

404,.body:

ts:

49:

23,host:

def,error:

019,.body:

22,host:

null,body:

.ts:

2016-07-0102:

04:

12,host:

abc,error:

500,body:

.使用场景使用场景HDFSMongoDB7月1日到31日所有页面的点击量统计OKOK每日HTTP404错误日志数量统计低效:

需要扫描所有文件行可利用索引秒级响应对日志行增加自定义字段保存分析结果不支持OK索引error:

1Spark+MongoDBSpark工作方式ParellelizeParellelizeParellelizeParellelizeTransformTransformTransformTransformActionActionActionActionmapfilterunionintersectResultResultResultResultEXECUTORWORKERSparkMasterDriverEXECUTORWORKEREXECUTORWORKEREXECUTORWORKERSTORAGEPROCESSINGSparkMongoDB架构任务调度原始数据计算结果连接器EXECUTORWORKERSparkMasterDriverEXECUTORWORKEREXECUTORWORKEREXECUTORWORKERSTORAGEPROCESSINGSparkMongoDBHDFS混合架构任务调度原始数据计算结果连接器MongoSparkConnector连接器双向支持:

读出与写入条件下推本地数据访问https:

/Spark+MongoDB成功案例客戶客戶案例案例实现价值实现价值乘客行为大数据分析,客戶360度视图改善的客户体验,降低客户流失实时监控分析跨国银行所有客户交易行为降低客户资金风险,提高合规性运价计算集群及缓存,降低机票查询响应时间改善用户使用体验,提高直销率东方航空的挑战260,000?

50%?

130,000每天需支持运价查询数量,基于12000:

1查定比16亿思路:

空间换时间目前运价实现为实时计算,可以支持每天1000多万QPS空间换时间实时运算?

MongoDB?

LAXNYCStayDurationDateLAXBOSStayDurationDateNYCLAXStayDurationDateBOSLAXStayDurationDateBOSNYCStayDurationDatePVGSZX26仓位Date365x1000+DISMISSED!

365天x1000航班x26仓位x100渠道xN类型=数十亿运价Spark+MongoDB方案TEXTB2TIB2CB2MCallCenterMobileB2CSparkMasterSparkMaster.SparkSubmitDRVInvAPIFareAPIFareInvImplDRV批处理计算运价查询SeatInventoryFareCacheDRVInvAPIFareAPIFareInvImplDRVSubmitBatchJobENDLoadReferenceDataCollectResultsBroadcastVariablesParallelComputeMasterSTARTParallelComputeCollectResultsSplitJobs准备任务到MongoDB读出计算任务Spark并发计算结果存入MongoDBInputjobInputjoboutputoutputvarsvars批处理计算流程Vars:

FlightscheduleBasepricePriceRules/initializationdependenciesincludingbaseprices,pricingrulesandsomereferencedataMapdependencies=MyDependencyManager.loadDependencies();

/broadcastingdependenciesjavaSparkContext.broadcast(dependencies);

/createjobrddcabinsRDD=MongoSpark.load(javaSparkContext).withPipeline(pipeline)/foreachcabin,date,airportpair,calculatethepricecabinsRDD.map(functioncalc_price);

/collecttheresult,whichwillcausethedatatobestoredintoMongoDBcabinsRDD.collect()cabinsRDD.saveToMongo()Spark任务入口程序?

0500100015002000250030003500LegacySpark+MongoThroughput050100150200250300350LegacySpark+MongoLatency处理能力和响应时间比较SparkMongoDB演示安装Spark#curl-OLhttp:

/MongoSpark.load(sc).map(doc=(doc.getString(flight),doc.getLong(seats).reduceByKey(x,y)=(x+y).take(10).foreach(println)数据:

365天,所有航班库存信息,500万文档任务:

按航班统计一年内所有余票量简单分组统计加条件过滤importorg.bson.DocumentMongoSpark.load(sc).withPipeline(Seq(Document.parse($match:

orig:

KMG).map(doc=(doc.getString(flight),doc.getLong(seats).reduceByKey(x,y)=(x+y).take(10).foreach(println)数据:

按航班统计一年内所有库存,但是只处理昆明出发的航班结语性能优化事项?

CPU?

SparkTotaldatasize/chunksize=chunks=RDDpartitions=sparktasks?

1-2?

core?

spark+mongo?

IO?

chunksize(MB)+?

Spark个性化,产品推荐机器学习流处理能力?

Hadoop?

MongoDB需要支持数据随机更新操作分析结果需用于交互型APP对数据使用有灵活查询需求Questions?

更快!

更敏捷!

Questions?

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 考试认证 > IT认证

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1