ImageVerifierCode 换一换
格式:DOCX , 页数:10 ,大小:585.03KB ,
资源ID:10070671      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/10070671.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(大数据相关技术资料.docx)为本站会员(b****7)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

大数据相关技术资料.docx

1、大数据相关技术资料大数据平台1 大数据平台技术架构:厂数据开发平台、C03P平台 厂机器学习平台DataCubeJTiz y数据J7发 任务词度Scala/JavaSQLStreamingDataSetDataFrameRDD |sparkDataSourcefilesLogSyslogBinlog2具体产品介绍(1)集成数据幵发平台平台框架:技术方案:基于状态机(State Machine )、微服务(内嵌 Rest RPC Consolel艮务端等)、SVGAngularJS图形化、高可用解决方案(最终一致散列、服务发现、头节点选举等)提供了一个易用的图像化配置大数据任务依赖关系, 人工监

2、控和重跑干预任务执行状态的大数据开发工具,整合了平台现有 MR/Hive/Spark/SparkSQL/SparkStream/Sqoop 等任务类型。降低大数据平台用户的使用门槛,提供强大的任务流依赖、调度功能。主要实现的功能:(1)任务流管理:任务流组织:以拓扑结构方式直观展示任务之间依赖关系 任务配置:任务项配置,支持源数据、目标数据、资源、参数等配置 运行测试 & 日志查看:线上任务试运行及日志展示,可根据日志调优。 数据探查:数据预览帮助数据质量控制,做到把控数据来源,提升准确性。 导入导出:任务流可导出为 ZIP 文件, ZIP 文件保留任务流中所有信息:流的 属性,流内任务的配置

3、、任务节点位置、连线等 草稿任务:类似于回收站作用,作为任务缓冲地带,可将草稿任务移到具体任 务流中。(2)资源中心:事件管理:事件管理及事件触发记录查询。 任务组管理:将任务加入一个任务组,设置最大并发数,实现流量控制。 资源管理:用于配置任务的时候选取公共资源。(3)运维中心: 任务流运维:任务流批次及状态展示,可根据时间范围、状态等筛选项进行筛 选。 任务运行状态:任务运行状态查询。可根据任务执行时间和执行结果等筛选。 任务执行报告:任务执行情况及统计信息分析。 影响分析:任务失败原因和造成的影响查看。信息看板:任务完成情况、 告警展示、任务执行时长排行、 调度任务数量趋势、 出错排行、

4、任务类型分布等信息汇总展示。(4)告警管理:监控范围:系统监控(队列深度、健康状态等) 、任务监控(超时、延时、报 错)。告警类型分为任务超时告警、任务失败告警、关键任务告警、定时失败汇总、 定时关键任务汇总。配置告警接收人员, 通过工号 / 姓名检索人员并添加, 告警方式有邮件、 短信、 豆芽,可多选。(5)调度平台:任务类型支持:支持Hive任务、MapReduce任务、Java任务、Python任务、SparkSql任务、 Spark 任务、机器学习任务等多种类型任务执行。 后台管理:支持日志查询、信息汇总、告警查看等平台运维相关需要。调度策略控制:支持任务依赖策略、时间策略、控制策略、

5、并发策略、事件依 赖策略等多维度策略控制。(6)事件生成和引用: 事件生成:流内任务可通过右键菜单生成事件,生成的事件类型为任务事件, 生成的任务事件需要定义事件名称和事件描述; 引用的事件分为两种类型, 任务事件和 FTP 标识文件事件, 用户检索需要引用 的事件并应用于任务前置条件中; 引用任务事件需要做依赖检查,只能调度频率大的依赖小的,如月依赖日、日 依赖小时;全依赖支持: 支持天级别类型任务依赖小时任务, 月类型任务依赖天类型任务, 小时依赖分钟任务;(7)异常处理:重跑:拓扑图中失败状态的节点可进行重跑操作 补数据:可选择单个任务,或者多个任务(可跨流) ,多个任务一起执行补数 据

6、操作。停止:停止任务运行,停止状态下再次运行为重新执行; 暂停:暂停任务运行,暂停状态下再次运行为继续上次运行; 忽略:对于某项任务前置任务未执行完成,且此前置任务不重要,可对前置任 务进行忽略操作。忽略的任务不在运行,自动进行下游任务运行;(8) 任务流运行状态:以拓扑图形式查看任务流运行结果,每个任务运行状态,运行成功 / 失败有颜色差异体现; 可基于任务流名称、时间选择、责任人、任务类型、调度方式、执行频率、运 行状态检索实例。检索出的实例按照所属任务流进行分组,第一层展示任务流信息包括:任务流 名称、任务流描述、责任人、执行频率、创建时间、发布状态、操作(展开 / 收缩);第二层为实例

7、信息包括:实例 id、所属任务流、责任人、调度方式、执行时间、执行结果、操作(查看运行分析) ; 任务分析详情页,展示任务流拓扑图、每个节点执行状态、任务执行报告。在 拓扑图中可右键对任务进行异常处理,异常处理包括:重跑、补数据、停止、 暂停、忽略、查看日志。异视角可切换为全局视角,全局视角展示当前视图的任务流上下游任务流,并体 现关联实例的运行状结果平台应用: 智能产品数据采集服务:用户使用产品的行为数据,产品运行过程状态数据智能产品数据共享服务:产品和产品之间数据共享协作服务2)机器学习平台;平台框架:机器学习平台应用架隔Python技术方案:待补充主要实现的功能:平台应用:机器学习本质是

8、使用样本数据或以往的经验来解决给定的问题, 主要应用在数据挖掘场 景下,即指从大量的数据中通过算法获取隐藏于其中信息的过程。机器学习在金融、市,银行分析历史数据,场营销、制造业、网络分析和电信领域都有较多应用。在金融领域 构建用于信用分析、 诈骗检测等方面应用模型; 在市场营销领域 ,机器学习技术较广泛地 应用于分类型和关联型任务 ;例如 ,购物篮分析通过找出顾客购买的产品的关联 ,制定出产 品组合销售的策略, 货物位置的摆放 ,产品促销和产品库存。 在制造业, 学习模型可用于 优化、 控制以及故障检测等; 在电信领域 ,机器学习技术在分类、 预测和侦查型任务方面 均有较多应用。例如 ,欺诈侦

9、查通过收集过去的欺诈行为数据 ,建立的模型可以有效的鉴 别类似发生的电信欺诈行为。 在网络分析领域 ,机器学习技术应用较为广泛的是关联型任 务。用户在应用数据挖掘技术时 ,应充分了解各种技术与方法的优势与劣势 ,针对特定的 环境与任务选择合适的技术。(3)元数据管理平台平台框架:技术方案:从Hive的Meta-Data DB中抓取Hive表、字段、表授权等信息,自动采集 Hive仓库基础及管理元数据信息,并基于 CBT的任务配置信息分析 Hive表之间的数据血缘。在提供Hive仓库维护功能之外,提供数据血缘影响分析,提醒用户维护操作的影响范围主要实现的功能:平台应用:元数据主要意义:全企业的信

10、息地图,通过自动化的多源头元数据采集, 自动分析汇总, 形成完整的企业数据地图,使用户能够从全局视角审查企业整体数据状况; 数据来源的追溯,使用元数据产品能够,方便内部管理、审计或外部监管的需求追溯业务指标、报 表的数据来源和加工过程;数据来源的追溯,使用元数据产品能够,方便内部管理、审计或外部监管的需求追溯业务指标、报表的数据来源和加工过程;数据共享,最大化提 高数据应用价值,实现产业链间的数据共享;(4)智能计算平台平台框架:技术方案: 支持各种业务场景下的大规模离线、实时、准实时数据的计算和存储;主要实现的功能:平台应用:1智能产品数据采集处理服务:用户使用产品的行为数据,产品运行过程状

11、态数据;(5)OLAP数据引擎与自助报表平台框架:技术方案:整个OLAP引擎平台使用列式存储、编码、倒排索引、分区、 Hypelog等技术加快统计汇总性能,具有很好的可扩展性和高可用性,使得可以在秒级处理百亿到万亿的海量数 据。提供实时和离线处理两种模式。 该平台综合使用了 druid、kylin、parquet、hbase sparksql等多种开源工具,通过 SQL引擎和数据路由,智能的根据解析优化 SQL语句来分析使用哪种底层技术可以达到最优效果。该平台支持 SQL2003和UDF,客户可以很方便的通过SQL进行多维度的汇总统计分析。前台提供各种数据可视化分析工具,方便用 户做上卷、下钻、切片、旋转等各种 OLAP操作,可以自由的对数据进行深入分析、展示,发现数据之间的关联关系并作出商业决策,提高数据的利用率。主要实现的功能:平台应用:OLAP 数据引擎支持海量数据的数据探查以及数据挖掘、支持可自由定制的海量数据多 维分析,主要应用于情报分析:舆情分析、竞争对手分析、产品分析、行业分析、供应 商分析: 通过大数据预判供应商能力等等方面; 自助报表则配合 OLAP 数据分析引擎实 现对数据分析的结果的可视化展示,主要的应用方向有工业生产中的过程监测、情报分 析、竞争对手信息分析以及产品分析等等产业数据分析领域;

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1