大数据相关技术资料.docx

上传人:b****7 文档编号:10070671 上传时间:2023-02-08 格式:DOCX 页数:10 大小:585.03KB
下载 相关 举报
大数据相关技术资料.docx_第1页
第1页 / 共10页
大数据相关技术资料.docx_第2页
第2页 / 共10页
大数据相关技术资料.docx_第3页
第3页 / 共10页
大数据相关技术资料.docx_第4页
第4页 / 共10页
大数据相关技术资料.docx_第5页
第5页 / 共10页
点击查看更多>>
下载资源
资源描述

大数据相关技术资料.docx

《大数据相关技术资料.docx》由会员分享,可在线阅读,更多相关《大数据相关技术资料.docx(10页珍藏版)》请在冰豆网上搜索。

大数据相关技术资料.docx

大数据相关技术资料

大数据平台

 

1•大数据平台技术架构:

厂数据开发平台、

C"03P平台厂机器学习平台'

DataCube

□J

T

iz

y

数据J7发任务词度

Scala/Java

SQL

Streaming

DataSet

DataFrame

RDD|

spark

Data

Source

 

files

Log

Syslog

Binlog

2具体产品介绍

(1)集成数据幵发平台

平台框架:

技术方案:

基于状态机(StateMachine)、微服务(内嵌RestRPCConsolel艮务端等)、SVG\AngularJS

图形化、高可用解决方案(最终一致散列、服务发现、头节点选举等)提供了一个易用

的图像化配置大数据任务依赖关系,人工监控和重跑干预任务执行状态的大数据开发工

具,整合了平台现有MR/Hive/Spark/SparkSQL/SparkStream/Sqoop等任务类型。

降低大

数据平台用户的使用门槛,提供强大的任务流依赖、调度功能。

主要实现的功能:

(1)任务流管理:

任务流组织:

以拓扑结构方式直观展示任务之间依赖关系任务配置:

任务项配置,支持源数据、目标数据、资源、参数等配置运行测试&日志查看:

线上任务试运行及日志展示,可根据日志调优。

数据探查:

数据预览帮助数据质量控制,做到把控数据来源,提升准确性。

导入导出:

任务流可导出为ZIP文件,ZIP文件保留任务流中所有信息:

流的属性,流内任务的配置、任务节点位置、连线等草稿任务:

类似于回收站作用,作为任务缓冲地带,可将草稿任务移到具体任务流中。

(2)资源中心:

事件管理:

事件管理及事件触发记录查询。

任务组管理:

将任务加入一个任务组,设置最大并发数,实现流量控制。

资源管理:

用于配置任务的时候选取公共资源。

(3)运维中心:

任务流运维:

任务流批次及状态展示,可根据时间范围、状态等筛选项进行筛选。

任务运行状态:

任务运行状态查询。

可根据任务执行时间和执行结果等筛选。

任务执行报告:

任务执行情况及统计信息分析。

影响分析:

任务失败原因和造成的影响查看。

信息看板:

任务完成情况、告警展示、任务执行时长排行、调度任务数量趋势、出错排行、任务类型分布等信息汇总展示。

(4)告警管理:

监控范围:

系统监控(队列深度、健康状态等)、任务监控(超时、延时、报错)。

告警类型分为任务超时告警、任务失败告警、关键任务告警、定时失败汇总、定时关键任务汇总。

配置告警接收人员,通过工号/姓名检索人员并添加,告警方式有邮件、短信、豆芽,可多选。

(5)调度平台:

任务类型支持:

支持Hive任务、MapReduce任务、Java任务、Python任务、SparkSql

任务、Spark任务、机器学习任务等多种类型任务执行。

后台管理:

支持日志查询、信息汇总、告警查看等平台运维相关需要。

调度策略控制:

支持任务依赖策略、时间策略、控制策略、并发策略、事件依赖策略等多维度策略控制。

(6)事件生成和引用:

事件生成:

流内任务可通过右键菜单生成事件,生成的事件类型为任务事件,生成的任务事件需要定义事件名称和事件描述;引用的事件分为两种类型,任务事件和FTP标识文件事件,用户检索需要引用的事件并应用于任务前置条件中;引用任务事件需要做依赖检查,只能调度频率大的依赖小的,如月依赖日、日依赖小时;

全依赖支持:

支持天级别类型任务依赖小时任务,月类型任务依赖天类型任务,小时依赖分钟任务;

(7)异常处理:

重跑:

拓扑图中失败状态的节点可进行重跑操作补数据:

可选择单个任务,或者多个任务(可跨流),多个任务一起执行补数据操作。

停止:

停止任务运行,停止状态下再次运行为重新执行;暂停:

暂停任务运行,暂停状态下再次运行为继续上次运行;忽略:

对于某项任务前置任务未执行完成,且此前置任务不重要,可对前置任务进行忽略操作。

忽略的任务不在运行,自动进行下游任务运行;

(8)任务流运行状态:

以拓扑图形式查看任务流运行结果,每个任务运行状态,运行成功/失败有颜

色差异体现;可基于任务流名称、时间选择、责任人、任务类型、调度方式、执行频率、运行状态检索实例。

检索出的实例按照所属任务流进行分组,第一层展示任务流信息包括:

任务流名称、任务流描述、责任人、执行频率、创建时间、发布状态、操作(展开/收缩);第二层为实例信息包括:

实例id、所属任务流、责任人、调度方式、

执行时间、执行结果、操作(查看运行分析);任务分析详情页,展示任务流拓扑图、每个节点执行状态、任务执行报告。

在拓扑图中可右键对任务进行异常处理,异常处理包括:

重跑、补数据、停止、暂停、忽略、查看日志。

视角可切换为全局视角,全局视角展示当前视图的任务流上下游任务流,并体现关联实例的运行状结果

平台应用:

智能产品数据采集服务:

用户使用产品的行为数据,产品运行过程状态数据

智能产品数据共享服务:

产品和产品之间数据共享协作服务

2)机器学习平台;

平台框架:

机器学习平台应用架隔

Python

 

技术方案:

待补充

主要实现的功能:

平台应用:

机器学习本质是使用样本数据或以往的经验来解决给定的问题,主要应用在数据挖掘场景下,即指从大量的数据中通过算法获取隐藏于其中信息的过程。

机器学习在金融、市

银行分析历史数据,

场营销、制造业、网络分析和电信领域都有较多应用。

在金融领域构建用于信用分析、诈骗检测等方面应用模型;在市场营销领域,机器学习技术较广泛地应用于分类型和关联型任务;例如,购物篮分析通过找出顾客购买的产品的关联,制定出产品组合销售的策略,货物位置的摆放,产品促销和产品库存。

在制造业,学习模型可用于优化、控制以及故障检测等;在电信领域,机器学习技术在分类、预测和侦查型任务方面均有较多应用。

例如,欺诈侦查通过收集过去的欺诈行为数据,建立的模型可以有效的鉴别类似发生的电信欺诈行为。

在网络分析领域,机器学习技术应用较为广泛的是关联型任务。

用户在应用数据挖掘技术时,应充分了解各种技术与方法的优势与劣势,针对特定的环境与任务选择合适的技术。

(3)元数据管理平台

平台框架:

技术方案:

从Hive的Meta-DataDB中抓取Hive表、字段、表授权等信息,自动采集Hive仓库基

础及管理元数据信息,并基于CBT的任务配置信息分析Hive表之间的数据血缘。

在提

供Hive仓库维护功能之外,提供数据血缘影响分析,提醒用户维护操作的影响范围

主要实现的功能:

平台应用:

元数据主要意义:

全企业的信息地图,通过自动化的多源头元数据采集,自动分析汇总,形成完整的企业数据地图,使用户能够从全局视角审查企业整体数据状况;数据来源的

追溯,使用元数据产品能够,方便内部管理、审计或外部监管的需求追溯业务指标、报表的数据来源和加工过程;数据来源的追溯,使用元数据产品能够,方便内部管理、审

计或外部监管的需求追溯业务指标、报表的数据来源和加工过程;数据共享,最大化提高数据应用价值,实现产业链间的数据共享;

(4)智能计算平台

平台框架:

技术方案:

支持各种业务场景下的大规模离线、实时、准实时数据的计算和存储;

主要实现的功能:

平台应用:

1智能产品数据采集处理服务:

用户使用产品的行为数据,产品运行过程状态数据;

(5)OLAP数据引擎与自助报表

平台框架:

技术方案:

整个OLAP引擎平台使用列式存储、编码、倒排索引、分区、Hypelog等技术加快统计

汇总性能,具有很好的可扩展性和高可用性,使得可以在秒级处理百亿到万亿的海量数据。

提供实时和离线处理两种模式。

该平台综合使用了druid、kylin、parquet、hbasespark

sql等多种开源工具,通过SQL引擎和数据路由,智能的根据解析优化SQL语句来分析

使用哪种底层技术可以达到最优效果。

该平台支持SQL2003和UDF,客户可以很方便

的通过SQL进行多维度的汇总统计分析。

前台提供各种数据可视化分析工具,方便用户做上卷、下钻、切片、旋转等各种OLAP操作,可以自由的对数据进行深入分析、展

示,发现数据之间的关联关系并作出商业决策,提高数据的利用率。

主要实现的功能:

平台应用:

OLAP数据引擎支持海量数据的数据探查以及数据挖掘、支持可自由定制的海量数据多维分析,主要应用于情报分析:

舆情分析、竞争对手分析、产品分析、行业分析、供应商分析:

通过大数据预判供应商能力等等方面;自助报表则配合OLAP数据分析引擎实现对数据分析的结果的可视化展示,主要的应用方向有工业生产中的过程监测、情报分析、竞争对手信息分析以及产品分析等等产业数据分析领域;

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 表格模板 > 合同协议

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1