大数据平台方案模板Word文档格式.docx
《大数据平台方案模板Word文档格式.docx》由会员分享,可在线阅读,更多相关《大数据平台方案模板Word文档格式.docx(109页珍藏版)》请在冰豆网上搜索。
4.数据处理平台也可能会定期从其他现有系统中抽取部分业务数据至平台中,为后期综合分析准备数据。
5.数据处理平台准备好数据后,将通过SQL、R语言等方式对数据处理平台中的数据进行数学分析、数据挖掘和机器学习,并将结果快速显示出来,尤其是对人口与环境、教育等社会资源的模型进行分析,进行数据深度挖掘和分析。
数据处理平台对SQL支持的完整程度将是选择平台的重要考虑之一。
对SQL2003标准的完整支持,包括对各种数据类型的支持,对各种复杂连接查询的支持,对相关子查询、嵌套子查询的支持、对操作符、函数的完整支持,会使得后期在数据处理平台的应用开发变得非常方便、并且平台将方便的与现有平台、现有应用进行对接,同时上层通过SQL完成的应用,通过JDBC/ODBC接口连接的应用可以不用做任何修改,这是数据处理平台对基础应用支撑。
6.需要对数据处理平台的数据进行建模,以完成相关业务模型操作和计算。
7.数据处理平台需要支持数据分析、数据挖掘、机器学习算法。
平台需要提供对R语言和Python的支持,能够使用R语言所提供的5千多种算法,可以通过算法灵活的对数据进行分析和挖掘,提供对业务有价值的结果。
8.数据处理平台需要提供通用的应用接口,以方便与现有应用、现有系统进行对接,完成系统集成。
面临挑战
华西医院的数据增长迅速,已经达到TB级别,如果加上非结构化数据,未来几年的数据存储将达到几十TB,甚至上百TB的数据量级别,如何对这些海量历史数据资产进行有效的存储、管理、整合,并在此基础上进行快速共享、计算、分析,最终达到对业务的有效知道是本系统的建设关键。
在华西医院项目基础软件及服务建设过程中,主要会面临以下挑战:
扩展性:
当数据量达到一定限度之后,无论是数据存储、分析、查询,都会受到极大的限制,系统的横向扩展性的能力将是系统建设的重要考量之一。
价格:
系统的横向扩展,必然会带来软件、硬件成本的增加,以及后期升级、维护、扩展的成本的投入也是系统扩展面临的挑战。
性能:
数据动辄几十TB、甚至上百TB,面对如此海量的数据,若要进行高效的计算、分析,为业务提供有效的指导,必须要满足业务允许的时间要求。
平台的易用性:
华西医院项目基础软件及服务的数据处理平台易用性也是系统建设的关键问题,能否提供一个可简单、方便为上层应用使用的平台,或者可以将现有应用方便迁移到新建设的华西医院项目基础软件及服务数据处理平台也是面临的挑战。
平台的易用性将直接影响到平台的建设、应用的建设,将直接影响工作成本。
设计原则
系统在设计过程中除考虑满足当前项目建设要求外,还应当满足后续系统平滑扩展升级要求,因此总方案设计遵循如下设计原则。
Ø
开放性
引入业界开放的、成熟的标准,从而保证系统成为符合标准又不失灵活性的开放平台,为未来的系统的灵活开放奠定基础。
需要支持业界开放的标准接口,如:
SQL2003,PL/SQL等等,同时完全兼容开源的标准。
先进性
基于统一的整体架构,采用先进的、成熟的、可靠的技术与软硬件平台,保证基础数据平台系统易扩展、易升级、易操作、易维护等特性。
基于业界热门的,且领先的Spark技术,极速提高平台的整体计算性能。
可扩展性
随着新的业务需求的不断产生,支持基础数据模型、应用分析模型、前端应用的扩展性;
支持在统一系统架构中服务器、存储、I/O设备等的可扩展性。
可靠性
制定并实施基础数据平台高可用性方案、运行管理监控制度、运行维护制度、故障处理预案等,保证本期系统在多用户、多节点等复杂环境下的可靠性。
高效性
高效性包含两方面内容,一方面系统需要在规定时间内完成数据写入操作,并将数据写入对数据分析的影响降到最低;
另一方面系统需要实现规划要求的数据查询和统计分析速度。
正确性
数据质量贯穿基础数据平台系统建设的每个环节,基础数据平台系统通过合理的数据质量管理解决方案保证数据质量。
安全性
按国家标准、行业标准、安全规范等实现数据安全管理。
可维护性
系统要有统一的管理平台,管理基础数据平台系统的各个环节,能对系统进行相应的性能管理和日志监控。
易用性
有良好的人机接口不灵活多样的展现方式,需要对最终用户提供适当的培训就可以方便地使用新的分析工具,从而减少IT人员的工作量,同时加强了集群监管的时效性。
4.2.总体技术方案
通过对华西医院基础软件及服务需求的理解,以及根据建设目标、设计原则的考虑,建议华西医院采用基于大数据基础平台的架构方案,来满足华西医院基础软件及服务建设的要求。
软件架构
ApacheHadoop是针对大规模分布式数据而开发的软件框架,目前已经成为企业管理大数据的基础支撑技术。
是解决企业数据中心大数据存储、大规模数据计算、快速数据分析的优秀基础数据平台。
然而现有的Hadoop技术仍然面临一些挑战:
性能上,尽管Hadoop在100TB以上的数据上远远领先于传统数据处理技术,然而对GB到TB级数据的处理效率较低;
其次,只有对海量的数据进行高效的分析及利用才能将大数据中存在的巨大潜在价值转换为实际的商业价值,这就需要完备的决策分析工具集运行在Hadoop架构之上;
最后,亟需完备的企业级解决方案来加速大数据应用的广泛部署。
企业级大数据分析平台是业界领先的处理企业级大数据场景的高性能一站式分析平台。
它可以帮助企业快速建立一个统一的数据和计算平台,快速支持企业内部/外部数据的采集与集成、实现海量数据的存储、并提供极佳的数据计算与深度分析挖掘能力。
在大数据平台之上,用户可以构建相应分析挖掘应用,从而辅助企业及时洞察新的商机和潜在的风险,提升企业竞争力。
大数据产品具有业界完整的SQLonHadoop支持,实现完整支持SQL标准,增强分布式事务处理能力,全面支持MPP场景;
突破实时处理计算框架,支持物联网实时业务分析;
最完整的并行数据挖掘算法库,并原创前沿机器学习组件;
一站式图形化的数据开发套件,可快速分析应用;
它是企业级大数据场景的高性能一站式分析平台的优秀选择。
总体技术架构设计
基于企业内部多年的大数据建设实践经验,针对开源ApacheHadoop/Spark框架进行了大量的修复完善及深度优化工作,并自主创新的众多功能和实用工具,易于使用者开发和管理。
华西医院的数据来源自多个方面,包括内部数据来源以及未来可能第三方数据接入。
各类数据的来源方式多样化,包括关系型数据库数据、数据仓库数据、实时数据、文件数据、图片数据等。
面对于多种数据接入的需求,大数据平台提供多种针对性的接入方式以及工具,通过分布式消息队列Kafka接入实时数据;
通过Sqoop全量或定时增量抽取同步关系型数据库;
采用Kettle作为数据抽取管理工具,Kettle提供图形化的界面定义数据抽取规则,并可与其他工具相结合,完成数据抽取的工作流;
同时,分布式文件系统HDFS通过FTPOverHDFS提供文件通过FTP传入HDFS的通道;
通过Flume提供海量日志文件的聚汇到HDFS的功能。
大数据分析平台从功能架构上分为数据集成套件、大数据计算平台、算法与分析工具组件、平台运维管理组件、数据资产管理组件、数据可视化组件。
序号
名称
软件说明
软件来源
1
数据集成套件
提供对多种结构化和非结构化数据的灵活集成。
支持不同系统和设备的开发工具套件,能够根据企业的需求方便地快速扩展,为企业快速收集其信息系统之外的设备、用户和社交数据。
同时也提供网络爬虫模块,以方便企业获取外部网络数据。
自有
2
大数据计算平台
基于开源Hadoop+Spark生态系统,引入了多种核心功能和组件,对复杂开源技术进行高度集成和性能优化,面向基础设施层进行深度调优。
在分布式存储系统的基础上,建立了统一资源调度管理,高效地支持大规模批处理、交互式查询计算、流式计算等多种计算引擎。
3
算法与分析工具
提供挖掘算法工具、人工智能工具实现数据深度挖掘能力;
同时为各类客户查询分析、应用开发等相关工具,方便人员使用。
4
系统运维管控
系统运维监控中心可提供快速完成产品套件的安装部署、节点监控、访问权限管理、资源配额管理、系统告警分析、升级扩容等计算平台维护工作,通过统一的图形化界面实现对大数据平台及运行服务状况的实时监控和管理。
5
数据资产管理
将数据对象作为一种全新的资产形态,围绕数据资产本身建立一个可靠可信的管理机制,提供数据标准管理、数据资产管理、元数据管理、数据质量管理、数据安全等,以实现数据的可管、可控、可视,为实现数据价值增值奠定良好基础。
数据可视化
Vision具有仪表盘(Dashboard)、灵活查询(Query)、电子表格(Spreadsheet)、
多维分析(Analysis)、移动应用(Mobile)、分析报告插件(OfficeAddin)、自助分析(xQuery)、数据采集(dataIn)、数据挖掘(SmartMining)等丰富的功能,用户可以更直观便捷地获取信息,并开创性地把各种技术整合到一个集成环境中。
功能组件完整性介绍
产品功能说明:
功能
内容描述
数据集成组件(DataHub)
数据库导入
支持MySql、Oracle、DB2等多种数据库到Hive、HDFS的数据导入;
支持常见数据库互导以及导入到HDFS和Hive;
本地文件导入
支持本地文件、Excel、CSV到Hive、HDFS的导入;
客户端导本地路径文件源、客户端导数据库数据源;
Dump文件上传到Hive、HDFS、DB;
公有云数据导入
提供阿里云、亚马逊云RDS到HIVE、HDFS、常见DB数据导入;
大数据类数据库导入
支持Redis、HBase、Impala、MongoDB等数据导入
Http流式上传
提供http流式上传方式,开放上传接口,上传到kafka
消息队列服务
提供Kafka消息队列服务
其他类型导入
支持SAP、网络数据爬取等功能;
提供FTP上传到HDFS
迁移任务
展示所创建的任务信息及任务运行情况,并可对任务进行管理
查看所有数据迁移任务的执行历史和日志(比如某条任务是每小时执行一次,就会产生多条执行历史)
资源库
创建资源库连接信息并保存,在之后的上传过程中,可以选择已经保存过的数据库,自动进行连接选择,不用再输入信息,方便操作;
对保存过的资源库连接进行列表展示,并可以对资源库信息进行管理操作;
流程管理
流程的新建、复制、删除、修改、启用、停止、查询,定义任务调度策略;
大数据平台组件(HadoopDistribution)
分布式文件存储-HDFS
分布式文件存储、多副本备份与同步机制,提供容错机制,可修改副本策略,支持跨机房备份;
大文件写入、流式数据访问、高吞吐量数据访问;
支持数据存储分布策略,支持机架感知与负载均衡,支持高可用;
NoSQL数据库
分布式、列存储、多维结构存储,支持结构化和非结构化大数据量的高速读写操作;
面向列表(簇)的存储和权限控制,列(簇)独立检索,以及二级索引,支持数据多版本;
面向列的数据压缩,高压缩比,有效降低磁盘I/O;
数据仓库工具-Hive
海量结构数据批量离线分析;
提供基于HQL的数据查询机制,支持UDF,自定义存储格式,扩展数据类型,函数和脚本;
批量计算框架-MapReduce
数据划分和计算任务调度;
内存计算引框架-Spark
分布式内存计算引擎;
流数据计算引擎
基于Storm与SparkStreaming的流式计算引擎;
分布式数据库MPP
支持基于Spark的MPP架构数据库,基于Spark扩展CRUD操作;
多维分析引擎-Kylin
提供OLAP分析能力,支持SQL查询
分布式消息队列服务-Kafka
支持消息队列的负载均衡、分区存储、数据压缩等
分布式协作服务-Zookeeper
配置管理、配置更新通知、节点主备容灾、节点心跳管理等;
统一资源调度-Yarn
支持资源封装、调度、隔离以及配额管理;
支持Capacity(静态)、FIFO(先进先出)、Fair(公平、动态)等调度模式;
交互式分析引擎-Impala
支持基于SQL的查询分析;
支持基于JDBC/ODBC的数据库连接,支持BI可视化工具连接
数据导入导出-Sqoop
支持传统数据库到Hadoop;
支持Hadoop到传统数据库;
全文搜索引擎-Solr
基于Lucene的全文搜索服务器;
日志采集服务-Flume
分布式、可靠的日志采集服务;
日志分析服务-ELK
提供一个分布式多用户能力的全文搜索引擎;
支持日志搜集处理框架、快速的日志综合处理能力;
支持日志搜索、可视化、分析能力
缓存服务-Redis
基于Key-value的数据缓存库,支持数据同步;
安全保障
支持Kerberos认证和LDAP集成;
任务调度(TaskScheduler)
实例管理
快速检索查询当前平台的所有流程实例、流程执行实例依赖关系图形化、实例执行流程图查看;
重跑、补跑、任务重试、终止;
实例相关流程调度历史时长图形化与列表两种方式展示;
配置管理
数据库等资源的连接配置;
依赖的hadoop/hdfs等相关的配置;
支持短信/邮箱告警服务,如邮箱配置、SMS配置,告警短信配置;
数据分析(SQL/R/PythonEditor)
数据源管理
获取数据库元数据信息,可以展开并快速检索表信息;
数据查询
提供SQL编辑器,支持语法补全、关键字补全、数据库表提示、SQL格式化;
支持SQL2003标准,兼容SqlServer/Oracle语法,支持存储过程、支持TPC-DS测试集99个SQL语句;
查询结果可以通过交叉表进行进过展示,默认显示前100行;
脚本开发
支持R、Python脚本运行;
定时任务
展示当前定时任务列表及执行历史;
定时任务添加、修改、删除、禁止,可以配置任务的调度周期
多租户管理(UserAdmin)
用户管理-操作用户
用户及账户的添加、修改、删除,用户启停用;
项目管理-多租户管理
提供项目管理、人员分配、权限管理等功能
费用管理
当前计算、存储资源消耗费用计算,并可查看详情;
资源管理
当前租户下各项目资源使用情况,对项目进行资源池分配;
个人中心
密码修改、用户注销;
集群管理(Manager)
安装部署
安装文件拷贝、环境检测与主机环境配置、组件自动化部署;
集群监控
指标监控、监控热图、历史配置信息、版本信息;
服务管理
添加与删除服务、服务启停、部署与移动;
参数配置、配置组、历史版本;
HA配置,支持全组件的HA配置,包括Manager管理节点;
主机管理
添加与删除主机节点、主机监控指标、主机及相关组件的告警信息;
告警管理
报警历史记录;
告警组、告警通知;
版本管理
平台及各个组件版本管理、版本升级;
平台授权信息注册;
用户管理-运维用户
用户添加、修改、删除;
角色添加、修改、删除;
日志管理
根据检索内容做简单的信息统计,统计不同类型输出信息数量;
根据组件、关键字信息做信息搜索;
元数据管理Metadata
元数据采集
JDBC数据库连接采集、DDL文件上传解析、Excel模板上传解析、API读取系统数据
元数据内容展示
支持数据库Oracle、MySQL、Postgresql、SqlSever的数据结构、样本数据、变更详情、基本信息、存储信息、分区信息、索引信息;
主外键信息采集、视图信息采集、分区信息采集及数据库、表大小的信息采集;
支持分布式数据架构Hive、HDFS信息采集功能;
支持内部数据处理流程、Oozie、azkaban的信息采集
元数据查询
支持模糊查询和精确查询的全局搜索;
Hive和HDFS支持血缘分析功能,主要为表之间的关联性;
支持Ooize和Kettle等常见ETL开发工具的血缘关系;
元数据变更记录
可查看系统元数据新增、修改、删除的变更总数目;
可查看系统元数据新增、修改、删除的详情;
结构化数据管理
提供视图目录的新增、修改和删除;
元数据添加业务类描述信息
记录查看表字段和分区的变更
支持用户对元数据添加:
问题、描述、数据质量等描述注释问题;
用于团队分享协作使用数据;
提供基于业务层级数据模型的管理
非结构化数据管理
提供对象存储系统,对文档、图片、音频视频存储管理;
提供对非结构化数据自动打标管理;
提供通过标签搜索查询;
数据生命周期管理
数据生命周期判定原则定义
生命周期查询/更改
数据生命周期监控
过期数据销毁
元数据权限管理
实体数据使用的权限分配功能
元数据访问的权限控制
数据质量(DataQuality)
基础检查
按用户选定模式统计"
空白"
数量和占比;
验证字段的唯一性,统计不唯一id的占比,计算“孤值”;
类型检查
统计true/false(/null)各自占比
统计字符集统计各自数量
按用户勾选项统计结果
日期检查
统计日期缺失数量和占比;
统计各种时间关键数据;
统计各部分时间分布;
查找出当中包含的工作日;
其它检查
按用户输入统计各部分数量和占比
提取顶部(底部)topN的值
统计用户指定参数不匹配的值及数量比例
模式搜索
数据集成组件(DataHub)
采集具备批量、实时、结构化、非结构化等多样化的采集功能。
可提供图形化的操作配置,统一的调度和监控,结合其良好的分布式并行处理架构,具备动态的横向扩展能力。
数据采集
批量数据采集作为大数据体系的核心功能组件,既可以基于SMP单机处理,也可以基于低成本的X86分布式平台展开系统设计,支持库外预处理,基于HADOOP组件实现批量数据的并行数据处理。
其核心功能紧紧围绕构建大数据系统在数据处理层面上涉及到的数据采集、清洗、转换、加载及交换的核心数据加工流程展开。
(1)数据抽取
数据抽取功能具备从不同数据源(RDBMS、Hadoop、MPP等)进行指定规则的数据提取作业,抽取后的数据存储支持落地与不落地两大类进行,抽取后的数据可以为数据转换环节进行处理提供输入,也可以直接进行处理或者加载。
支持Oracle,DB2,Mysql,SQLserver,Teradata,Greenplum等主流数据库接口。
数据采集采用多样性的接口方式,除了支持传统的JDBC/ODBC接口、FTP文件接口,还支持目前主流的流数据采集的Socket接口及Webservice接口,同时扩展支持了Hadoop生态圈的Flume日志系统采集接口等,提供完善的图形化可拖拽的操作管理界面提供良好的用户体验降低产品使用难度,可以根据实际业务需求选择相应的配置也可以统一使用。
数据采集功能针对不同的使用场景诉求提供种类丰富的方式支持,具体来讲主要包括以下几种方式支持:
✧批量数据抽取
运用大规模并行计算特点来达到批量数据抽取目标,主要应对数据抽取数据源以较大文件形式对外提供数据时可采用此种采集模式,批量数据采抽取具备如下功能与能力:
⏹多协议数据抽取
提供了文件和数据库等多种数据抽取方式包括支持:
高性能关系型数据仓库、MPP分布式数据仓库、Hadoop等,接口协议可以根据需要随时添加。
⏹多格式数据解析
多种文件格式