XXX大数据平台总体技术要求Word文件下载.docx-资源下载

XXX大数据平台总体技术要求Word文件下载.docx

1、4 数据支持 325 集成实现 336 运维实现 356.1 运维目标 356.2 运维服务内容 356.3 运维服务流程 366.4 运维服务制度规范 376.5 应急服务响应措施 376.6 平台监控兼容 386.7 资源管理 386.8 系统升级 396.9 系统监控平台功能 396.9.1 性能监控 396.9.2 一键式收集 426.9.3 系统资源监控图形化 436.9.4 服务进程监控 446.9.5 消息队列监控 456.9.6 故障报警 456.9.7 告警以及统巡检以及信息收集 467 平台性能 477.1 集群切换 477.1.1 主集群异常及上层业务切换 477.1.2

2、从集群异常及上层业务切换 477.2 节点切换 477.3 性能调优 487.3.1 图形化性能监控 487.3.2 图形化调优工具 487.3.3 调优策略 517.4 并行化高性能计算 527.5 计算性能线性扩展 538 平台扩展性 559 可靠性和可用性 569.1 单点故障消除 569.2 容灾备份优化 569.2.1 扩容、备份、恢复机制 569.2.2 集群数据容灾优化 579.2.3 数据完整性保障和方案 579.2.4 主集群异常及上层业务切换 589.2.5 从集群异常及上层业务切换 589.3 系统容错性 5910 开放性和兼容性 6010.1 高度支持开源 6110.

3、1.1 PMC-HaoyuanLi 6110.1.2 Committor-AndrewXia 6310.1.3 Committor-ShaneHuang 6510.1.4 Committor-ZhihongYu 6710.1.5 Committor-JasonDai 6910.1.6 Committor-WeiXue 7110.2 操作系统支持以及软件环境配置 7310.3 兼容性与集成能力 7411 安全性 7511.1 身份鉴别 7511.2 访问控制 7511.3 安全通讯 7812 核心产品优势 7912.1 高速运算、统计分析和精确查询 7912.1.1 Spark引擎结合分布式内存

4、列存提供高性能计算 7912.1.2 多种索引支持与智能索引 7912.2 有效的资源利用 7912.3 高并发、低延迟性能优化 8012.4 计算资源有效管控 8012.5 API设计和开发工具支持 8112.6 友好的运维监控界面 8212.7 扩容、备份、恢复机制 8612.8 集群自动负载均衡 8612.9 计算能力扩展 8613 自主研发技术优势 8713.1 高稳定、高效的计算引擎Inceptor 8713.2 完整的SQL编译引擎 8713.3 高性能的SQL分析引擎 8713.4 SQL统计分析能力 8813.5 完整的CURD功能 8813.6 Hyperbase高效的检索能

5、力 8913.7 基于Hyperbase和SQL引擎的高并发分布式事务 8913.8 Hyperbase非结构化数据的支持 9013.9 机器学习与数据挖掘 9013.10 Transwarp Stream 9213.11 内存/SSD/磁盘混合存储 9313.12 MR/Spark/流处理统一平台 9313.13 多租户支持能力 9413.14 多租户安全功能 9413.15 标准JDBC与ODBC接口 951 产品架构图8-1 TDH产品架构TDH架构采用的是单一纯Hadoop式的数据平台架构，在结构上分为实时处理以及海量数据存储分析集群。大数据统一平台既可以处理结构化的数据，实现数据整合

6、平台、历史数据平台的处理，也可以处理非结构化、半结构化的数据，实现大数据平台、外部数据采集平台的支撑，同时，基于平台提供的实时流处理能力，可以满足准实时数据服务平台的需求。配合平台内工具组件和应用开发，数据服务总线、统一调度系统、数据管控平台的功能需求。数据接入层系统接入数据方式多样化，包括关系型数据库数据、实时数据、文件数据、图片数据等。面对于多种数据接入的需求，数据平台提供多种针对性的接入方式以及工具，通过分布式消息队列Kafka接入实时数据；通过Sqoop、DataStage等ETL工具全量或定时增量抽取同步关系型数据库，也可采用文本文件方式批量导入；自带HUE作为数据抽取管理工具，提供

7、图形化的界面定义数据抽取规则，并可与其他工具相结合，完成数据抽取的工作流；同时，分布式文件系统HDFS通过FTP Over HDFS提供文件通过FTP传入HDFS的通道；通过Flume提供海量日志文件的聚汇到HDFS的功能。数据存储层在数据存储层中，底层为统一分布式存储HDFS，HDFS采用三份副本策略保证数据的安全性以及可靠性。然而，随着时间的推移，很少被使用到的归档历史数据会越来越多，占用大量的HDFS存储空间，HDFS通过Erasure Code技术将历史冷数据在保证数据安全可靠的基础上降低其存储开销。在HDFS之上提供分布式NoSQL（Not Only SQL）实时数据库 Hyperb

8、ase为高并发检索分析以及事务支持提供平台级支撑。Hyperbase通过多种索引支持海量数据多维度的秒级检索查询，包括全局索引，全文索引，组合索引等，另外Hyperbase与Titan相结合支持图数据库。在平台存储层，支持各类结构化、半结构化、非结构化海量数据的低成本存储，为超长时间的海量历史数据存储和使用提供基础支撑。并通过Hyperbase对于海量数据高并发低延时的检索能力，很好的支持移动互联业务场景的数据访问需求。数据计算层在数据存储层之上的数据计算层通过YARN提供统一的资源管理调度，可以动态创建和销毁集群，灵活部署业务。采用Inceptor内存计算分析能力为贵州银行的各个应用提供高效

9、的分析挖掘能力。在Inceptor中，通过独立的分布式内存列式存储Holodesk，解决开源Spark的稳定性问题以及进一步提供交互式分析能力，同时为了降低平台建设成本与提高平台内存分析数据量，分布式内存存储可建在内存或者固态硬盘SSD上。利用Spark高速内存迭代计算的优势，通过内置的基于Spark计算框架的基础并行统计算法库以及机器学习算法库，为大数据平台提供高效的数据挖掘能力。同时，保留传统的MapReduce计算框架，完整大数据平台对于各个计算框架的支持。此外，实时流数据通过Spark Streaming支持实时数据的低延时高吞吐的处理。通过消息队列Kafka消费实时数据流，做到数据不

10、丢不重，基于Spark Streaming提供类似于批处理系统的计算能力、健壮性、扩展性的同时，将数据时延降低至秒级，适用于各种实时数据的复杂处理业务场景。数据分析层在数据分析层，通过Inceptor对存储在HDFS、Hyperbase以及分布内存缓存Holodesk上的数据进行统计检索分析，并为数据服务层提供JDBC/ODBC接口，同时为了降低数据平台学习与使用成本，方便传统业务迁移，Inceptor兼容支持SQL2003标准以及PL/SQL。对于数据挖掘，在分析层，提供可视化的挖掘建模设计工具RStudio，使用R语言进行交互式数据挖掘与统计分析，挖掘数据深度规律并建立数据模型。同时支持M

11、ahout，利用Mahout中丰富的并行化机器学习算法对海量数据进行分析挖掘。数据应用层在数据服务层，通过数据存储层、计算层以及分析层提供的接口，封装后提供多种数据服务能力，包括海量数据高并发检索查询，即席查询，海量数据交互式统计分析，数据可视化，实时数据比对异常检测告警，实时数据基于滑动时间窗口统计分析，海量数据统计挖掘以及数据平台中数据交换等。通过大数据平台对外提供的各种服务，在其之上实现贵州银行各类应用，包括管理驾驶舱、统一报表平台、数据分析、实时数据处理等。数据管理与系统安全此外，大数据平台通过安全通信协议和角色权限管理功能，在软件层面提供通信安全和数据访问安全的双重保障，有效的对各个

12、部门以及下级单位的数据访问进行控制和安全管理，实现数据平台4A级（认证Authentication、账号Account、授权Authorization、审计Audit）统一安全管理解决方案。通过LDAP管理用户账号，使用Kerberos进行用户身份认证，同时大数据平台实现基于角色的访问权限控制（Role Based Access Control），最后所有的安全访问审计内容都会记录在数据平台的日志中。大数据平台中，从数据的接入，如分布式消息队列Kafka的Topic权限控制，到平台中的各个组件都支持安全管理，包括HDFS，YARN，Hyperbase，Inceptor等组件。同时为了重要数据的

13、安全考虑，HDFS提供加密存储。最后，数据平台提供易用的管理运维工具，降低数据平台运维成本，包括集群的安装，参数的配置，节点的增删，服务的监控，资源指标的监控以及异常的记录与告警。1.1 基础构建平台图8-2核心技术产品架构图Transwarp Data Hub大数据基础平台，底层为Transwarp Hadoop统一分布式存储，其上包含了分布式流处理Transwarp Stream，交互内存分析SQL引擎Transwarp Inceptor，分布式实时在线数据库Transwarp Hyperbase，分布式机器学习引擎Transwarp Discover，以及基于Transwarp YARN

14、的多租户分布式计算集群Inceptor。以上组件由Transwarp Manager进行统一管理和监控。内部组件通过Stargate进行通信，同时各个组件也对外开放接口。 Inceptor：ODBC/JDBC、Stargate Hyperbase：Hyperbase driver、Stargate、Java API、Scala API Stream ：Stargate、专用API Discover：专用API、Stargate1.2 大数据平台组件功能介绍1.2.1 Transwarp Hadoop分布式文件系统本平台采用基于HDFS的大数据存储系统，同时支持Erasure Code以及HD

15、FS文件加密存储。Hadoop分布式文件系统（HDFS）是运行在通用硬件上的分布式文件系统。HDFS提供了一个高度容错和高吞吐量的海量数据存储解决方案。HDFS已经在各种大型在线服务和大型存储系统中得到广泛应用，已经成为海量数据存储的事实标准。HDFS通过一个高效的分布式算法，将数据的访问和存储分布在大量服务器之中，在可靠的多备份存储的同时还能将访问分布在集群中的各个服务器之上，是传统存储构架的一个颠覆性的发展。NameNode管理元数据，包括文件目录树，文件-块映射，块-数据服务器映射表等；DataNode负责存储数据、以及响应数据读写请求；客户端与NameNode交互进行文件创建/删除/寻

16、址等操作，之后直接与DataNode交互进行文件I/O。采用NameNode HA方案保证HDFS的高可靠性，始终有一个NameNode做热备，防止单点故障问题。采用QJM的方式实现HA，文件系统元数据存储在由JournalNode组成的高可靠集群上。同时当数据量太大导致单个NameNode达到处理瓶颈时，提供HDFS Federation功能，不同的Name Service（由NameNode组成）处理挂载在HDFS上不同目录下的文件。HDFS的每个数据块分布在不同机架的一组服务器之上，在用户访问时，HDFS将会计算使用网络最近的和访问量最小的服务器给用户提供访问。由于数据块的每个复制拷贝都

17、能提供给用户访问，而不是仅从数据源读取，HDFS对于单数据块的访问性能将是传统存储方案的数倍。对于一个较大的文件，HDFS将文件的不同部分存放于不同服务器之上。在访问大型文件时，系统可以并行从服务器阵列中的多个服务器并行读入，增加了大文件读入的访问带宽。通过以上实现，HDFS通过分布式存储的算法，将数据访问均摊到服务器阵列中的每个服务器的多个数据拷贝之上，单个硬盘或服务器的吞吐量限制都可以数倍甚至数百倍的突破，提供了极高的数据吞吐量。HDFS将文件的数据块元数据信息存放在NameNode服务器之上，文件数据块分散的存放在DataNode服务器上。当整个系统容量需要扩充时，只需要增加DataNo

18、de的数量，系统会自动实时将新的服务器匹配进整体阵列之中。之后，文件的分布算法会将数据块搬迁到新的DataNode之中，不需任何系统停机维护或人工干预。通过以上实现，HDFS可以做到在不停止服务的情况下实时加入新的服务器作为分布式文件系统的容量升级，不需要人工干预文件的重新分布。HDFS文件系统假设系统故障（服务器、网络、存储故障等）是常态，而不是异常。因此通过多方面保证数据的可靠性。数据在写入时被复制多份，并且可以通过用户自定义的复制策略分布到物理位置不同的服务器上；数据在读写时将自动进行数据的校验，一旦发现数据校验错误将重新进行复制。1.2.2 Transwarp Inceptor内存分析

19、交互引擎Transwarp Inceptor是基于Spark的分析引擎，从下往上有三层架构，最下面是一个分布式内存列式存储（Transwarp Holodesk），可建在内存或者SSD上，中间层是Spark计算引擎层，最上层包括一个完整的SQL99和PL/SQL编译器、统计算法库和机器学习算法库，提供完整的R语言访问接口。Spark是Map/Reduce计算模式的一个全新实现。Spark的创新之一是提出RDD（Resilient Distributed Dataset）的概念，所有的统计分析任务是由对RDD的若干基本操作组成。RDD可以被驻留在内存中，后续的任务可以直接读取内存中的数据，因此速

20、度可以得到很大提升。Spark的创新之二是把一系列的分析任务编译成一个由RDD组成的有向无环图，根据数据之间的依赖性把相邻的任务合并，从而减少了大量的中间结果输出，极大减少了磁盘I/O，使得复杂数据分析任务更高效。从这个意义上来说，如果任务够复杂，迭代次数够多，Spark比Map/Reduce快100倍或1000倍都很容易。基于这两点创新，可在Spark基础上进行批处理、交互式分析、迭代式机器学习、流处理，因此Spark可以成为一个用途广泛的计算引擎，并在未来取代Map/Reduce的地位。Inceptor可以分析存储在HDFS，HBase或者Holodesk分布式缓存中的数据，可以处理的数据

21、量从GB到数十TB，即使数据源或者中间结果的大小远大于内存，也可高效处理。另外也通过改进Spark和YARN的组合，提高了Spark的可管理性。这些使得Inceptor成为目前真正适合企业生产环境7x24小时部署的Spark衍生产品。同时星环不仅仅是将Spark作为一个缺省计算引擎，也重写了SQL编译器，提供更加完整的SQL支持。图8-3 Inceptor模块架构同时，星环通过改进Spark使之更好的与HBase融合。星环基于HBase的产品叫做Hyperbase，通过结合Inceptor，可以为HBase提供完整的SQL支持，包括批量SQL统计、OLAP分析以及高并发低延时的SQL查询能力，

22、使得HBase的应用可以从简单的在线查询应用扩展到复杂分析和在线应用结合的混合应用中，大大拓展了HBase的应用范围。这两个产品的组合使得星环在市场上处于领先地位。1.2.3 稳定的Spark计算框架面对企业级需求，企业目前应用开源Spark的主要困难在稳定性、可管理性和功能不够丰富上。开源Spark在稳定性上还有比较多的问题，在处理大数据量时可能无法运行结束或出现Out of memory，性能时快时慢，有时比Map/Reduce更慢，支持的SQL语法仍然非常有限，无法应用到复杂数据分析业务中。然而从星环的Transwarp Inceptor中，上述问题都已经解决并经过实践上限案例的考验，并

23、且Inceptor对Spark进行了大量的改进，极大提高了Spark功能和性能的稳定性。Transwarp Inceptor能稳定的运行7*24小时，并能在TB级规模数据上高效进行各种稳定的统计分析。1.2.4 支持Memory+SSD的混合存储架构跨内存/闪存等介质的分布式混合列式存储，可用于缓存数据供Spark高速访问。小内存+SSD+磁盘的新方案可以提供跟大内存+磁盘的传统方案性能接近的交互式SQL分析能力。由于内存的价格是SSD的10倍，因此可以采用SSD来替代内存作为缓存，一方面可以增大分布式内存数据库Holodesk存储容量，另一方面可以降低成本，同时性能没有明显损失。1.2.5

24、完整SQL功能支持内置ORACLE函数支持列表表8-1 Conversionfunctions函数支持Oracle星环TDH平台ASCIISTR支持BIN_TO_NUMCASTCHARTOROWIDCOMPOSECONVERTDECOMPOSEHEXTORAWNUMTODSINTERVALNUMTOYMINTERVALRAWTOHEXRAWTONHEXROWIDTOCHARROWIDTONCHARTO_CHAR（character）TO_CHAR（datetime）TO_CHAR（number）TO_CLOBTO_DATETO_DSINTERVALTO_LOBTO_MULTI_BYTETO_N

25、CHAR（character）TO_NCHAR（datetime）TO_NCHAR（number）TO_NCLOBTO_NUMBERTO_SINGLE_BYTETO_YMINTERVALTRANSLATE.USINGUNISTR表8-2 Miscellaneousfunctions函数支持BFILENAMECOALESCEDECODEDEPTHDUMPEMPTY_BLOB，EMPTY_CLOBEXISTSNODEEXTRACT（XML）EXTRACTVALUEGREATESTLEASTNLS_CHARSET_DECL_LENNLS_CHARSET_IDNLS_CHARSET_NAMENULLI

26、FNVLNVL2PATHSYS_CONNECT_BY_PATHSYS_CONTEXTSYS_DBURIGENSYS_EXTRACT_UTCSYS_GUIDSYS_TYPEIDSYS_XMLAGGSYS_XMLGENUIDUPDATEXMLUSERUSERENVVSIZEXMLAGGXMLCOLATTVALXMLCONCATXMLFORESTXMLSEQUENCEXMLTRANSFORM表8-3 AgregateFunctions函数支持AVGCORRCOUNTCOVAR_POPCOVAR_SAMPCUME_DISTDENSE_RANKFIRSTGROUP_IDGROUPINGGROUPING_

27、IDLASTMAXMINPERCENTILE_CONTPERCENTILE_DISCPERCENT_RANKRANKREGR_（LinearRegression）FunctionsSTDDEVSTDDEV_POPSTDDEV_SAMPSUMVAR_POPVAR_SAMPVARIANCE表8-4 ObjectReferenceFunction函数支持DEREFMAKE_REFREFREFTOHEXVALUE 支持超大数据立方。支持雪花、星型等复杂分析模型等。1.2.6 Transwarp Discover机器学习引擎Transwarp Discover是针对海量数据平台提供的分布式机器学习引擎，

28、主要由R语言、Spark分布式内存计算框架以及MapReduce分布式计算框架构成。Discover支持R语言引擎，用户可以通过R访问HDFS或者Inceptor分布式内存中的数据。在Discover中，用户既可以通过R命令行，也可以使用图形化的RStudio执行R语言程序来对TDH中的数据进行分析挖掘，易用性极高。Discover内置了大量常用的并行化机器学习算法和统计算法，同时兼容数千个开源的R包，配合TDH内置的高度优化的专有算法，可高速分析关联关系网络等图数据。此外，Discover还支持用户直接将R语言代码处理逻辑作用于分布式数据集中，使用户的操作更加灵活方便。图8-4 Discover

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？