曙光XData大数据教战手册Word文档格式.docx

上传人:b****6 文档编号:17253648 上传时间:2022-11-29 格式:DOCX 页数:24 大小:2.70MB
下载 相关 举报
曙光XData大数据教战手册Word文档格式.docx_第1页
第1页 / 共24页
曙光XData大数据教战手册Word文档格式.docx_第2页
第2页 / 共24页
曙光XData大数据教战手册Word文档格式.docx_第3页
第3页 / 共24页
曙光XData大数据教战手册Word文档格式.docx_第4页
第4页 / 共24页
曙光XData大数据教战手册Word文档格式.docx_第5页
第5页 / 共24页
点击查看更多>>
下载资源
资源描述

曙光XData大数据教战手册Word文档格式.docx

《曙光XData大数据教战手册Word文档格式.docx》由会员分享,可在线阅读,更多相关《曙光XData大数据教战手册Word文档格式.docx(24页珍藏版)》请在冰豆网上搜索。

曙光XData大数据教战手册Word文档格式.docx

4)处理速度快——Velocity

这是大数据区分于传统数据挖掘的最显著的特征。

根据IDC的“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2ZB。

在如此海量的数据面前,处理数据的效率就是企业的生命。

3.产品介绍

3.1产品概述

Xdata大数据一体机是一款通用的海量数据处理平台,提供对结构化及非结构化海量数据的存储组织和查询处理功能,满足用户对海量数据的过滤性查询、统计分析类查询和关联分析的处理需求。

Xdata大数据一体机可广泛的应用在电信数据统计分析,互联网/移动互联网的日志和用户行为分析,物联网/传感器网络的数据监控和追踪分析,以及金融交易数据的离线统计和挖掘等众多领域。

3.2功能特性

Xdata大数据处理机将数据存储单元和处理单元分离,通过构架高效的服务中间件,将底层采用无共享结构的数据存储节点,聚合成一个单一的数据处理系统映像,达到较高的数据读写并发度、计算并发度,以及良好的系统扩展性,可靠性和可维护性。

系统结构如图:

图表31XData系统结构

Xdata向用户提供统一的类JDBC的客户端编程接口,向下管理分布在不同存储模块上的不同类型的数据,并提供简易的用户管理界面。

Xdata系统的核心计算包括自动的服务注册和负载均衡,可扩展的数据划分和分布策略,高效的批量数据加载,通用的并行查询分析和处理引擎,结构化和非结构化数据的统一访问接口,不同类型数据之间的关联查询和检索,以及全方位的熊故障和恢复处理等多项技术。

Xdata的产品功能特性如下:

1)分级存储

Xdata支持分级存储,以降低系统的总体持有成本。

即按照数据量和数据的访问频率,分为在线、离线和备份三个存储级别,并支持数据在各级之间根据策略进行迁移。

2)复杂数据类型关联分析

Xdata支持大表关联和大表嵌套类等复杂的查询语句的处理。

Xdata系统通过将复杂查询解析成在多个数据节点上的并行任务流,来提高复杂查询的处理性能。

Xdata支持用户自定义的并行查询任务流,可以支持任意复杂的结构化/非结构化数据处理语义,以满足更广泛的应用需求。

3)SN-MPP并行处理架构

Xdata采用无共享的集群架构,提供高速的数据写入能力。

写入过程中,采用并行写入的方式,按照一定的数据划分策略,将数据写入到后端的数据节点。

Xdata将查询语句分解成为在多个数据模块并行执行的查询任务流,所有的查询处理都在数据节点上并行的执行,充分利用无共享结构的计算并行度。

Xdata提供任务断点执行功能,发生意外情况时,失效任务自动恢复执行。

4)SQL/MapReduce一体化执行框架

XData提供类SQL访问接口:

有SQL使用经验的用户无需额外学习即可很方便的使;

XData提供SQL/MapReduce混合执行框架,提供跨平台的兼容性。

3.3产品特点

中科曙光XData大数据一体机的主要硬件组成部分——数据模块DataModule,具有如下特点:

1)高性能

Ø

采用Intel最新一代的E5-2600系列处理器,处理器内部集成PCI-E控制器;

处理器之间采用更多、更快的QPI总线,大幅提升CPU之间协作效率;

16根DIMM插槽,支持DDR3内存,频率支持1600MHz(由使用的处理器型号决定),最高可支持512GB内存;

PCI-E总线提升到3.0标准,极大的提高了扩展性能。

2)高可靠性

具有高级内存容错功能;

支持多网卡冗余,系统正常时分摊网络流量,当其中一块网卡出现问题时,自动将其负担的工作切换到其他网卡;

机箱温度检测功能,随时检测机箱内部的温度以及系统风扇的情况,发现问题及时报警;

标配2+1冗余电源,防止瞬间掉电,提供用户更稳定可靠的系统电源。

3)高扩展性

16条DIMM插槽,最大可扩展至512G内存;

最大支持36块硬盘,可用作存储服务器;

支持6条PCI-E插槽,提供高扩展能力,支持更多扩展卡,为更多应用提供支持。

4)高可管理性

可选智能硬件监控系统。

提供系统内部温度,风扇转速,直流电源电压等工作状态信息显示。

自动记录主机因故障停止工作的时间和日志信息,帮助分析故障原因;

支持智能动态调节风扇转速功能,风扇转速随着系统温度动态调整,有效降低了系统噪音和功耗。

5)易维护性

集成iKVM功能可以对数据控制器进行远程操作、维护,具有多项故障指示功能,有效降低用户宕机风险。

3.4产品规格

XData大数据一体机包含两类组件:

计算模块、数据模块和客户端。

计算模块:

用于数据的并行加载和查询处理,对客户端提供统一的数据处理接口。

数据模块:

用于提供结构化/非结构化数据一体化存储空间,内嵌高性能数据存取引擎,并行处理所有计算模块的数据访问请求。

客户端:

用于和用户应用对接,提供XJDBC/MapReduce统一访问接口和各服务专用访问接口。

表格31规格列表

型号

XData大数据一体机

系统规格

系统容量

16PB

计算模块

1024

数据模块

客户端OS

CentOS5X86/X86_64

CentOS6X86/X86_64

RedHat5X86/X86_64

RedHat6X86/X86_64

SLES11SP1X86/X86_64

SLES11SP2X86/X86_64

系统功能

系统架构

非对称双集群架构,系统由计算集群和数据集群组成

访问接口

支持类JDBC统一编程接口和各服务专用编程接口,兼容MapReduce执行框架

负载均衡

支持基于连接数、容量和性能的负载均衡

数据迁移

支持数据控制器之间的数据迁移

分级存储

支持同一系统内的数据分级

可扩展性

加载模块

支持计算模块在线动态添加和安全移除,扩展后系统数据加载能力呈线性增长

支持数据模块在线动态添加,扩展后系统数据查询处理能力呈线性增长

硬盘

Raid0/1/5/6

可靠性

多个计算模块以负载均衡方式运行,单个或多个计算模块故障不影响系统整体的数据加载和查询处理,客户端会自动重连切换到可用的计算模块

数据模块以集群方式运行,支持数据的双副本和分级存储策略对数据可靠性进行保护

管理

部署

支持集中式部署和配置

升级

支持在用户业务不停止的情况下在线升级,升级过程对原有数据和配置无影响

状态监控

支持对系统总体状态进行监控,支持对各节点和服务状态进行监控

性能监控

支持对系统总体性能、资源进行监控,以及各节点的性能、资源进行监控

告警

支持对系统软硬件故障和系统状体阀值信息进行告警,告警方式支持以界面告警、邮件告警和短信告警等方式

3.5XData大数据一体机管理系统

Xdata大数据一体机管理系统主要为用户提供对Xdata系统执行各种操作的图形化交互界面。

提供的功能包括:

安装维护、系统监控、系统管理、告警管理、报表管理和资源管理等服务。

其界面操作如下图所示:

图表32XData管理系统登录界面

图表33XData系统管理服务界面

图表34XData系统安装界面

图表35XData系统资源监控界面

4.目标行业及典型应用

在数据量爆发式增长的时代,数据中蕴含的价值日益受到企业和社会的重视。

曙光公司以客户需求为导向,依托十几年的专业技术积累和丰富的项目实践经验,提出以“平台一体,智汇应用”为核心的曙光大数据战略,为各行各业客户提供业界顶尖水准的大数据整体解决方案和服务,助力客户业务持续创新和增长。

曙光大数据提供丰富的平台接口,支持与各行业丰富的第三方应用集成,汇集了智慧城市、金融、电信、交通、医疗、教育、军工等各行各业丰富的大数据应用软件,提供高效和个性化的数据分析服务,挖掘数据价值、释放数据潜能,为客户带来创新的技术模式、商业格局和投资机会,从而获得在信息时代的竞争优势。

4.1客户的数据类型

客户应用系统的数据通常被分为一下两个大类:

1)结构化数据

即存储在关系型数据库里面的行数据,可以通过二维表结构来逻辑表达实现的数据。

2)非结构化数据

相对于结构化数据而言,不方便用数据库二维逻辑表来实现的数据即称为非结构化数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像、音频/视频、智能终端/智能仪表/传感器产生的数据等等。

Xdata大数据一体机致力于对分散的结构化和非结构化数据进行整合存储,实现数据的交叉复用及数据的深层次挖掘等应用。

4.2典型的行业应用

曙光在大数据布局上将采用三步走战略,为企业打着简单易用、注重实效的大数据平台。

其中,数据落地式三步走战略中的第一步,其关键点在于数据采集存储,帮助用户掌握大数据分析和处理的方法;

第二步是分析简化,让数据化简为繁,结合行业应用形成解决方案。

在这一步,曙光同时将为用户提供应用迁移、应用优化以平台开发等服务支持;

第三步是价值新生,通过深化应用,联手用户共同探寻、挖掘数据价值。

4.2.1金融行业

在金融行业,数据存储要求非常高,在我国每天都会产生大量的交易数据,包括银行、证券、保险等各个金融领域都会产生大量的数据。

这些数据都会存放在交易系统当中,如果能够把这些历史数据进行分析、挖掘将会产生意向不到的效益。

传统金融行业业务系统规范化做的相对来说比较好,大量的数据已经被严格的规范化并存储在关系型数据库当中。

目前,金融行业对这些具有潜在价值数据的分析相对来说比较少。

基于金融数据的特点,以下这些业务可以被移植到大数据平台中来:

1)监管和改革

监管和改革可以为整个国家层面金融统计方面提供依据。

除了内部审核之外,还有很多信用风险分析,包括压力分析等。

这些都需要金融机构实时的、长期的、频繁的为整个金融数据进行测试和检测。

这些对数据的分析对计算能力和计算深度及计算广度的要求都非常的高。

利用传统的业务处理手段在处理深度和数据分析的速度上都具有一定的局限性。

而大数据的优势是能够针对最底层的交易数据进行全面的模式识别、分析,能够大大提高整个风险分析的能力和效率。

2)盈利方面

通过对用户进行分类以及对用户信用能力进行分析,可以改善对用户提供的服务,也能极大地提升金融机构的盈利水平。

3)运行效率方面

对于金融机构来说基本上都是跨全国的大型机构或公司,具有很多的分支机构,数据是分散存储的。

而现在可以利用大数据手段,把原来分布在各个系统当中的运营数据进行汇总、进行交叉复用分析进而提升整个运营的效益。

金融机构的很多业务系统都已经基本成熟,包括BI、信息分析等。

在移植到大数据平台后,这些业务系统仍然可以继续实施,而且比传统的方法更高效。

这样不仅可以降低数据整合的工作量,把原来那些相对昂贵的工作放到更有效、更高效、性价比更高的大数据处理平台上来运行,这样可以从很大程度上降低原来的独立系统对服务器的要求。

曙光XData大数据解决方案基于对大数据处理技术的应用层面,对文件管理、历史数据查询以及数据分析类应用进行深入研究,为信息时代数据爆炸式增长所带来的海量数据存储及分析应用需要提供可靠解决方案。

曙光金融行业XData大数据解决方案采用曙光自主研发的SN-MPP并行数据库,并结合大数据处理事实标准hadoop,充分考虑了多方面的数据收集,加入ETL工具和连接驱动器,提供了类SQL的接口,和现有金融业务系统进行对接,方案总体架构图如图所示:

图表41金融行业大数据解决方案

曙光金融行业大数据解决方案立足于基础平台建设,同时切实贴合金融行业用户需求,提供优质软硬一体优质解决方案服务,为用户解决部署、业务移植开发等技术难题,帮助用户跨过应用门槛。

为金融行业盘活数据资产,用户抢占新技术的制高点,推动业务持续不断的发展。

4.2.2电信行业

移动互联网时代的来临,给人们的生活和娱乐方式带来了天翻地覆的变化,尤其是3G网络的出现,使得人们已经突破了时间和空间的限制,随时随地都可与他人交流沟通。

这一全新事物的迅猛发展,给电信运营商带来许多商机,同时也出现了一些挑战。

例如随着移动互联网的普及,用户移动数据流量迅猛增长,数据流量收入已经超过了点对点短信业务,成为拉动数据业务收入增长的主要驱动力。

尽管新的商业凸显,但挑战也应运而生。

如在3G全业务市场竞争环境下,电信运营商急需根据竞争情况和用户需求,加快实现流量的实时计费和提醒,优化数据流量资费体系,降低资费水平差距,提高精细化营销能力,不断提高客户满意度并降低流量投诉等等。

而这一切都催生了对流量大数据分析的需求,大数据依赖于成熟的技术方案,但从目前看来,运营商现有的系统架构并不能很好地满足这些需求。

从电信运营商的整体系统架构来看,其主要面临四个方面的挑战:

  首先,传统电信运营商的系统建设分散,很难实现资源和应用共享。

诸如经营分析、信令监测、综合网络分析、不良信息监测以及上网日志留存等大数据系统垂直建设较多。

同时,很多省分公司的系统建设存在重复建设、应用重复开发、各类专家资源无法共享等情况。

  其次,则是数据分散存储,标准化程度低。

要对电信行业的流量大数据进行分析,就必须实现数据的集中存储,并有统一的标准。

但从目前来看,各级电信运营商各大数据系统的数据模型并未统一,跨系统综合分析较为困难,在原有基础之上实现统一管理的难度较高。

  再者,以OLTP为核心的传统架构难以满足新业务发展要求。

电信运营商IT架构较为传统的做法是采用高端架构建设(类IOE),成本极高。

并且,其仅具备良好的结构化数据处理能力,在飞速增长的非结构化、半结构化数据处理方面显得心有余而力不足。

除此之外,传统的IT架构在高速增长的数据背景之下,很难满足其存储需求。

  除了上述之外,目前电信运营商的大部分业务都只对内提供服务,未能有效地进行成规模商业利用。

如何建立商业模式?

如何解决用户隐私保护问题?

这是各大电信运营商都需要深思的问题。

  面对上述难题与挑战,并结合电信运营商现有业务,曙光存储提出了针对电信运营商大数据管理总体系统框架模型,其主要分为四层,即物理层、数据层、模型层和应用层。

其中数据层是整个运营商大数据管理的核心部分,为上层应用提供数据支持。

具体如下图所示:

图表42电信行业大数据解决方案

4.2.3公安行业

以省市县三级公安的信息中心作为为数据基础,考虑到公安数据及其业务的实际应用主要在公安信息网上运行,同时也需要各种公安信息资源库的支撑,因此在公安网内建设综合应用管理系统平台,通过安全接入平台与汇聚平台进行数据共享和交换,实现与警务基础平台、情报信息平台以及其他重点信息系统的关联对接,为交通管理、治安防控、侦查破案、应急指挥等公安业务提供有效支撑,为科技强警、保障社会稳定提供技术支持。

公安行业大数据平台总体方案架构图如下:

业务的应用包括如下几个方面:

实时监控

●实时监测和查看监控点过车信息、车辆图片等。

关联查询

●机动车数据查询、特殊数据查询、车辆轨迹查询、设备及工作状态查询、其他信息系统的深度关联查询等。

统计分析

●包括点位统计、流量统计、考核统计、设备统计、成功案例统计、车牌识别率统计等各种统计功能,并以表格、曲线图、柱状图、饼形图等多种形式展现。

布控拦截、比对报警

●应能对各类嫌疑车辆进行布控报警,实施拦截处置。

针对布控车辆和违法车辆进行比对预警管理,实现对报警信息的接受、查询、确认、发布等。

并支持客户端、Web页面、LED屏、SMS短信报警等多通道报警方式。

视频监控

●在各类动态视频(实时图像和录像资料)联网应用基础上,实现实时预览、历史图像检索回放、远程控制、截图功能(图片抓拍、图像抓录)、视频巡检、分组轮巡、网上巡逻、报警联动、智能调度、预案管理、警情联动等主要功能。

PGIS(GPS)集成应用

●通过PGIS地图实现可视化日常操作功能与系统图像化管理功能。

交通管理

●主要包括交通违法信息识别和分检、交通违法信息查询处理等。

智能研判

●包括:

重点车辆轨迹研判、高危时段、地区车辆研判、频繁出入车辆研判、同行车辆关联研判、套牌车辆研判、车案区域关联研判、车辆活动规律研判等。

4.2.4交通行业

随着智慧交通的不断建设,其数据呈现暴增趋势,能够展现并支持这些数据量,需要一套成熟且又稳定的产品或者解决方案,曙光公司基于在大数据处理领域的经验和知识积累,针对交通行业的具体应用特征,推出曙光在交通行业的大数据解决方案,架构如下图所示:

区、市数据中心用来收集前端摄像头、拾音器等终端设备的数据,并进行存储、变

形以及分析和挖掘。

曙光交通行业数据中心解决方案各层功能如下:

底层由曙光专为大数据定制的Xdata一体机及网络设备等构成,为上层应用提供计算以及存储资源;

存储层基于曙光XData优化版的分布式文件系统HDFS以及分布式实时数据库HBase技术实现,存储层不仅可以用来

存储从终端设备采集来的实时非结构化数据,还可以用来存储从传统应用的关系数据库里整合来的结构化数据;

应用层基于曙光发行版XData-hadoop技术实现,用来对存储层的海量数据进行离线分析、数据挖掘以及在线/互动应用。

交通系统的数据具有分布性和动态性的特点,需要进行数据统一管理和实时分析,及时快速的处理突发事件。

针对交通系统的应用特点,曙光解决方案采用如下几项创新技术,用来优化存储、查询,增强应用结果处理能力:

曙光解决方案提出创新的跨地域XData大表技术,支持数据存储在不同地域的多个数据中心,而用户所见为虚拟的单

一数据中心,方便管理和使用,同时,每个数据中心互为备份,在全局范围内提供更高可用性;

曙光大数据平台在XData顶部加入SQL层,对大量交通数据提供实时分析服务,并且对同一组数据同时支持互动式查

询和离线统计;

曙光大数据平台在XData中加入全文本索引和近实时搜索,可以实现对分布式数据库里的结构化数据提供全文本搜索

的能力,并且内建索引以确保交通数据和索引始终同步;

曙光大数据平台在XData里加入高效大对象存储,采用标准的Hbase接口,提升了交通图像数据的存储性能;

曙光大数据平台将成熟的R语言库引入MapReduce、HDFS和HBase,降低了开发复杂的数据挖掘逻辑的工作量。

4.2.5医疗行业

曙光大数据支撑平台针对医疗行业大数据应用特点,采用多项曙光创新的结构化与非结构化数据一体化处理、并行处理、SQL/MapReduce统一执行引擎、分布式容错及自动故障处理、复杂数据类型关联分析、多IP通路负载均衡、处理任务断点执行、动态扩展等技术,从服务器、网络、操作系统到软件层逐层优化,保证系统具有高性能、高可靠、易扩展、易使用等特点,同时曙光为大数据支撑平台设计了图形化的统一管理系统,简化用户的管理和维护工作。

曙光医疗大数据应用平台将医疗卫生数据中心仓库的数据经过ETL后,集中到数据集市,数据集市中的数据经过OLAP和数据挖掘分析引擎处理后,应用于大数据的报表展现、卫生数据统计、决策分析、数据挖掘、疾病预警、预测等。

通过应用系统,提供给使用者直观展示。

其应用方向可包括医疗收入、患者负担、工作负荷、工作效率、疾病监控等多个主题。

各主题分析都基于大数据技术构建,通过采集不同医疗机构业务系统数据,对各项医疗业务进行汇总统计、构成分析、对比分析、因素分析、增量函数分析等,并通过各种图表形象、直观的表达出来,能够有效的反映医疗管理机构或服务机构的整体运营、管理等情况。

同时有利于管理层正确分析并做出有效决策,强化医卫管理,优化资源配置、控制不合理因素。

5.竞争分析

5.1目前市场上主流的大数据产品

目前,大数据产品市场主要分为如下几大阵营:

Oracle、IBM、EMC、Intel。

在国内主要是类Intel的阵营,包括:

华为、浪潮、天云趋势、友友等。

5.2竞争对手主要产品分析

5.2.1Oracle大数据一体机

在大数据时代,Oracle推出了软硬一体优化集成的Oracle大数据综合解决方案,如下图所示:

图表51Oracle大数据综合解决方案

其中捕获、组织、分析、决策部分包括的组件如图所示:

图表52Oracle大数据解决方案组件

针对大数据时代数据的特点:

1.可预测的低延迟;

2.高吞吐高交易;

3.灵活的数据结构。

Oracle把获取到的数据存放在HDFS、OracleNoSQL数据库和RDBMS中。

OracleNoSQL数据库的架构如图所示:

图表53OracleNoSQL数据库架构

OracleNoSQL数据库的特点如下:

1.分布式键值对数据库;

2.简单编程模型;

3.可伸缩的吞吐量;

4.商业软件和支持;

5.易于管理;

6.存储节点跨多个数据中心;

7.自动处理存储节点故障;

8.无单点故障;

9.与Oracle体系无缝集成;

Oracle大数据一体机如图所示:

图表54Oracle大数据一体机

5.2.2IBMPureSystem一体机

IBMPureSystem一体机包括PureFlexSystem、PureApplicationSystem和PureDataSystem;

具体如下所示:

⏹PureFlexSystem

☐包含计算、存储、系统管理和网络组件。

用于满足IT基础架构需求

⏹Pur

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 初中教育 > 科学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1