中航信Teradata数据仓库容量规划与扩容建议书.docx

上传人:b****5 文档编号:7603552 上传时间:2023-01-25 格式:DOCX 页数:23 大小:254.33KB
下载 相关 举报
中航信Teradata数据仓库容量规划与扩容建议书.docx_第1页
第1页 / 共23页
中航信Teradata数据仓库容量规划与扩容建议书.docx_第2页
第2页 / 共23页
中航信Teradata数据仓库容量规划与扩容建议书.docx_第3页
第3页 / 共23页
中航信Teradata数据仓库容量规划与扩容建议书.docx_第4页
第4页 / 共23页
中航信Teradata数据仓库容量规划与扩容建议书.docx_第5页
第5页 / 共23页
点击查看更多>>
下载资源
资源描述

中航信Teradata数据仓库容量规划与扩容建议书.docx

《中航信Teradata数据仓库容量规划与扩容建议书.docx》由会员分享,可在线阅读,更多相关《中航信Teradata数据仓库容量规划与扩容建议书.docx(23页珍藏版)》请在冰豆网上搜索。

中航信Teradata数据仓库容量规划与扩容建议书.docx

中航信Teradata数据仓库容量规划与扩容建议书

中国民航信息网络股份有限公司

数据仓库系统

 

容量规划与扩容建议书

 

Teradata(中国)有限公司

2008年11月

 

文档信息

客户姓名:

中国民航信息网络股份有限公司

项目:

数据服务系统

文档:

数据服务系统容量规划与扩容建议书

版本:

发布日期:

2008年11月

编者:

姓名

公司

项目职称

日期

批准:

姓名

公司

项目职称

日期

 

1中航信数据服务系统目前状况

中航信数据服务系统于2001年2月开始建设,并于2005年进行二次扩容,目前中央数据库系统采用双节点的TERADATA4850及四节点TERADATA5380海量并行处理主机系统和Teradata数据库系统。

总的磁盘容量为11056GB,其中包括80块36GB和112块73GB硬盘。

按照现有生产系统Teradata版本的空间计算方法,考虑到RAID1保护、操作系统附加信息存储因素,数据库最大存储数据空间为(80*36+112*73)/2/1.093=5058GB,考虑Spool工作空间因素(数据库执行SQL命令时要占用数据库空间做运算),数据库最大可以容纳业务数据5058/1.45=3.5TB左右。

中航信数据服务系统自2001年2月开始建设以来,已经过7年多时间,并已经进行了两个项目周期的建设(2001年2月~2001年7月,2003年1月~2004年1月)。

1.1数据服务产品、用户及使用

中航信目前已在数据服务系统上开发和上线了以下数据服务产品。

航线运营分析

航线舱位分析

航线订座成长和趋势分析

机型分析

代码共享航线分析

代理人销售分析

代理人销售实际贡献分析

代理人销售订座分析

代理人销售款分析

O&D分析

国际O&D分析

国内O&D分析

地区O&D分析

GATEWAY分析

第六航权分析

航班频率分析

HUB分析

离港和配载统计分析

值机分析

配载分析

客户资源分析

常客分析

团队分析

数据产品

MIDT

BIDT

TCN

这些数据服务及其产品已经有许多用户(航空公司、代理人、机场和内部用户)在使用。

例如:

国内航空公司

外国航空公司

代理人

机场

凯亚和分公司

国际航空公司

AC

TCN账单下载

(400个)

首都机场

华东凯亚

南方航空公司

AF

BSP直通车

(100个)

广州机场

广州分公司

深圳航空公司

CX

深圳机场

深圳凯亚

海南航空公司

JL

成都机场

云南凯亚

上海航空公司

KA

沈阳机场

成都凯亚

厦门航空公司

KE

东北凯亚

四川航空公司

NH

航信服务台

澳门航空公司

NW

民航总局

SQ

UA

VS

可以看出,中航信的数据服务系统正在为中航信带来越来越多的战略价值和商业价值。

1.2系统存在的问题

在数据服务系统为中航信的用户提供所需的产品和服务、并为中航信带来效益的同时,目前中央数据库系统存在的容量和性能问题对中航信造成很大影响,制约了中航信数据服务战略的实现。

1.2.1系统容量问题

中航信数据服务系统的数据源目前已包括;

●订座PNR数据

●订座航班时刻与收益数据

●票务数据

●离港数据

●常旅客数据

●航意险数据

●OAG数据

●MCT数据

●运价数据

●酒店数据

●设备信息数据

●其他相关静态信息数据

按照中航信最新统计数据估算,系统2008年的基础数据量达到4.7TB,如下表:

A.每年基础数据

存储周期

应用数据总量(截至2008年底)

应用数据总量(截至2009年底)

应用数据总量(截至2010年底)

数据内容

2007年

2008年

2009年

2010年

(月)

(GB)

(GB)

(GB)

(GB/年)

(GB/年)

(GB/年)

(GB/年)

PNR

1100

1500

2047

2792

13

1592

2172

2963

DCS

140

183

240

314

36

407

563

737

TKT

430

572

762

1014

13

608

810

1078

INV

800

1056

1394

1840

13

1123

1482

1956

小计

2470

3312

4443

5960

 

3730

5027

6734

B.汇总数据

 

存储周期

应用数据总量(截至2008年底)

应用数据总量(截至2009年底)

应用数据总量(截至2010年底)

数据内容

2007年

2008年

2009年

2010年

(月)

(GB)

(GB)

(GB)

(GB/年)

(GB/年)

(GB/年)

(GB/年)

sum(d)

540

727

978

1316

36

1747

2354

3021

sum(m)

90

124

171

237

60

416

532

702

bidt

300

438

640

935

37

955

1395

2038

midt

70

98

137

192

24

168

235

329

小计

1000

1387

1926

2680

 

3286

4516

6090

另外,各航空公司等用户需要的数据,随着系统数据量增加,加工的时间越来越长,为保证数据提供的速度,系统中PNR只保存不到2个月的数据,这反过来又影响了统计分析类数据服务,影响了系统价值的发挥。

通常一些非常有价值的分析往往需要较长时间的历史数据。

例如,订票趋势分析可使航空公司通过对比过去几年与今年的KPI数据(旅客量、收入、费用及利润等),获得对航班、航线或市场的了解。

该应用可使航空公司从一个航班开始预定到该航班启航为止的期间内进行全程跟踪,可以使航空公司认识到自己在市场中的强势和弱势并尽早地做出相应的改善。

该应用可以让航空公司在任何时间点,根据航班当前与历史状况的比较而对航班的需求作预测。

利用这些结果,航空公司能够以现在所拥有的订票与任何其他时间点所拥有的订票相比较。

通过对需求的动态跟踪,航空公司就能对其航班及时采取适当措施而获得最大收益。

这使得高级的销售战略与战术更快改变着产品、进度与分销渠道。

如果基础数据不充分,则该应用的效益就无法体现!

1.2.2系统性能问题

目前每天系统资源,大部分都用于对外提供数据的数据服务:

●每天加载的数据量,已从最初的2GB(2003年10月数据服务系统二期工程数据加载开始)增加到目前的11GB,其中PNR数据4GB,其它数据7GB;

●数据加载、数据汇总到生成各个航空公司所需的数据提供出去,常常从晚上20:

30开始,至第二天下午才能结束。

用户意见很大,已经引起用户对中航信服务质量的担心;

●除数据加工外,每天白天上班时间:

通过Portal向用户提供报表。

象“BSP直通车”之类的应用还允许用户通过Portal之间访问Teradata数据库,提取数据;

●目前系统全天基本没有空闲时间;

中航信系统运行部对这些问题有较为详细的报告,请参阅系统运行部的报告。

2Teradata数据服务系统解决方案建议

鉴于中航信数据服务系统目前存在着较为严重的系统容量问题和系统性能问题,可能危及到中航信的安全生产。

Teradata在此提出以下解决方案,以帮助中航信尽快解决这两个问题,以免因系统容量和性能问题给中航信造成不必要的损失。

2.1目前系统现况

中航信目前的数据服务系统示意图及其系统配置如下:

●2节点TERADATA5255(由原来的2节点4850升级而来)及4节点TERADATA5380海量并行处理主机系统。

具体的配置如下表所示:

节点

2节点5255

4节点5380

每节点配置

4个700MHzCPU;

4GB内存;

4*18GB内置硬盘

2个3.06GHzCPU;

4GB内存;

2*36GB内置硬盘

磁盘阵列

2*6288-1440

(共80*36GHD)

2*6841

(共112*73GHD)

备份系统

6463(80Slots,6*LTO2SCSI)

数据库软件

TeradataV2R5.1/TTU7.1

系统TPerf值

41.7(估算)

系统总容量

11,056GB(磁盘容量)

2.2生产系统扩容方案

根据中航信的系统扩容要求,数据需要支持到2010年的空间使用要求,根据中航信的数据使用情况分析,到2010年业务数据量(包括了临时空间因子)估算为18.31TB。

扩容方案的制定思路是:

根据应用数据年数据量,及预估的存储时限,计算出2010年底的存储空间规模,由此配比相应的资源投入(硬件、软件)。

Teradata容量计算因子:

 

RAID1

RAID5

RAID

2

1.33

操作系统因子

1.093

1.093

Spool空间因子

1.30

1.30

压缩因子

0.85

0.85

综合因子

2.42

1.61

在数据仓库系统中,RAID1与RIAD5的读写操作对系统性能的影响非常大,特别是在写操作上,RAID1的性能会比RAID5的性能提高大约33%左右。

结合航信本身的数据仓库特点,系统中存在大量的写操作,如数据加载、大量数据访问如排序操作、SPOOL空间、可变和全局临时表都是写操作。

同时,在读操作上,RAID1也具备明显的优势,如果一个磁盘正在被访问,另一个镜像磁盘同样可以被读取。

根据Teradata多年来,数据仓库建设的经验及客户现场的实际体验来看,采用RAID1从改善节点的I/O性能、提高系统的吞吐量、混合负载查询的效率以及节点服务器的CPU的利用率等方面都有明显的优势,因此Teradata建议采用RAID1的数据镜像保护模式,以下方案是以RAID1为扩容依据。

按照Teradata计算最小磁盘空间的计算公式及中航信要求的数据空间因素计算所需的磁盘容量:

目标扩容用户数据:

18.31TB

采用RAID1时的综合因子:

2.42

扩容后达到的目标磁盘容量:

44.31TB(=18.31TB*2.42)

2.2.15500C扩容方案

5500C是Teradata提供的与多代共存的MP-RAS节点服务器,为了能与现有系统中4节点5380共存,需要对现有的5380所管理的磁盘容量进行调整,保证5380与5500C在节点性能的发挥上达到一致。

因此采用此方案时,需要对现有4节点5380所管理的磁盘进行调整,由原来每节点管理所管理的28*73GB硬盘提高到48*73GB的硬盘。

本方案将2节点TERADATA5255(原4850)从生产系统中拆出来做单独的开发或测试系统,4节点TERADATA5380与新节点Teradata5500C共存用于生产系统,以保证新旧节点都能充分的发挥其性能优势。

同时考虑到5380与5500C节点在同一个生产系统中的性能均衡,需要对原每节点5380管理的硬盘数由原来的28*73GHD提高到48*73GHD。

4节点5380共管理13.69TB(48*4*73GHD),因此新增5500C需增加磁盘空间为:

最小磁盘空间新增=44.31TB–13.69TB=30.62TB

按照Teradata数据仓库系统设计原则,为保证扩容后的数据仓库系统在处理能力和存储容量两个方面都能达到中航信的要求,Teradata建议增加6节点5500C系统扩容方案,每节点管理6.27TB(88*73GHD)。

扩容方案总结如下:

●为2节点5380增加一台6843磁盘阵列,共96*73GHD;

●增加6节点Teradata5500C海量并行处理主机系统。

每个节点配置如下:

⏹1个双核Inter2.66GHzCPU;

⏹4GB内存;

⏹2个73GB内置硬盘

⏹数据库引擎及应用软件TeradataV2R6.2/TTU8.2

●6节点划分为2个Clique,其中一个Clique为4节点,另一个Clique是2节点(其中1节点为热备节点,不单独管理磁盘阵列)。

●4台Teradata6843-2000磁盘阵列,共配置440*73GB硬盘,总共31.37TB。

●节点与磁盘阵列之间通过高速光纤通道连接,连接速度为4GB/秒。

●备份系统采用TeradataSL500磁带库,配置10*LTO4驱动器,其中4*LTO4为原4节点5380,6*LTO4为5500C使用。

●4节点5380各增加一块光纤卡,与SL500连接;

●升级原4节点5380软件到V2R6.2/TTU8.2。

扩容以后的系统连接示意图:

扩容前后的系统对比:

节点

2N5255+4N5380

4N5380+6N5500C

CPU/Cores

16/16

14/20

内存

24GB

40GB

磁盘容量(TB)

10.80

45.95

可用数据容量(TB)

3.50

18.99

Tperf值

41.7

112.1

系统预留空间(TB)

696GB(用户数据)

扩容后系统性能是原来的2.68倍,系统容量是扩容前系统容量的5.43倍!

因此,即可以满足数据仓库系统存储容量的需求,又提高了系统处理能力。

2.2.25550H扩容方案

5550H是Teradata公司07年底最新推出一款基于64位Linux系统的高性能节点处理平台,能最好的发挥节点的性能,提升数据仓库系统的效率。

在这个方案中,现有系统中现有节点的利用可有两种选择:

a)作为开发、测试系统继续使用;b)5380节点作为历史库(HDS)使用,5255节点作为开发、测试系统使用。

选择a)

按照Teradata数据仓库系统设计原则,为保证扩容后的数据仓库系统在处理能力和存储容量两个方面都能达到中航信的要求,Teradata建议增加3+1节点5550H系统扩容方案,每节点管理15.40TB(108*146GHD)。

扩容方案总结如下:

●增加3+1节点Teradata5550H节点,组成一个Clique,其中一个节点作为热备节点,热备节点不带磁盘阵列,每个节点配置如下:

⏹2个四核Inter2.33GHzCPU;

⏹32GB内存;

⏹2个146GB内置硬盘

⏹数据库引擎及应用软件TeradataV2R6.2/TTU8.2

●6台Teradata6843-4000磁盘阵列,共配置324*146GB硬盘,总共46.20TB。

●节点与磁盘阵列之间通过高速光纤通道连接,连接速度为4GB/秒。

●备份系统增加TeradataSL500磁带库,配置4*LTO4驱动器,3台备份服务器与1台备份交换机。

扩容以后的系统连接示意图:

扩容前后的系统对比:

节点

2N5255+4N5380

(3+1)N5550H

CPU/Cores

16/16

8/24

内存

24GB

128GB

磁盘容量(TB)

10.80

46.20

可用数据容量(TB)

3.50

19.10

Tperf值

41.7

135.4

系统预留空间(TB)

808GB(用户数据)

扩容后系统性能是原来的3.24倍,系统容量是扩容前系统容量的5.45倍!

因此,即可以满足数据仓库系统存储容量的需求,又提高了系统处理能力。

选择b)

5550H扩容同选择a),另外,5380节点数据库引擎及应用软件升级到TeradataV2R6.2/TTU8.2,4节点5380各增加一块光纤卡,与SL500连接。

5380节点单独构建一个数据仓库,用于存放历史数据。

这4个节点目前所带磁盘空间为28x4x73/1024=7.98TB,可以容纳数据量为7.98/2.42=3.30TB,基本可以满足2010年底HDS对存储的要求(3.31TB)。

5550H构建的数据仓库只用于存放ADS和EDW的数据,预计可以满足2011年6月底的存储要求。

此方案最大限度地发挥了4台5380的利用价值,达到了节省成本的效果。

使用5380构建HDS的问题是,由于HDS和EDW不在同一个数据库中,增加了数据转储需要的时间,加大了时间跨度大的查询的难度。

同时由于存储有限,且节点为32位,无法使用Linux操作系统,系统的可扩展性较差。

另外,同时维护两套数据仓库系统,会造成维护费用的增加。

2.3生产系统扩容方案总结

以下对上述扩容方案及目前系统状况进行列表比较:

现状

方案一

方案二

节点

2N5255+4N5380

4N5380+6N5500C

(3+1)N5550H

CPU/Cores

16/16

14/20

8/24

内存

24GB

40GB

128GB

操作系统

32位MP-RAS

32位MP-RAS

64位Linux

磁盘容量(TB)

10.8

45.95

46.2

可用数据容量(TB)

3.50

18.99

19.1

容量提升

 

5.43

5.45

Tperf值

41.7

112.1

135.4

性能提升

 

2.68

3.24

 

综合对比2个方案,结论如下:

方案一(5500C扩容)

方案二(5550H扩容)

系统架构

生产系统共10个节点,多代节点产品共存,存在节点瓶颈。

生产系统共4个节点,全部是同代节点产品,无节点瓶颈。

系统处理能力

112.1

135.4

生产系统可用数据量

18.99T

19.1T

软件平台

传统的MP-RAS操作系统,未来将会被linux替代。

64位Linux,更加符合IT发展趋势。

机房容积情况

需要增加1个主机机柜、5个磁盘机柜、1个带库机柜

需要增加1个主机机柜、3个磁盘机柜、1个备份服务器机柜和1个带库机柜

各机柜满配功率

主机机柜6.2KW

磁盘机柜4.2KW

带库机柜2KW

主机机柜7KW

磁盘机柜4.2KW

带库机柜2KW

设备增加部分的能源消耗

满配总功率29.2KW

年耗电量估计255,792千瓦时

满配总功率23.6KW

年耗电量估计206,736千瓦时

淘汰设备的再利用

仅淘汰出2个5255节点,用于测试系统。

除淘汰出2个5255节点用于测试系统外,另外淘汰出的4个5380可用于HDS生产系统,或用于测试系统。

项目实施

包含旧节点并入环节,实施难度相对较大。

不包含旧节点并入环节,实施难度相对较小。

兼容性

5380是32位的操作系统,无法与未来的linux新节点兼容。

可与未来节点兼容。

从以上的比较可以看出,相对于5500C的扩容方案,采用5550H扩容方案(即方案二)具备以下几个优点:

●没有节点的多代共存情况,可以充分的发挥节点及磁盘阵列的性能,使数据仓库的性能得到充分的释放。

配比出的系统可用存储容量稍大、处理能力稍强。

●采用了最新的5550H节点,可以充分利用64位Linux平台的优势,同时具备更好的技术支持和服务。

●节点数及磁盘阵列机柜更少,可以减少能源的消耗,利于环保的要求。

●系统高可用性和高可靠性更高。

●系统转移工作过程相对简单,风险更小。

●与未来设备的兼容性更好,更利于未来系统的扩容。

2.4测试系统建议方案

目前,中航信没有单独的测试系统,部分测试工作由现有的生产系统承担或由现有做开发系统的单节点4455承担,因此在资源的使用上比较紧张,经常出现资源不足的情况。

因此,在扩容时,建议一并考虑开发测试环境,具体建议考虑以下因素:

●利用现有的设备,充分保护用户投资。

●综合衡量测试系统对性能及容量的要求。

关于测试系统的容量,考虑到最大的数据量部分还是航空业务基础数据和汇总数据,而ADS等数据可以忽略,下边重点考虑基础数据部分的容量需求。

按照1.2.1节中航信的数据统计,到2010年底,EDW的基础数据和汇总数据(不考虑BIDT、MIDT)的数据量为6734+3021+702=10456GB。

按照Teradata在其他行业的经验,在其存储13月数据供进行历史同期比分析时,测试环境通常需要至少1个季度+1个月的数据,即大约生产系统的1/3数据。

这样就要求中航信的测试开发环境至少有10456GB/3=3385GB。

 

2.4.1生产系统采用5500C时

生产系统采用5500C方案时,现有系统中将会有2节点5255及磁盘阵列从生产系统中淘汰下来,按照上述的考虑因素,可以利旧这2台5255节点作为测试系统。

但对2个5255节点需要说明的是:

●需要对这2个5255节点进行软件升级。

2节点5255软件升级到TeradataV2R6.2/TTU8.2,与生产保持一致;

●该两个节点带的磁盘空间为80x36/1024=2.81TB,可以容纳数据量为1.16TB,相对于3.3TB的需求而言不够充足,可以选取部分生产数据作为测试数据,但可能会影响到测试结果;

●Teradata全球宣布的5255/6288的维护支持期限截至到2008年12月,从此以后,Teradata工厂将不再提供备件的维修和生产,只能用现有的库存备件或者各地维护部门自己保留的备件继续提供服务。

因此5255/6288的维护质量将受到一定的影响。

2.4.2生产系统采用5550H时

生产系统采用5550H的扩容方案时,会有4节点5380及2节点5255设备从现有系统中淘汰下来,如果4节点5380没有被选作HDS生产系统,那么可将这4个节点一并用于测试系统,即2节点5255和4节点5380共同构成测试系统,其最大存储数据量为4.56T。

以淘汰下来的2节点5255和4节点5380及其外围设备作为开发环境需要说明如下:

●6节点软件升级到TeradataV2R6.2,与生产系统保护一致。

●这6个节点目前所带磁盘空间为(112x73+80×36)/1024=11.06TB,可以容纳的最大数据量为11.06/2.42=4.56TB。

●Teradata全球宣布的5255/6288的维护支持期限截至到2008年12月,从此以后,Teradata工厂将不再提供备件的维修和生产,只能用现有的库存备件或者各地维护部门自己保留的备件继续提供服务。

因此5255/6288的维护质量将受到一定的影响。

2.5ETL服务器及备份服务器

本次扩容,需增加2台ETL服务器和1台备份服务器。

型号为DELL2950(或同档次的其它型号),配置要求如下:

●CPU:

2*InterXeon3.0GHz

●内存:

4G

●硬盘:

2*146G

●SuSELinux操作系统;

另外,需增加一台DELLAX100的磁盘阵列,容量要求2TB,连接2台ETL服务器。

3对中航信关心问题的回答

3.1就中航信目前系统,所能增加的系统节点的型号是什么,主要配置情况?

所能增加的磁盘阵列的型号是什么,主要配置情况?

回复:

新Teradata提供两种扩容方案,分别提供5500C和5550H节点及对应的磁盘阵列。

●550

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > IT计算机 > 电脑基础知识

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1