建设数据仓库的八个步骤Word格式文档下载.docx
《建设数据仓库的八个步骤Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《建设数据仓库的八个步骤Word格式文档下载.docx(15页珍藏版)》请在冰豆网上搜索。
·
操作出现的频率,即业务部门每隔多长时间做一次查询分析。
在系统中需要保存多久的数据,是一年、两年还是五年、十年。
用户查询数据的主要方式,如在时间维度上是按照自然年,还是财政年。
用户所能接受的响应时间是多长、是几秒钟,还是几小时。
由于双方在理解上的差异,确定问题和了解问题可能是一个需要多次往复的过程,信息部门的人员可能需要做一些原型演示给业务部门的人员看,以最终确定系统将要实现的功能确实是业务部门所需要的。
2.选择满足数据仓库系统要求的软件平台
在数据仓库所要解决的问题确定后,第二个步骤就是选择合适的软件平台,包括数据库、建模工具、分析工具等。
这里有许多因素要考虑,如系统对数据量、响应时间、分析功能的要求等,以下是一些公认的选择标准:
厂商的背景和支持能力,能否提供全方位的技术支持和咨询服务。
数据库对大数据量(TB级)的支持能力。
数据库是否支持并行操作。
能否提供数据仓库的建模工具,是否支持对元数据的管理。
能否提供支持大数据量的数据加载、转换、传输工具(ETT)。
能否提供完整的决策支持工具集,满足数据仓库中各类用户的需要。
3.建立数据仓库的逻辑模型
具体步骤如下:
(1)确定建立数据仓库逻辑模型的基本方法。
(2)基于主题视图,把主题视图中的数据定义转到逻辑数据模型中。
(3)识别主题之间的关系。
(4)分解多对多的关系。
(5)用范式理论检验逻辑数据模型。
(6)由用户审核逻辑数据模型。
4.逻辑数据模型转化为数据仓库数据模型
(1)删除非战略性数据:
数据仓库模型中不需要包含逻辑数据模型中的全部数据项,某些用于操作处理的数据项要删除。
(2)增加时间主键:
数据仓库中的数据一定是时间的快照,因此必须增加时间主键。
(3)增加派生数据:
对于用户经常需要分析的数据,或者为了提高性能,可以增加派生数据。
(4)加入不同级别粒度的汇总数据:
数据粒度代表数据细化程度,粒度越大,数据的汇总程度越高。
粒度是数据仓库设计的一个重要因素,它直接影响到驻留在数据仓库中的数据量和可以执行的查询类型。
显然,粒度级别越低,则支持的查询越多;
反之,能支持的查询就有限。
对数据操作的效率与能得到数据的详细程度是一对矛盾,通常,人们希望建成的系统既有较高的效率,又能得到所需的详细资料。
实施数据仓库的一个重要原则就是不要试图包括所有详细数据,因为90%的分析需求是在汇总数据上进行的。
试图将粒度细化到最低层,只会增加系统的开销,降低系统的性能。
5.数据仓库数据模型优化
数据仓库设计时,性能是一项主要考虑因素。
在数据仓库建成后,也需要经常对其性能进行监控,并随着需求和数据量的变更进行调整。
优化数据仓库设计的主要方法是:
合并不同的数据表。
通过增加汇总表避免数据的动态汇总。
通过冗余字段减少表连接的数量,不要超过3~5个。
用ID代码而不是描述信息作为键值。
对数据表做分区。
6.数据清洗转换和传输
由于业务系统所使用的软硬件平台不同,编码方法不同,业务系统中的数据在加载到数据仓库之前,必须进行数据的清洗和转换,保证数据仓库中数据的一致性。
在设计数据仓库的数据加载方案时,必须考虑以下几项要求:
加载方案必须能够支持访问不同的数据库和文件系统。
数据的清洗、转换和传输必须满足时间要求,能够在规定的时间范围内完成。
支持各种转换方法,各种转换方法可以构成一个工作流。
支持增量加载,只把自上一次加载以来变化的数据加载到数据仓库。
7.开发数据仓库的分析应用
建立数据仓库的最终目的是为业务部门提供决策支持能力,必须为业务部门选择合适的工具实现其对数据仓库中的数据进行分析的要求。
信息部门所选择的开发工具必须能够:
满足用户的全部分析功能要求。
数据仓库中的用户包括了企业中各个业务部门,他们的业务不同,要求的分析功能也不同。
如有的用户只是简单的分析报表,有些用户则要求做预测和趋势分析。
提供灵活的表现方式。
分析的结果必须能够以直观、灵活的方式表现,支持复杂的图表。
使用方式上,可以是客户机/服务器方式,也可以是浏览器方式。
事实上,没有一种工具能够满足数据仓库的全部分析功能需求,一个完整的数据仓库系统的功能可能是由多种工具来实现,因此必须考虑多个工具之间的接口和集成性问题,对于用户来说,希望看到的是一致的界面。
8.数据仓库的管理
只重视数据仓库的建立,而忽视数据仓库的管理必然导致数据仓库项目的失败。
数据仓库管理主要包括数据库管理和元数据管理。
数据库管理需要考以下几个方面:
安全性管理。
数据仓库中的用户只能访问到他的授权范围内的数据,数据在传输过程中的加密策略。
数据仓库的备份和恢复。
数据仓库的大小和备份的频率直接影响到备份策略。
如何保证数据仓库系统的可用性,硬件还是软件方法。
数据老化。
设计数据仓库中数据的存放时间周期和对过期数据的老化方法,如历史数据只保存汇总数据,当年数据保存详细记录。
然而,元数据管理贯穿于整个系统的建设过程中,元数据是描述数据的数据。
在数据采集阶段,元数据主要包括下列信息:
源数据的描述定义:
类型、位置、结构。
数据转换规则:
编码规则、行业标准。
目标数据仓库的模型描述:
星型/雪花模型定义,维/事实结构定义。
源数据到目标数据仓库的映射关系:
函数/表达式定义。
代码:
生成转换程序、自动加载程序等。
在数据管理阶段,元数据主要包括下列信息:
汇总数据的描述:
汇总/聚合层次、物化视图结构定义。
历史数据存储规则:
位置、存储粒度。
多维数据结构描述:
立方体定义、维结构、度量值、钻取层次定义等。
在数据展现阶段,元数据主要包括以下信息:
报表的描述:
报表结构的定义。
统计函数的描述:
各类统计分析函数的定义。
结果输出的描述:
图、表输出的定义。
元数据不但是独立存放,而且对用户是透明的,标准元数据之间可以互相转换。
1、培训目的
1.1改善部门各级各类员工的知识结构、提升员工的综合素质,提高员工的工作技能、工作态度和行为模式,满足部门的快速发展需要,更好的完成部门的各项工作计划与工作目标。
1.2、加强部门各级各类员工职业素养与敬业精神,增强员工服务意识与服务水平,打造高绩效团队,减少工作失误,提高客户满意度,提高工作效率。
1.3提升部门凝聚力、吸引力、向心力和战斗力,为部门进一步发展储备相关人才。
1.4锻炼员工的学习表达能力。
1.5完善部门各项培训制度、培训流程以及建立系统的培训体系,实现各项培训工作顺利、有效实施。
2、培训原则
2.1以部门战略与员工需求为主线。
2.2以素质提升与能力培养为核心。
2.3以针对性、实用性、价值型为重点。
2.4以项目式培训和持续性培训相互穿插进行。
2.5坚持理论与实践相结合、学习与总结相结合。
2.6坚持部门内部培训为重点、内训与外训相结合。
2.7坚持学历性教育培训和岗位培训相结合。
2.8实现由点、线式培训到全面系统性培训转变。
3、培训的实施
3.1培训内容的决定
部门所有成员对自己要培训的需求提出建议,相关负责人收集并统计,根据统计结果,按需求量较大或需求的紧迫性来决定培训的内容。
3.2培训方式
分为正式培训和技术交流。
正式培训需要讲师准备PPT、有关课件,利用投影等设备进行讲授,并进行培训效果考核和学员成绩考查。
技术交流可不准备课件,直接采用即兴口头演讲的方式进行。
3.3培训时间
根据学习要求,不定期进行有关主题内容的培训。
3.4讲师安排
讲师实行报名制。
根据部门发布的员工培训需求统计结果,选择自己熟悉或感兴趣的培训科目报名。
部门经理根据报名情况决定讲师人选。
3.4培训效果评估
3.4.1培训后,参与人员对培训的讲师、培训的内容、总体效果等做出评价。
3.4.2讲师准备10个以内的培训内容相关的试题,受训者根据培训内容来做答,经讲师批阅后整理到员工培训考核成绩表,并把成绩表交由部门经理审阅,最后相关负责人存入个人培训档案。
3.5奖惩方式
对于正式培训,培训完后,参与培训人员给讲师打分,根据打分情况给予讲师0、1、2、3分积分。
对于技术交流,根据培训内容和效果,给予所有主要参与者0,1,2分不等的积分。
参加培训者考核合格后给予0.5、1分不等积分。
年终累计积分,根据积分情况给予奖励。
对于年终参加培训积分不足年度部门总培训积分的80%者,给予一定的惩罚。
4、培训材料
4.1员工培训签到表
4.2讲师应提前准备好培训的PPT,如果培训项目开发知识应准备好实例。
4.3培训内容相关的试题
4.4内部培训效果评估表
4.5员工培训考核成绩表
5、相关附件
附件一员工培训签到表
培训内容
培训时间
培训讲师
培训地点
培训方式
考核方式
应到人数
实到人数
缺席人数
出勤率
序号
姓名
出席时间
(HH:
MM)
离席时间
备注
1.1
2.
3.2
4.
5.3
6.
7.4
8.
9.5
10.
11.6
12.