ImageVerifierCode 换一换
格式:DOCX , 页数:7 ,大小:21.82KB ,
资源ID:2189353      下载积分:12 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/2189353.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(数据仓库技术与应用.docx)为本站会员(b****2)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

数据仓库技术与应用.docx

1、数据仓库技术与应用作者简介 :项军 (19792 , 男 , 四川绵阳人 , 空军工程大学导弹学院计算机工程系硕士研究生 , 研究方向 :智能信息处理与人工 智能 ; 雷英杰 (19562 , 男 , 陕西渭南人 , 教授 , 博士生导师 , 研究方向 :智能信息处理 , 模式识别 , 人工智能 。 数据仓库技术与应用项 军 , 雷英杰(空军工程大学导弹学院 , 陕西 三原 713800摘要 :对数据仓库 、 联机分析处理和数据挖掘等几个概念做了详细的介绍 , 在此基础上提出适用于电信系统应用的设计 思想 , 详细介绍了该系统的系统结构 、 关键技术的实现和各子系统功能 。 关键词 :数据仓库

2、 ; 联机分析处理 ; 数据挖掘 中图分类号 :TP311.13 文献标识码 :AThe T echnique and Application of Data W arehouseXI ANGJun ,LEI Y ing 2jie(Missile Institute of Air F orce Engineering University ,Sanyuan 713800,China Abstract :This paper introduces the concepts of data warehouse ,on 2line analytical processing and data min

3、ing ,puts forward the design thought of telecommunication system and briefly introduces the system structure ,the key techniques of the system and the functions of each sub 2system.K ey w ords :data warehouse ;on 2line analytical processing ;data mining0 引 言近年来 , 随着企业计算机应用的不断深入 , 大部分企业已经投入了大量的时间和资源建

4、立了庞大而 复杂的信息系统 , 积累了大量的宝贵数据资源 。 面对 日益激烈的市场竞争和潜在的金融风险 , 这些企业迫 切希望能有一个强而有力的分析工具来帮助他们从 这些海量的数据中充分挖掘有意义的信息 , 以辅助高 层领导者进行计划和指导决策活动 。数据仓库的目的是为了建立一种体系化的数据 存储环境 , 将分析决策所需要的大量数据从传统的操 作环境中分离出来 , 使分散 、 不一致的操作数据转成 集成 、 统一的信息 , 进而支持决策 。完整的数据仓库 包括三个方面的技术内容 :数据仓库技术 、 联机分析 处理技术和数据挖掘技术 。该文对数据仓库技术及 其决策支持工具进行了详尽的讨论 , 并

5、提出适用电信 行业的方案设计思想 。1 数据仓库及其决策支持工具的概述1. 1 数据仓库 (Data W arehouse根据 W. H. Inm on 的定义 :“ 数据仓库是面向主题 的 、 集成的 、 稳定的 、 随时间变化的数据集合 , 用以支 持决策制定过程 。 ” 数据仓库是一个专门的数据仓储 对象 1。 它通过清理 、 转移 、 分析 、 映射和综合 , 形成 统一的存储格式 , 最终为用户特别是决策支持者提供 对公用数据的更好的访问支持 。数据仓库有四个显 着特点 2:(1 数据仓库的面向主题性 。主题是一个抽象的概念 , 是在较高的层次上对企 业信息系统中的数据综合 、 归类

6、后进行分析利用的抽 象 。 在逻辑意义上 , 它是对应企业中某一宏观分析领 域的分析对象 , 是针对某个决策问题而设置的 。(2 数据仓库的数据是集成的 。数据仓库中存储的数据从原来的分散 、 异构的数 据库数据经过抽取 、 统一 、 综合转换成全局统一的定 义消除不一致和错误之处 。(3 数据仓库的数据是不可更新的 。数据仓库中的数据通常是一起载入与访问的 , 在计 算 机 与 现 代 化 2004年第 11期J IS UAN J I Y U XI ANDAIH UA总第 111期数据仓库环境中不进行一般意义上的数据更新 。所 以数据在一定的时间间隔是稳定的 , 并且能反映企业 当前和历史的

7、数据 。(4 数据仓库的数据是随时间变化的 。数据仓库的数据随时间变化不断增加新的数据 内容和删去旧的数据内容 。数据仓库中含有大量与 时间有关的综合数据 。粒度是数据元素中包含的信息的确切性程度 , 分 为细粒度和粗粒度 3。它深深地影响存放在数据仓 库中的数据量的大小 , 影响存储介质大小和查询效 率 ; 同时影响数据仓库所能回答的查询类型 , 即所能 满足的信息分析的功能需求 。1. 2 联机分析处理 (OLAP 技术O LAP 是 On 2Line Analytical Processing (联机分析 处理 的首字母缩写 , 是与数据仓库密切相关的一种 决策支持工具 , 是使管理人员

8、和分析人员或执行人员 能从多角度对原始数据转化出来的 , 能够真正为用户 所理解的并真实反映企业特性的信息进行快速 、 一 致 、 交互的存取 , 从而获得对数据的更深入了解的一 类软件技术 。 其目标是决策支持和多维环境特定的 查询和报表需求 , 其技术核心是 “维” 这个概念 , 维是 人们观察事物的角度 , 所以 O LAP 也可以说是多维数 据分析工具的集合 。操作数据存储的两种方式分别 为多维数据存储和关系数据存储 , 由此形成了 O LAP 的两种实现结构 :基于多维数据库的 O LAP (M O LAP 实现和基于关系数据库的 O LAP (RO LAP 实现 4。 M O LA

9、P 是以多维数据库 (M DD 为基础 ,M DD 将 数据存放在一个 n 维数组中 , 存在着大量的稀疏数 据 , 在事件发生的部位 , 数据聚合在一起 , 密度很大 , 成为稠密数据 5。 M DD 对稀疏数据进行压缩存储 , 以减少存储空间占有量 , 而且数据综合速度快 。 但多 维数据库管理系统缺乏标准且功能不强 。RO LAP 是以成熟的关系数据管理系统上 , 在灵 活性和处理数据能力方面有优势 。其不足是存放了 大量细节数据和较少的综合数据 , 有时需要牺牲效率 为代价动态地综合数据 。1. 3 数据挖掘 (DM 技术数据挖掘是一种决策支持过程 , 利用某些特定的 知识从企业原有的

10、数据中挖掘出潜在的模式 , 预测客 户的行为 , 帮助企业的决策者做出正确的决策 。 作为 分析型工具 ,O LAP 和 DM 在系统中占有相当重要的 地位 , 但它们的应用范围和侧重点不同 ,O LAP 是一种 验证型的分析工具 , 而 DM 是一种挖掘型的分析工 具 , 它能自动地发现隐藏在数据中的模式 。 从对数据 分析的深度的角度来看 ,O LAP 位于较浅的层次 ,DM 所处的位置较深 。尽管 DM 与 O LAP 存在差异 , 但作为数据仓库的 工具层的组成部分 , 两者相辅相成 , 相互结合 , 多维数 据挖掘 (O LAM 是 O LAP 和 DM 相结合的产物 。2 电信系统

11、数据仓库技术应用方案 随着电信市场的逐渐开放 , 传统的电信厂商面临 着国内外厂商的挑战 , 电信厂商间的竞争将日趋激 烈 。 因此必须依靠技术手段 , 建立一套良好的电信业 务管理系统 , 使之能在不断变化的市场需要中把握商 机 , 满足需要 。 建立基于数据仓库的决策支持系统 , 是实现这一目标的保障 。以往的电信行业中各个部 门已经建立自己的信息系统 , 经过多年的运行 , 已经 保存大量的实时系统运行信息 、 原始营业数据及其它 详细资料 。 但由于这些系统间的分散 、 独立不仅无法 为管理决策提供科学依据 , 也无法满足信息一体化的 要求 。 为了提供全面的客户跟踪和决策分析 , 提

12、出了 建立数据仓库的构想 。2. 1 系统的体系结构系统可分为四个部分 :数据源 (包括来自源于电 信部门的内部业务数据和其它结构的外部数据 、 数 据仓库系统 、 决策支持层 (O LAP 工具和 DM 工具 和 用户界面 。 它们之间相互作用共同构成层次分明的 决策支持系统 。 如图 1。系统的工作流程 :底层数据 源的数据经抽取 、 转换后进入数据仓库 。 数据仓库中 的多维数据经 O LAP 系统直接提供给一般的管理人 员和高层的管理人员 。同时数据挖掘工具从数据仓 库挖掘出有用的信息可供高层人员做出预测信息性 分析 。 通过用户界面供用户使用。2. 2 数据仓库的设计数据仓库的建立是

13、至关重要的 , 它是管理人员管 理决策和预测分析的基础 , 是实现系统功能的关键之 一 , 必须保证正确的数据以正确的模式被抽取到数据 仓库中 。(1 确定主题 。如表 1不难看出 , 五个主题构成了数据仓库的结 构框架 。 数据仓库中的基层数据随着时间日积月累 , 来源非常复杂 , 不仅有内部数据 , 也有外部数据 , 其数 78 2004年第 11期 项军等 :数据仓库技术与应用据结构也不尽相同 , 必须经过抽取 、 转换 、 传输和上载 的数据采集过程 , 集成到数据仓库中 , 数据仓库包含 原子数据层和具体历史数据 。而多维数据库则是对 数据进行更高意义的概括 。 同时 , 按照决策的

14、需要组 织成面向主题的二维表 , 每个表描述主题的不同部分 的信息 , 而表与表之间通过主码键和公共码键联系 。 表 1 数据仓库的主题域主题 属性组 公共码键客户 客户分类 、 个体客户 、 集体客户 、客户基本档案信息客户 I D 号业务 业务类别 、 业务项目 业务号 费用 客户费用 、 业务费用 计价费用号 话费记录 话费分类 、 长途电话 、 市话 、 移动通话 话费项目号 缴费记录 缴费项目分类 、 客户缴费项目 缴费项目号 (2 粒度的划分 。考虑到电信部门的数据仓库中拥有大量数据 , 采 用双重粒度级来设计 。将部门每天的细节操作型数 据 (细粒度的数据 存放在数据仓库的真实档

15、案层 , 并 每隔一个时间周期 (一个月 将这些数据从数据仓库 中转移到一个价格低廉的存储介质保存 。这样可以 提高查询内容的范围 。将每月的或是每年的综合分 析型数据 (粗粒度的数据 存放在数据仓库中 , 供分析 人员使用 , 这些数据是经常被用到的 , 可以提高查询 效率 , 同时节省存储费用 。2. 3 OLAP 系统的建立O LAP 系统的设计重点在于如何组织数据仓库中 的综合性数据 , 如何满足前端用户的多维数据分析需 要 。 基于上面两点考虑 , 选用基于多维数据组织的 O LAP (M O LAP 实现 。(1 综合数据组织 。进行数据汇总查询之前 ,M O LAP 需要预先按概

16、 要文件中定义的数据汇总关系进行计算 , 这个计算通 常以批处理方式运行 。 计算结果存在数据文件中 , 当 用户查询时 , 直接调用计算结果 , 速度非常快 。 (2 数据访问和生成方式 。利用旋转 、 切片或切块 、 向上归纳 、 向下钻取等操 作剖析数据 , 结果可用多种可视化方式呈现 , 并通过 报表输出 , 使用户能从多个角度 、 多侧面观察数据 , 从 而深入了解其信息含义 , 为决策打下良好基础 。 2. 4 建立 DM 应用在建立应用之前 , 首要任务就是建立一个数据挖 掘模型和训练这个模型 。 实现这个任务有多种方法 , 最容易的一种方法就是利用 S Q L Server 的 Analysis Manager 的数据模型向导 , 这个向导将产生数据挖掘 模型

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1