大数据仓库与大数据挖掘.docx
《大数据仓库与大数据挖掘.docx》由会员分享,可在线阅读,更多相关《大数据仓库与大数据挖掘.docx(9页珍藏版)》请在冰豆网上搜索。
大数据仓库与大数据挖掘
数据仓库与数据挖掘
摘要
数据挖掘是一新兴的技术,近年对其研究正在蓬勃开展。
本文阐述了数据仓库及数据挖掘的相关概念•做了相应的分析,同时共同探讨了两者共同发展的关系,并对数据仓库与挖掘技术结合应用的发展做了展望。
用DataMiner作为对数据挖掘的工具,给出了应用于医院的数据仓库实例。
指出了数据挖拥技术在医疗费用管理、医疗诊断管理、医院资源管理中具有的广泛应用性,为支持医院管理者的分析决策作出了积极探索。
Abstract
TheDataMineisaburgeoningtechnologyztheresearchaboutitisdevelopingflourishing・Inthispaper,itexpatiatesandanalysestheconceptsofDataWarehouseandDataMineTogether;discussingtheconnectionsofhowtoexpandthetwotechnologiesfandcombiningthetwotechnologieswithprospect・Thedatawarehousesupportsthemassdataonthefurtherhandlingandrecycling・Thepaperpointsouttheuseofdatamininginpatientchargecontrolzmedicalqualitycontrolfhospitalresourcesallocationmanagement・Ithelpsthehospitaltomakedecisions
positively
关键字:
数据仓库;数据挖掘;医院信息系统
Keywords:
DataWarehouse;DataMine;Hospitalinformationsystem
1数据仓库的概述
1.1数据仓库的特征
1.2数据仓库系统
1.3联机分析技术
2.数据挖掘
2.1数据挖掘定义及实现过程
2.2数据挖掘的分类
2.3数据挖掘任务
3.数据挖掘与数据仓库的联系
4.数据挖掘技术在医院管理中的应用
4•1病人费用构成分析7
4•2同期费用对比分析7
4・3病人结构分析8
4・4病人流动情况分析8
4•5病人就诊时间分析8
4•6成本效益分析8
5、总結9
随看信息时代的不断进步,社会正处于数据技术飞速发展的良好状态。
但是,
在数据信息极度膨胀的同时,并非所有的数据都可被利用,大量的数据浪费,造成各种损失。
所以有必要将这些数据转化为有用的信息。
而传统的数据处理方法越来越不能满足使用要求,迫切需要一种从大量数据中搜索集中并去伪存真的技术。
20世纪80年代后期至今,高级数据分析数据挖掘(DataMining,简
称DM)发展起来,是开发信息资源的一套科学方法、算法以及软件工具和环境,是集统计学、人工智能、模式识别、并行运算、机器学习、数据库等技术为一体的一个交叉性的研究领域。
1.数据仓库的概述
数据仓库对不同的使用者、不同的操作围,它有不同的意义。
被誉为数据仓库之父的W.H.Inmom将数据仓库DataWarehouse)定义为『41:
是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。
对于数据仓库的概念可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。
11数据仓库的特征
(1)数据是面向主题的
传统的数据仓库只是单纯的数据的集中,在处理不同事务时执行不同
的操作。
而现今的数据仓库是有较强主题组织性的,高层赶地将数据归类,
去除无用的数据。
(2)数据的集成性
因为数据的来源是多方面的,必须根据一定的规则将所有的数据进行重新构造,即数据的集成。
(3)数据的相对稳定性
数据仓库中的数据是历史数据,具有一定的借鉴性,不会有大的变动。
(4)数据的不易失性(长期性)
数据仓库只是物理式的、筛选式的存放数据,不会改变数据本身的性质,那
么其数据结构必定包含有时问效果,这样才能更好的体现历史数据的趋势预测性。
12数据仓库系统
目前,数据仓库系统主要以现有的商用数据库管理系统作为数据的存储体,与
传统的数据库系统不同,数据仓库系统是以面向主题的、集成的、时变的和稳定的为特点,因此在数据仓库系统的建设中,其主要容为数据抽取与数据集成。
在数据集成过程中,由于各数据源的类型多样,包括各种类型的关系数据库管
理系统、文件系统,甚至还包括来自WEB上的数据,这些数据在模式设计上也是多种多样,数据质量也千差万别,数据容的来源也不统一”因此在数据集成过程中数据模式的设计、数据清洗和数据的转换、导人和更新方法是主要难点,目前的研究工作也主要集中在这几个方面。
在数据清洗中一个重要的问题是重复数据的发现与删除•由于数据来自不同的数据源,所以相同的数据经常会在数据仓库中岀现多个复本,但由于各个数据源的数据质量有较大差别,同样的数据在录入时由于拼写错误、不一致的习惯会出现小的差别,从而被认为是不同的数据。
为了提高数据仓库中的数据的可靠性,需要将这些可能的重复数据找出来,并进行删除。
目前在重复数据的寻找方面主要釆用一些标准文本相似性匹配方j去,如编辑距离、CosineMetric等。
但这些方法无法解决语义上的相似性判定问题。
13联机分析技术
联机分析技术是针对数据仓库应用中广泛出现的大量的聚集操作而产生的
—种新的技术,总体上讲联机分析技术可以分成两种类型,一种是基于关系数据库系统实现的联机分析系统,简称ROLAPo其基本思想是对数据仓库中的数据模式进行合理组织,直接通过关系查询实现联机分析系统支捋的下钻、上翻、分片、分块等操作。
目前各个关系数据库厂商均在它们的关系数据库管理系统的产品中提供了相应的查询手段,同时为了提高查询的性能,它们还増加了相应的索弓I机制;另一种基于多维模型实现联机分析,简称MOLAPo这种方法基于多维数组实现联机分析系统,其主要研究问题如何减少存储空间,提高查询性能。
近年在这两方面均有研究论文发表。
与此同时随看OLAP系统应用的推广对基于OLAP系统的体系结构方面的研究也弓I起了人们的注意,Uwerohm针对集群结构的OIAP系统研究了一个对数据的实时性敏感的中间件系统。
可在保证系统查询的正确性和一致性的同时充分发挥集群系统的性能。
ROLAP实现技术方面的研究开展了一段时间,目前提高ROLAP的执行八率的方法主要包括两个方面,一方面是采用物化视图的思想,其方法是将用户可能的查询事先计算出来。
当用户提交查询的时候,从己经计算出来的视图出发,可以较快地计算出查询结果。
这里面的主要问题是物化视图的选择和查询的实现。
另一方面是针对
OLAP查询的索引结构•比较常见的是基于位图的索引和UB-t「ee等。
目前的研究主要集中在对现有方法的改进和新的查询优化技术方面的研究。
例如,NikosKarayannidis等人对基于层次的簇聚方式存储的事实表进行联机的星形查询的实现技术进行了研究,提出了一整套查询过程的实现方法和优化策略,在查询访问计划的实现中充分利用了基于层次的簇聚存储方式带来的优点。
2、数据挖掘
2.1数据挖掘定义及实现过程
数据挖掘就是用来发现隐含的、事先未知的、潜在的有用知识,提取的知识可以表示成概念、规律、模式等形式。
其挖掘对象不仅可以是数据库,也可以是文件系统或组织在一起的数据集合,更主要的是数据仓库。
简单的说•数据挖掘是提取或〃挖掘”知识。
目前,数据挖掘是可以从统计学、数据库和机器学习等三个方面进行定义。
从统计学的角度,数据挖掘是指分析所观察的数据集以发现可信的数据间的未知关系并提供给数据拥有者可理解的、新颖的和有用的归纳数据。
从数据库的角度来看,数据挖掘是指从存储在数据库、数据仓库或其他信息仓库中的大量数据中发现有趣的知识的过程。
从机器学习的角度•数据挖掘定义为从数据中抽取隐含的、明显未知的和潜在的有用的信息。
可以理解为,数据挖掘是一个从已知数据集合中发现各种模型、
概要和导出值的过程。
图I表示的是典型的数据挖掘系统的结构。
图X典型的数据挖掘系统的结构
过程表述如下:
从数据库或数据仓库等资源库中收集数据,并进行信息的初步筛
选;根据用户对数据信息的要求,由服务器提取并传输有用的数据;为了对已经采集到的数据进行更有效的分配,数据挖掘弓摩对数据进行特征化、关联、分类等操作;然后将精确划分的数据信息进行模式评估,从而使搜索仅限制在感兴趣的模式上•通过图形用户界面,用户可以方便的与数据挖掘系统之间通信•实现对数据的使用。
2.2数据挖掘的分类
数据挖掘是一个交叉性的学科领域,涉及数据库技术、统计学理论、机器学习技术、模式识别技术、克视化理论和技术等。
由于所用的数据挖拥方法不同、所挖掘的数据类型与知识类型不同、数据挖掘应用的不同。
从而产生了大量的、各种不同类型的数据挖掘系统。
掌握数据挖掘系统的不同非类,可以帮助用户确定最适合的数据挖掘系统。
(1)根据所挖掘数据库类型的不同来分类:
有关系型数据挖掘系统、对象型数据挖掘系统、对象一关系型数据挖掘系统、事务型数据挖拥系统、数据仓库的数据挖拥系统,等等。
(2)根据所挖掘的知识类型来分类:
分为特征化、区分、关联、分类、聚类、孤立
点分析f异常数据)和演变分析、偏差分析、相似性分析等分类。
(3)根据所釆用技术的分类:
有自动数据挖掘系统、证实驱动挖掘系统、发现挖扌
屈系统和交互式数据挖拥系统。
(4)根据数据挖掘方法来分类:
如面向数据库的方法、面向数据仓库的方法、机器
学习方法、统计学方法、模式识别方法、神经网络方法等。
(5)根据数据挖掘应用的分类:
有金融数据的数据挖掘系统、电信行业的数据挖拥系统、DNA序列数据挖掘系统、股票市场数据挖掘系统、WWW数据挖拥系统等等,不同的应用通常需要集。
成对于该应用特别有效果的方法。
因此,普通的、全功能的数据挖掘系统并不一定适合特定领域的数据挖拥任
2.3数据挖掘任务
数据挖掘任务有六项,分别是:
关联分析、时序模式、聚类、偏差、检测、预测。
关联分析是从数据库中发现知识的一类重要方法。
若两个或多个数据项的取值之间重复出现并且概率很高的时候,就存在某种管理•可以建立起这些数据项的关联准则。
通过时间序列搜索出重复发生概率较高的模式。
这里强调时间序列的影响。
数据库中的数据可以划分为一系列有意义的子集,即类。
在同一类别中,个体之间的距离较小,而不同类别的个体之间的距离偏大。
聚类増强了人们对客观现实的认识,即通过聚类建立宏观概念。
分类是数据挖掘中应用最多的任务。
分类是找出一个类别的概念描述,它代表了这类信息的整体,即该类的涵描述。
一般用规则或决策树模式表示。
该模式能把数据库中的元组影射到给定类别中的某一个。
数据库中的数据存在很多异常情况。
从数据分析中发现这些异常情况也是很重要的,应该引起足够的重视。
偏差检测的基本方法是寻找观察结果与参照之间的差别。
观察常常是某一个领域的值或多个域值的总汇。
参照是给定模型的预测、外界提供的标准或另一个观察。
预测是利川历史数据找出变化规律,建立模型,并用此模型来预测未来数据的种类、特征等。
近年来,发展起来的神经