1、医院信息系统Key words :Data Warehouse ;Data Mine ;Hospital information system1数据仓库的概述1.1数据仓库的特征1.2数据仓库系统1.3联机分析技术2.数据挖掘2.1数据挖掘定义及实现过程2.2数据挖掘的分类2.3数据挖掘任务3.数据挖掘与数据仓库的联系4.数据挖掘技术在医院管理中的应用4 1病人费用构成分析 74 2同期费用对比分析 743病人结构分析 844病人流动情况分析 84 5病人就诊时间分析 84 6成本效益分析 85、总結 9随看信息时代的不断进步,社会正处于数据技术飞速发展的良好状态。但是,在数据信息极度膨胀的同
2、时,并非所有的数据都可被利用,大量的数据浪费,造成各 种损失。所以有必要将这些数据转化为有用的信息。而传统的数据处理方法越来越 不能满足使用要求,迫切需要一种从大量数据中搜索集中并去伪存真的技术。20世 纪80年代后期至今,高级数据分析 数据挖掘(Data Mining,简称DM)发展起来,是开发信息资源的一套科学方法、算法以及软件工具和环境, 是集统计学、人工智能、模式识别、并行运算、机器学习、数据库等技术为一体的 一个交叉性的研究领域。1.数据仓库的概述数据仓库对不同的使用者、不同的操作围,它有不同的意义。被誉为数据仓库之 父的W.H.Inmom将数据仓库Data Warehouse)定义
3、为41:是一个面 向主题 的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。对于数据 仓库的概念可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数 据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源 有效集成,集成后按照主题进行了重组,并包含历史数据,而 且存放在数据仓库中的数 据一般不再修改。11数据仓库的特征(1)数据是面向主题的传统的数据仓库只是单纯的数据的集中,在处理不同事务时执行不同的操作。而现今的数据仓库是有较强主题组织性的,高层赶地将数据归类,去除无用的数据。(2)数据的集成性因为数据的来源是多方面的,必须根据一定的规则将所有
4、的数据进行重 新构造,即数据的集成。(3)数据的相对稳定性数据仓库中的数据是历史数据,具有一定的借鉴性,不会有大的变动。(4)数据的不易失性(长期性)数据仓库只是物理式的、筛选式的存放数据,不会改变数据本身的性质,那么其数据结构必定包含有时问效果,这样才能更好的体现历史数据的趋势预测性。12数据仓库系统目前,数据仓库系统主要以现有的商用数据库管理系统作为数据的存储体,与传统的数据库系统不同,数据仓库系统是以面向主题的、集成的、时变的和稳定的为 特点,因此在数据仓库系统的建设中,其主要容为数据抽取与数据集成。在数据集成过程中,由于各数据源的类型多样,包括各种类型的关系数据库管理系统、文件系统,甚
5、至还包括来自WEB上的数据,这些数据在模式设计上也是多 种多样,数据质量也千差万别,数据容的来源也不统一”因此在数据集成过程中数据 模式的设计、数据清洗和数据的转换、导人和更新方法是主要难点,目前的研究工 作也主要集中在这几个方面。在数据清洗中一个重要的问题是重复数据的发现与删除由于数据来自不同的数据 源,所以相同的数据经常会在数据仓库中岀现多个复本,但由于各个数据 源的数据 质量有较大差别,同样的数据在录入时由于拼写错误、不一致的习惯会出现小的差 别,从而被认为是不同的数据。为了提高数据仓库中的数据的可靠性,需要将这些可 能的重复数据找出来,并进行删除。目前在重复数据的寻找方面主要釆用一些标
6、准 文本相似性匹配方j去,如编辑距离、Cosine Metric等。但这些 方法无法解决语 义上的相似性判定问题。13联机分析技术联机分析技术是针对数据仓库应用中广泛出现的大量的聚集操作而产生的种新的技术,总体上讲联机分析技术可以分成两种类型,一种是基于关系数据库系 统实现的联机分析系统,简称ROLAPo其基本思想是对数据仓库中的数据模式进行 合理组织,直接通过关系查询实现联机分析系统支捋的下钻、上翻、分片、分块等操 作。目前各个关系数据库厂商均在它们的关系数据库管理系统的产 品中提供了相应 的查询手段,同时为了提高查询的性能,它们还増加了相应的索弓I机制;另一种基于 多维模型实现联机分析,简
7、称MOLAPo这种方法基于多维 数组实现联机分析系统, 其主要研究问题如何减少存储空间,提高查询性能。近年在这两方面均有研究论文发 表。与此同时随看OLAP系统应用的推广对基于OLAP系统的体系结构方面的研究 也弓I起了人们的注意,Uwe rohm针对集群结 构的OIAP系统研究了一个对数据 的实时性敏感的中间件系统。可在保证系统查询的正确性和一致性的同时充分发挥 集群系统的性能。ROLAP实现技术方面的研究开展了一段时间,目前提高ROLAP的执行八率 的 方法主要包括两个方面,一方面是采用物化视图的思想,其方法是将用户可能的查询 事先计算出来。当用户提交查询的时候,从己经计算出来的视图出发,
8、可以较快地计 算出查询结果。这里面的主要问题是物化视图的选择和查询的实现。另一方面是针对OLAP查询的索引结构比较常见的是基于位图的索引和UB-tee等。目前的研究 主要集中在对现有方法的改进和新的查询优化技术方面 的研究。例如,Nikos Karayannidis等人对基于层次的簇聚方式存储的事实表进行联机的星形查询的实现 技术进行了研究,提出了一整套查询过程的实现方法和 优化策略,在查询访问计划的 实现中充分利用了基于层次的簇聚存储方式带来的优点。2、数据挖掘数据挖掘就是用来发现隐含的、事先未知的、潜在的有用知识,提取的知识可以 表示成概念、规律、模式等形式。其挖掘对象不仅可以是数据库,也
9、可以是文件系统 或组织在一起的数据集合,更主要的是数据仓库。简单的说数据挖掘 是提取或挖掘” 知识。目前,数据挖掘是可以从统计学、数据库和机器学习等三个方面进行定义。从统计学的角度,数据挖掘是指分析所观察的数据集以发现可信的数据间的 未 知关系并提供给数据拥有者可理解的、新颖的和有用的归纳数据。从数据库的角度来看,数据挖掘是指从存储在数据库、数据仓库或其他信息仓库 中的大量数据中发现有趣的知识的过程。从机器学习的角度数据挖掘定义为从数据中抽取隐含的、明显未知的和潜在的 有用的信息。可以理解为,数据挖掘是一个从已知数据集合中发现各种模型、概要和导出值的过程。图I表示的是典型的数据挖掘系统的结构。
10、图X典型的数据挖掘系统的结构过程表述如下:从数据库或数据仓库等资源库中收集数据,并进行信息的初步筛选;根据用户对数据信息的要求,由服务器提取并传输有用的数据;为了对 已经采集 到的数据进行更有效的分配,数据挖掘弓摩对数据进行特征化、关联、分类等操作; 然后将精确划分的数据信息进行模式评估,从而使搜索仅限制在感 兴趣的模式上通 过图形用户界面,用户可以方便的与数据挖掘系统之间通信实现对数据的使用。数据挖掘是一个交叉性的学科领域,涉及数据库技术、统计学理论、机器学习技 术、模式识别技术、克视化理论和技术等。由于所用的数据挖拥方法不同、所挖掘 的数据类型与知识类型不同、数据挖掘应用的不同。从而产生了
11、大量的、各种不同 类型的数据挖掘系统。掌握数据挖掘系统的不同非类,可以帮助用户确 定最适合的 数据挖掘系统。(1)根据所挖掘数据库类型的不同来分类:有关系型数据挖掘系统、对象型数据挖 掘系统、对象一关系型数据挖掘系统、事务型数据挖拥系统、数据仓库的数 据挖拥系统,等等。(2)根据所挖掘的知识类型来分类:分为特征化、区分、关联、分类、聚类、孤立点分析f异常数据)和演变分析、偏差分析、相似性分析等分类。(3)根据所釆用技术的分类:有自动数据挖掘系统、证实驱动挖掘系统、发现挖扌屈系统和交互式数据挖拥系统。(4)根据数据挖掘方法来分类:如面向数据库的方法、面向数据仓库的方法、机器学习方法、统计学方法、
12、模式识别方法、神经网络方法等。(5)根据数据挖掘应用的分类:有金融数据的数据挖掘系统、电信行业的数据挖 拥系统、DNA序列数据挖掘系统、股票市场数据挖掘系统、WWW数据挖 拥系统等等,不同的应用通常需要集。成对于该应用特别有效果 的方法。因 此,普通的、全功能的数据挖掘系统并不一定适合特定领域的数据挖拥任数据挖掘任务有六项,分别是:关联分析、时序模式、聚类、偏差、检测、 预测。关联分析是从数据库中发现知识的一类重要方法。若两个或多个数据项的 取值 之间重复出现并且概率很高的时候,就存在某种管理可以建立起这些数据 项的关联 准则。通过时间序列搜索出重复发生概率较高的模式。这里强调时间序 列的影响
13、。数据库中的数据可以划分为一系列有意义的子集,即类。在同一类别中,个体 之间的距离较小,而不同类别的个体之间的距离偏大。聚类増强了人们对客观现实 的认识,即通过聚类建立宏观概念。分类是数据挖掘中应用最多的任务。分类是找出一个类别的概念描述,它代表 了这类信息的整体,即该类的涵描述。一般用规则或决策树模式表示。该模式能把数 据库中的元组影射到给定类别中的某一个。数据库中的数据存在很多异常情况。从数据分析中发现这些异常情况也是很重 要的,应该引起足够的重视。偏差检测的基本方法是寻找观察结果与参照之间的差 别。观察常常是某一个领域的值或多个域值的总汇。参照是给定模型的预测、外界 提供的标准或另一个观察。预测是利川历史数据找出变化规律,建立模型,并用此模型来预测未来数据的种 类、特征等。近年来,发展起来的神经
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1