1、希望能对后续的从事相关研究的人员提供有益的借鉴。关键词:关联规则;Apriori算法;数据挖掘;用药规律;名老中医经验AbstractFamous TCM valuable clinical experience is Chinese medicine academic and clinical medicine card product of the combination of thinking. TCM Clinical Treatment is the process of gathering information by the viewpoint of TCM, Chinese m
2、edicine thought to process information, and accordingly imposes the healing method. Chinese medicine knowledge from generation to generation, mostly words and deeds, virtually for the dissemination of knowledge and the benefit of the public medicine made obstacles. Just using data mining addresses k
3、ey issues and technical challenges in the study of Chinese medicine characteristics . After a long-term development of Chinese medicine has accumulated a great deal of clinical experience, treatment, prescription drugs, and other information relevant knowledge about the history of literature. using
4、data mining methods to study inherit old TCM clinical experience, digging finishing their academic thinking, innovation and research methods, combined with the application of data mining technology, machine learning technology and other intelligent technology, and striving to get the real experience
5、 of old TCM, easily inheritors learning.The main work is as follows:1 in-depth analysis and discussion of the typical association rule mining algorithms Apriori algorithm, complete the basic idea of the database mining on the basis of this algorithm.2 Visual BAS work on Windows XP platform C6. 0 env
6、ironment, using Apriori algorithm, developed analysis of medical records system ,based on data mining for TCM hypertension. 3 based on considering the reliability, accuracy and integrity of the original data this study, the foundation of the China Academy of TCM Thoracic Obstruction emergency. From
7、January 2001 to October 2005, research Director State Administration of Traditional Medical Administration chest stuffiness and emergency coordination team leader Mr. 65 copies of medical records Medical Records are used for the Source of hypertension, for example, using Apriori algorithm to search
8、frequent item sets, The resulting medical case model is almost exactly in line with commonly prescribed when professor Shen is in the treatment of hypertension. In this paper, hypertension treatment system, only in the diagnosis and treatment of secondary hypertension, is the first attempt and explo
9、ration to rely on manual skills and computer technology to the diagnosis and treatment hypertension .Break the previous simple application of finishing, inductive method summarizing the experience of old TCM traditional thinking , created new ideas and new methods using a computer-aided analysis of
10、old TCM experience Hope to provide a useful reference for subsequent personnel engaged in related research.Keywords: association rules; Apriori algorithm; data mining; drug laws; famous TCM experience第一章 绪论1.1 课题提出的背景及研究意义心脑血管疾M(Cardiovascular Disease, CVD)是全球威胁人类健康的重大疾病,已成为我国居民的首位死因。心脑血管病的发病和死亡一半以上
11、与高血压有关,同时居民脑卒中和冠心病发病最重要的危险因素也是高血压,所以控制高血压是防治心脑血管病、脑卒中和冠心病的关键。我国居民高血压患病率持续增长,1991年全国患病人数约为9000万。中国居民2002年营养与健康状况调查显示,18岁以上居民高血压患病率为18.8%,全国患病人数大约1.6亿多。中国高血压防治指南(2009年基层版)中估计我国现高血压患者2亿人,10个成年人当中就有2个患有高血压,在高血压患病率持续增长的同时,高血压病人的知晓率和治疗率也处于一个很低的水平。高血压是一种慢性疾病,病人都需要接受长期治疗。治疗高血压最有效的方式是药物治疗,药物治疗就需要医生开具处方,从而产生了
12、大量的纸质处方的存储和查询问题。随看计算机网络技术的成熟,我国医疗卫生信息化建设不断深入,全国的医疗机构也都开始建设自己的医疗信息化系统,其中电子处方作为推行医疗信息化建设的必然产物和医疗信息化建设的重要组成部分将得到广泛的运用。中医药是中华民族的瑰宝,进行中医药的数据挖掘是中医药现代化研究的重要组成部分,是对中医药几千年沉淀的宝贵历史数据进行去伪存真、去粗取精的过程,也是为更好地推进中医药的发展,保持其优势与特色的重要方法。中医药在漫长的发展过程中形成了自己独特的理论和诊疗经验,中医医案中的方、药、证之间的关系错综复杂,在一定程度上保持了中医药系统的特色,但也成为中医药走向世界的障碍。大量的
13、医案散见于文献刊物中,散见于名老中医的案头,他们的学术经验是中医药事业的一笔巨大财富。总结其经验,继承其学术,既是今天振兴中医药事业的需要,也是历史赋予我们的重任。目前,对名老中医的学术思想和临证经验尚停留于口授、身教、整理、归纳阶段,带有一定的主观成份,缺乏全面系统的整理与统计,学者搜寻不易,难以为广大医务工作者借鉴应用。本课题对数据挖掘技术在中医药方面的应用进行了有益的探索,设计并实现了基于数据挖掘的中医医案分析系统,通过收集治疗典型病例的众多医案,从大量有噪声、不完整甚至是不一致的数据中,挖掘出典型病例的中医用药规律,突破了以往单纯应用整理、归纳方法总结名老中医经验的传统思路,为中医临床
14、治疗、中医药教学及中成药的研制提供参考,开创了应用计算机辅助分析名、老中医经验的新方法。1.2 相关研究的现状1.2.1 高血压领域的研究现状高血压作为全球人类最常见的慢性病,中华人民共和国卫生部疾病预防控制局、卫生部心血管病防治研究中心出台了中国高血压防治指南(2009年基层版),指南中估计我国现有高血压患者2亿人,严重了我国居民的身心健康。为了有效防治高血压,领域学者对高血压做了多方面研究,主要集中在几个方面:(1)对高血压患病率的统计。文献中指出我国成年人高血压患病率为18.8%。15岁以上患病率为17.6%。高血压的患病率跟年龄和经济发展水平有关。(2)对成年人高血压知晓率和治疗控制状
15、况的统计。高血压的患病率持续增长,同时高血压的知晓率和治疗率也处于一个很低的水平。文献中指出我国高血压患者的知晓率和患病率只30.2%.、24.7%,这对高血压的治疗带来了很大的困难。(3)借助数据仓库、数据挖掘和人工智能等计算机技术对高血压的病因、发病机制和高血压的防治的研究.例如对同时患有糖尿病和高血压的患者选择强化降压还是强化降糖的研究、尿酸与高血压前期关系的研究、血脂与高血压关系的研究等。国外的Thusitha等人认为高血压病人要想达到降血压的目的,必须坚持接受药物治疗。并对病人的不坚持服药的心理和原因进行了分析,然后找到了一种鉴定病人不坚持服药的方法。同时,为了增强全科医生的查询能力
16、,更好地提醒病人按时服药,Thusitha等人还开发了一个基于本体的查询方法。1.2.2 关联规则的研究现状随着信息化时代的到来,多种行业积累的数据正在以指数式增长,数据的存储随着计算机硬件和数据库技术的不断成熟己经得到了有效解决,但是面对海量的数据,人们对数据的理解程度在降低,对数据进行准确理解、分析和发现有用的新知识成为各个行业决策者的强烈需求。随若数据量的不断增长,传统的统计、查询方法都是对数据进行简单的处理,无法直接提取出这些潜在的有价值的信息。信息的需求带动了对信息挖掘分析工具的需求,数据挖掘(Data Mining, DM)技术应运而生。关联规则挖掘是数据挖掘的一个重要研究课题,它
17、反映了一个数据集中数据项之间的依赖或相互关联,是数据挖掘领域的一个重要分支,它是由R.Agrawal等人于1993年首次提出。关联规则最初应用于购物篮分析,用于发现商品交易数据中的被顾客频繁购买的商品、顾客的购买习惯和不同商品之何的联系。由于关联规则技术易于理解并且实际应用效果非常理想,所以在关联规则提出后的几年中学者和研究人员对它做了大量的研究工作,现在对关联规则的研究主要集中在以下两个方面:(1)优化原来的算法或提出更高性能的算法.这其中包括Agrawal本人对Apriod算法提出的改进算法AprioriAl和ApriodTid,其他研究人利用并行挖掘技术、散列技术、分区技术对Apriod
18、算法提出的优化算法.(2)把关联规则的概念应用到其他的领域。现在关联规则技术被广泛应用于金融、保险、电信、医学研究等领域。在医学领域中,关联规则主要用来寻找症状和疾病之间的关联、疾病和治疗标准之间的关联、药物和不良反应之问的关联,从而辅助疾病的诊断和治疗。刘宏强利用Apriori算法发现了冠心病和影响它发病的可能因素之间的关联,用于辅助冠心病的预防和诊断。赵连朋利用关联规则技术发现病人的处方和药品之间的关联,以监督医师合理用药。马丽伟把关联规则算法应用到中医药数据挖掘中,发现了具有临床参考价值的症状间、处方间的关联和症状-处方药物间的关联。高血压病人的电子处方记录中也隐藏了很多关联,因此把关联
19、规则技术应用到电子处方中也应该会得到抗高血压药物间、药物-血压间的一些关联,这些关联可用于辅助高血压的诊断和治疗。1.3 本课题的主要研究目标本文的研究目标是设计一个高血压的辅助诊断和治疗系统,目的是帮助用户诊断是否患有高血压,为确诊的病人提供一个合适的治疗方案,从而提高病人的知晓率和治疗率,最终提高全社会对高血压的防治水平。该系统利用了数据挖掘中的关联规则技术、本体的构建方法和本体理论的知识表达与推理技术。本文的研究内容包括:第二章 数据挖掘技术研究2.1 数据挖掘技术及其在中医药研究中的应用2.1.1 数据挖掘简介随着Internet的不断发展,信息化时代的到来,像超市、保险公司、医疗机构
20、等多个行业积累的数据正在以指数式增长。数据的存储随着计算机硬件和数据库技术的不断成熟已经得到了有效解决。但是面对海量的数据,人们对数据的理解程度在降低,对数据进行准确理解、分析和发现有用的新知识成为各个行业决策者的强烈需求。比如超市的经营者希望获得哪些商品经常被顾客同时购买,保险公司希望得到购买保险的客户的特征,医疗机构研究人员希望找到影响某种疾病思病率的因素.随着数据量的不断增长,传统的统计、查询方法都是对数据进行简单的处理,无法直接提取出这些潜在的有价值的信息。数据挖掘又称数据库中的知识发现(Knowledge Discovery in Database, KDD)是通过仔细分析大量数据提
21、取有意义的新的关系、趋势和模式等新知识的过程。从商业角度来看,数据挖掘是对既定的业务目标,从大量的企业数据中发现未知的规律或者验证己知的规律,并进一步模型化,从而获得辅助商业决策、解决商业向题的关键数据的方法.ISL, NCR, DaimlerChrysler三家公司在1996年制定了数据挖掘的交叉产业标准过程(CRISP-DM) ,它强调数据挖掘在商业中的应用,是数据挖掘应用商业的通用流行标准之一。数据库系统的参考模型的如下图2-1所示:图2-1 典型数据挖掘系统的结构其主要成分有数据库、数据仓库或其它信息库、数据库或数据仓库服务器、知识库、数据挖掘引擎、模式评估模块、图形用户界面。1、数据
22、库、数据仓库和其它信息库数据库、数据仓库和其它信息库是进行数据挖掘的数据源,可以在它们的数据上进行数据清理和集成。2、数据库或数据仓库服务器根据用户的数据挖掘要求,数据库或数据仓库服务器负责提取相关的数据。3、知识库知识库是特定的领域知识,用于指定搜索或评估结果模式的兴趣度。这种知识可能包括概念分层,用于将属性或属性值组织成不同的抽象层。3、数据挖掘引擎数据挖掘引擎是数据挖掘的最重要的基本部分,由一组功能模块组成,用于特征化、关联、分类、聚类分析以及演变和偏差分析。4、模式评估模块通常模式评估模块使用兴趣度度量,并与数据挖掘模块交互,以便将搜索聚集在有趣的模式上。它可能使用兴趣度闽值过滤发现的
23、模式。模式评估模块也可以与挖掘模块集成在一起,这依赖于所用的数据挖掘方法的实现。5、图形用户界面图形用户界面在用户和数据挖掘系统之间通信,允许用户与系统交互,指定数据挖掘查询或任务,提供信息、帮助搜索聚集,根据数据挖掘的中间结果进行探索式数据挖掘。此外,此成分还允许用户浏览数据库和数据仓库模式或数据结构、评估挖掘模式。从技术角度来讲,数据挖掘是从大量的、真实的、有噪声的、校糊的、不确定的相同或不同的数据集中,提取隐藏的,事前不为人知的但又有用的潜在知识的过程。从数据挖掘技术上的定义可以看出,数据挖掘的原始数据必须是大量的真实数据,挖掘出的知识是用户感兴趣的并对用户有价值的数据,用户可以理解、接
24、受并应用这些知识。数据挖掘是利用区别于传统的统计方法从大量数据集中获取深层次的知识的过程。挖掘出的知识,可以是概念、规则、规律和约束,这些知识可以用来指导决策者做出正确的决策和预测事物发展的趋势。从数据中挖掘出有用的知识是一个往复循环的过程,首先要确定合适的挖掘目标,然后抽取所需要的数据,选取相应的挖掘算法进行数据挖掘,最后对生成的知识进行评估,如果对挖掘出的只是不满足用户的要求,则整个挖掘过程需要退回,重新选取数据,甚至改变挖掘算法,直到满足要求为止。数据挖掘的步骤如图2-2所示:图2-2 数据挖掘的步骤2.1.2 数据挖掘的功能概述数据挖掘的最终目标是描述和预测,描述是规范当前存在的事实,
25、找到数据可理解的一般特征,预测是利用数据库中的历史和当前的已知变量与字段预测未来感兴趣的其他变量或字段的未来的值。数据挖掘功能可发现多种不同的知识模式,根据发现知识的不同可以从以下6个方面描述数据挖掘的功能。1、概念描述:区分和特征化数据的概念描述(Concept Description)包括数据区分(Data Discrimination)和数据的特征化(Data Characterization)。数据区分是发现或提取目标数据的某些特征或属性与其他数据的特征或属性相比较,用于描述不同数据之间的区别。例如,分别提取两张不同疾病的症状,利用这些症状就可以区分这两种疾病。数据特征化是对口标数据的
26、总体情况的描述,提取数掘的一般特征或特性的汇总。2、关联分析关联分析(Association Analysis)就是从目标数据中发现数据项之间存在的依赖关系,关联分析又称为关联规则.关联规则通过找出频繁地在目标数据集中一起出现的数据项来发现隐藏在不同数据项之间的某种因果关系。关联规则被广泛地应用到商业领域,通过分析交易数据来指导销售和制定市场决策.比如人们熟知的“啤酒和尿布”的故事就是从超市的交易数据中分析得出的频繁项集。3、分类和预测分类(Classification)是指构建一个分类模型或函数,这模型或函数能够把各个数据项映射到预定义的类别。分类包括模型的创建和模型的使用两个过程。通过对预
27、先定义的各个类的训练数据的进行分析,从每个类的训练数据中发现共性得出这个类的描述从而建立分类模型,然后使用分类模型对新的数据进行分类。分类方法有决策树、分类规则、神经网络、粗糙集等。例如,根据病人的症状和己建立的疾病分类规则可到定病人患病的种类。预测(Prediction)是利用训练数据建立模型,该模型可以获得新输入数据的未来变化的趋势或评估数据的属性值的分布范围。4、聚类分析聚类分析(Clustering Analysis)是将抽象对象或物理对象的数据集中类似的对象聚合为一类的过程。每个数据集包括若干个类,各类之间数据对象相似程度极低,每个类内部的对象相似程度很高。聚类分析的方法不同于分类预
28、测,分类预侧是在预定义类别的前提下训练数据找出类的总体特征或属性,然后再根据每个类的特征或属性和分类锐型对新加入的数据进行分类,属于有教师监督学习方法:聚类分析方法直接从数据集中抽象出相似程度高的对象聚合为一类,属于无教师监督的学习方法。6、孤立点分析孤立点(Outlier)是指与数据的一般行为或模型不一致的数据对象。大部分的数据挖掘算法都将孤立点视为噪声,在数据预处理阶段就被过滤掉了。但是罕见或意想不到的事件有时候比正常的事件更有价值。比如发现病人对治疗方式的不良反应校式,在欺骗检测中孤立点可能预示着欺骗行为模式。6、演变分析演变分析(Evolution Analysis)是描述事件或对象的
29、行为基于时间或共他序列变化的规律或趋势,并对其建模.演变分析主要包括序列或周期校式匹配、机遇类似性的数据分析和时间序列数掘分析。比如,可以利用演变分析方法获得整个股票市场的变化规律,发现的规律可指导股民投资。2.1.3 数据挖掘技术在中医药研究中的应用数据挖掘技术只有十多年的发展时间,但其应用十分广泛。在商业、金融业、工业中都有成功的应用例子,取得了一定的经济和社会效益。数据挖掘技术在中医药研究领域中的应用刚刚起步,但己经表现出了很好的势头,目前数据挖掘技术在此领域中的应用主要表现在以下几个方面。1、在中医药信息化研究中的应用对中医药信息进行文本数据挖掘是促进中医药信息结构化的途径之一。从中医诊断、辨证到组方的各个环节,用文字语言描述的过程占很大比例,使得定性内容相对多一些。当中医药在实现以计算机技术为主要工具的信息化研
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1