知识发现与管理2知识发现.docx

上传人:b****6 文档编号:6394521 上传时间:2023-01-06 格式:DOCX 页数:12 大小:27.96KB
下载 相关 举报
知识发现与管理2知识发现.docx_第1页
第1页 / 共12页
知识发现与管理2知识发现.docx_第2页
第2页 / 共12页
知识发现与管理2知识发现.docx_第3页
第3页 / 共12页
知识发现与管理2知识发现.docx_第4页
第4页 / 共12页
知识发现与管理2知识发现.docx_第5页
第5页 / 共12页
点击查看更多>>
下载资源
资源描述

知识发现与管理2知识发现.docx

《知识发现与管理2知识发现.docx》由会员分享,可在线阅读,更多相关《知识发现与管理2知识发现.docx(12页珍藏版)》请在冰豆网上搜索。

知识发现与管理2知识发现.docx

知识发现与管理2知识发现

知识发现与管理(2知识发现)-

知识发现与管理2知识发现

知识发现与管理

2知识发现2.1概述

基于数据库的知识发现(KDD)和数据挖掘还存在着混淆,通常这两个术语替换使用。

KDD表示将低层数据转换为高层知识的整个过程。

可以将KDD简单定义为:

KDD是确定数据中有效的、新颖的、潜在有用的、基本可理解的模式的特定过程。

而数据挖掘可认为是观察数据中模式或模型的抽取,这是对数据挖掘的一般解释。

虽然数据挖掘是知识发现过程的核心,但它通常仅占KDD的一部分(大约是15%到25%)。

因此数据挖掘仅仅是整个KDD过程的一个步骤,对于到底有多少步以及哪一步必须包括在KDD过程中没有确切的定义。

然而,通用的过程应该接收原始数据输入,选择重要的数据项,缩减、预处理和浓缩数据组,将数据转换为合适的格式,从数据中找到模式,评价解释发现结果。

2.1.1知识发现的定义

知识发现(KDD)是基于数据库的知识发现的简称(KnowledgeDiscoveryinDatabases),指从数据集中提取可信的、新颖的、有效的并能被人们理解的模式的非平凡过程。

知识发现的目的是屏蔽原始数据的繁琐细节,从原始数据中提取有意义的、精炼的、能够对用户产生直接影响的知识产品,从而为用户在知识服务中提供决策支持。

狭义的知识发现过程是从大型数据库中发现有价值知识的过程,而广义的知识发现过程则泛指从网页、书籍、人脑、数据库等各种信息媒体中发现有意义的知识的全过程。

该处理过程一般分为三个阶段:

数据准备、数据挖掘、结果的评估与解释。

2.1.2知识发现的基本任务

(1)数据分类。

分类是数据挖掘研究的重要分支之一,是一种有效的数据分析方法。

分类的目标是通过分析训练数据集,构造一个分类模型(即分类器),该模型能够把数据库中的数据记录映射到一个给定的类别,从而可以l立用于数据预测。

(2)数据聚类。

当要分析的数据缺乏必要的描述信息,或者根本就无法组织成任何分类模式时,利用聚类函数把一组个体按照相似性归成若干类,这样就可以自动找到类。

聚类和分类类似,都是将数据进行分组。

但与分类不同的是,聚类中的组不是预先定义的,而是根据实际数据的特征按照数据之间的相似性来定义的。

第1页共15页

知识发现与管理2知识发现

(3)衰退和预报。

这是一种特殊类型的分类,可以看作是根据过去和当前的数据预测未来的数据状态。

通过对用衰减统计技术建模的数字值的预测,学习一种(线性或非线性)功能将数据项映射为一个数字预测变量。

(4)关联和相关性。

是指发现大规模数据集中项集之间有趣的关联或相关关系。

关联规则是指通过对数据库中的数据进行分析,从某一数据对象的信息来推断另一数据对象的信息,寻找出重复出现概率很高的知识模式,常用一个带有置信度因子的参数来描述这种不确定的关系。

(5)顺序发现。

通常指确定数据组中的顺序模式。

当数据的特定类型的关系已被发现时,这些模式同关联和相关性相似。

但对关系基于时间序列的数据组,顺序发现和关联就不同了。

概括总结:

顺序发现是将数据映射为有关数据组的简练描述的子集或映射为数据库中一组特定用户数据的高度概括的数据。

(6)描述和辨别。

是指发现一组特征规则,其中的每一条都是或者显示数据组的特征或者从对比类中区别试验类的概念的命题。

(7)时间序列分析。

其任务是发现属性值的发展趋向,如从股票价格指数的金融数据、客户数据和医学数据等。

它是用来搜寻相似模式以发现和预测特定模式的风险、因果关系和趋势。

2.1.3知识发现的知识类型

(1)广义型知识(Generalization)。

是根据数据的微观特性发现其表征的、带有普遍性的、高层次概念的、中观或宏观的知识。

(2)分类型知识(Classification&Clustering)。

反映同类事物共同性质的特征型知识和不同事物之间差异型特征知识。

用于反映数据的汇聚模式或根据对象的属性区分其所属类别。

(3)关联型知识(Association)。

是反映一个事件和其他事件之间依赖或关联的知识,又称依赖(Dependency)关系。

这类知识可用于数据库中的归一化,查询优化等。

(4)预测型知识(Prediction)。

通过时间序列型数据,由历史的和当前的数据去预测未来的情况。

它实际上是一种以时间为关键属性的关联知识。

(5)偏差型知识(Deviation)。

通过分析标准类以外的特例、数据聚类外的离群值、实际观测值和系统预测值间的显著差别,对差异和极端特例进行描述。

第2页共15页

知识发现与管理2知识发现

2.1.4知识发现技术

到目前为止已经出现了许多知识发现技术,分类方法也有很多种,

(1)按被挖掘对象分有基于关系数据库、多媒体数据库;

(2)按挖掘的方法分有数据驱动型、查询驱动型和交互型;(3)按知识类型分有关联规则、特征挖掘、分类、聚类、总结知识、趋势分析、偏差分析、文本采掘。

知识发现技术可分为两类:

基于算法的方法和基于可视化的方法。

大多数基于算法的方法是在人工智能、信息检索、数据库、统计学、模糊集和粗糙集理论等领域中发展来的。

典型的基于算法的知识发现技术包括:

或然性和最大可能性估计的贝叶斯理论、衰退分析、最近邻、决策树、K一方法聚类、关联规则挖掘、Web和搜索引擎、数据仓库和联机分析处理(On—lineAnalyticalProcessing,OLAP)、神经网络、遗传算法、模糊分类和聚类、粗糙分类和规则归纳等。

这些技术都很成熟,并且在相关书籍文章上都有详细介绍。

这里介绍一种基于可视化的方法。

基于可视化方法是在图形学、科学可视化和信息可视化等领域发展起来的,包括:

①几何投射技术。

是指通过使用基本的组成分析、因素分析、多维度缩放比例来发现多维数据集的有趣投影。

②基于图标技术。

是指将每个多维数据项映射为图形、色彩或其他图标来改进对数据和模式的表达。

③面向像素的技术。

其中每个属性只由一个有色像素表示,或者属性取值范围映射为一个固定的彩色图。

④层次技术。

指细分多维空间,并用层次方式给出子空间。

⑤基于图表技术。

是指通过使用查询语言和抽取技术以图表形式有效给出数据集。

⑥混合技术。

是指将上述两种或多种技术合并到一起的技术。

2.1.5知识发现过程的步骤

知识发现过程的多种描述.它们只是在组织和表达方式上有所不同,在内容上并没有非常本质的区别。

知识发现过程包括以下步骤:

第3页共15页

知识发现与管理2知识发现

图2-1知识发现过程图

其中,数据准备阶段包括数据采集、数据抽取、数据预处理和数据变换四个步骤。

数据采集是指从信息媒体中收集相关领域的数据并存储于数据库中;数据抽取是指从数据库中选择符合用户需求的相关数据和相关属性,并将其转换为数据挖掘的组织形式;数据预处理是指消除所选数据的噪音,使数据保持其完整性和一致性;数据变换则是根据知识发现的需求,对数据类型进行转换,并利用数据属性间的关系进行数据简约,以减少有效数据的维数和规模。

数据挖掘作为知识发现中的重要步骤,主要采用机器学习、统计等方法对知识进行学习。

其算法的好坏直接影响到所发现知识的好坏。

结果的评估与解释是将数据挖掘得到的诸多模式知识,按照用户需求进行评估,解释,将其转换成易于人们理解的、符合实际需求的知识,从而提供决策支持。

2.2知识发现的内在机理

目前国际上的研究主要是以知识发现的任务描述、知识评价与知识表示为主线,有效的知识发现算法为中心,这是在相当长的时间内保持的主流与基调然而,数据发掘的局限性,正是源于对知识发现系统内在规律性缺乏研究与认识若将局限于一个封闭的模式中,不可避免地会带来一系列的问题而若把知识发现及其相关的一些进程作为一个宏观的开放的整体来考虑,会在一定程度上解决以上问题另外当前对于主流技术的研究已取得了一定的成果,对算法的研究已不局限于以往的一些传统算法,而涉及到了粗糙集、遗传算法、概念格、小波分析等一些相关的技术方法,这不仅为系统的整体体系结构的构建提供了基础,而且在客观上也要求为系统提供一个理论上的体系框架,将各种相关领域的研究统一起来这些成为在领域里开拓新的研究方向的基本背景。

第4页共15页

知识发现与管理2知识发现

2.2.1双库协同机制

双库协同机制即挖掘数据库与挖掘知识库在KDD进程中的协同机制。

(1)定义

在给定真实数据库和基础知识库的前提下,在数据发掘过程中,具备以下特征的KDD中的运行机制为双库协同机制:

①在真实数据库上,按数据子类结构形式所构成的发掘数据库的可达范畴,与基于属性间关系的发掘知识库的推理范畴之间,构建范畴间的等价关系,2个范畴的等价关系为定向发掘和定向搜索奠定理论基础;②在聚焦过程中,除依据用户需求确定聚焦外,通过启发协调算法可以形成依发掘知识库中知识短缺而生成的机器自身提供的聚焦方向,进而形成在数据库中的定向发掘(算法和进程);③在获得假设规则到知识评价的过程中产生的中断进程,即先不对假设规则进行评价,而是通过中断协调算法到发掘知识库中进行定向搜索,以期发现产生的假设规则与知识库中原有的知识是否重复、冗余和矛盾,并作相应处理,即对知识库进行实时维护。

(2)在双库协同机制的研究中,给出了一系列定义,并演绎出重要的结构对应定理,还提出及实现了启发协调算法与中断协调算法以下给出结构对应定理。

定理(结构对应定理),对于论域X,在相应的知识子库与数据子库中,关于知识结点的拓扑空间

与关于数据子类(结构)的拓扑空间

,是同一泛同伦型的空间。

(3)意义,双库协同机制基本上解决了数据发掘过程中对领域固有的基础知识库的实时维护,同时在一定程度上,解决了认知自主性的问题即利用启发型协调器,实现了计算机自动发现“知识短缺”,系统自身根据知识短缺产生创见意向,形成定向发掘对挖掘出来的知识通过中断型协调器,对知识库进行实时管理与维护。

基于双库协同机制的KDD系统是KDD技术与双库协同机制相融合的一种知识发现的新结构即构建数据库,与基础知识库的内在联系“通道”,从而用基础知识库去制约与驱动KDD的发掘过程,改变KDD固有的运行机制,在结构与功能上形成了相对于而言的KDD一个开放的、优化的扩体同时该机制的提出可以诱导出新的、有效的知识发现的结构模型,并产生具有高效、高扩展性的知识发现算法。

2.2.2双基融合机制

双基融合机制即与在综合基的知识发现系统中的融合机制。

(1)定义

第5页共15页

知识发现与管理2知识发现

双基融合机制是指在基于数据库与基于知识库(综合基上)的知识发现系统中,具有下列内涵的机制,①KDK(KnowledgeDiscoveryinknowledge)过程要依赖于数据库即将在KDK过程中发掘出的新知识随时送人数据库中,以数据库中的数据来验证新知识,②KDD过程要依赖于KDD的发掘过程,即在KDD中发掘出的某些特定的新知识可送人KDD过程中进行验证,看KDD中发现的规则在KDD过程中是否能被发现。

这一过程本质上是确定KDD中发现的新规则在现实中是否有意义。

③KDD依赖于固有知识库,即KDD过程中发现的新知识要实时的、定向的嵌人固有知识库,以验证新知识与原有知识是否冗余、矛盾和重复。

(2)论证了KDD模型与KDD模型各要素间的对应关系,建立KDD与KDD过程的协同对应模型,在双基融合机制下构造了一个基于事实的知识发现算法,得到了有效的验证并用卡尔纳普的归纳逻辑来建立自身的评估体系,从而建立了KDD的整体结构框架这样做使得摆脱了长期以来只能借助人机对话进行评价的窘境,机器自身有了客观的评价标准。

(3)从以上种内涵可以看出,双基融合机制的本质在于在具有综合基的知识发现系统中,构建与的相互制约的内在联系,使它们能够相辅相成,是一种机器智能的较高境界。

2.2.3信息扩张机制

该机制把信息扩散理论的结果经合理修正,有针对性地移植到知识发现系统中,建立双库协同、双基融合的信息开放系统中信息扩张的模型,并研究这个模型的性质和运动机理把信息扩散的计算思维运用到知识发现过程中去,以寻求在知识库与数据库的动态扩张下,知识信度、优化与算法复杂性等变化规律信息扩张机制的研究是多学科交叉的结果,它涉及到认知科学、人工智能、计算机逻辑、理论物理、哲学、突变论、耗散理论、混沌理论、计算机科学、系统科学等多个学科。

上述的3个机制从认知结构与智能结构的角度刻划了知识发现过程中的内在机理,奠定了知识发现的理论基础、优化了知识发现的结构、完善了知识发现的运行机制、完备了知识发现的功能、扩展了知识发现的应用。

2.3知识发现系统框架及其理论体系2.3.1通用型知识发现系统框架

通用型知识发现系统采用KDD*结构模型,主要包括数据准备、数据挖掘、知识管理三大部分,主要功能模块如图1所示。

(1)数据预处理模块

第6页共15页

知识发现与管理2知识发现

通过数据配置功能获取用户数据库信息,可将用户的各类关系型数据库系统的数据进行转化,然后利用数据选取、属性一致、填补空缺等手段进行数据清理。

同时借鉴数据仓库技术的面向主题思想,由用户根据喜好建立不同的主题,并在此主题下选择数据,利用语言场理论,对原始数据进行离散化,形成不同主题的挖掘数据库,供挖掘模块使用。

(2)数据挖掘模块

提供两种挖掘启动形式:

一种为用户自定义挖掘,即根据用户的要求对指定的属性程度词的相关性进行挖掘;另一种形式为利用启发式协调器,实现了我们提出的基于双库协同机制的关联规则挖掘算法———Maradbcm算法(MiningAssociationRulesAlgorithmsBasedonDouble-BasesCo-operatingMechanism),并提供对挖掘结果的综合评价功能成衍生知识库或充实基础知识库。

(3)知识管理模块

为用户提供将本领域已有的知识输入基础知识库,并且将数据挖掘模块存储在衍生知识库和基础知识库中的结果以可视化的形式表示出来。

对于规则采用网格和图形两种表示方式。

对于构成规则的属性程度词,用户可以选择查看挖掘数据库中实际数据在该属性的分布情况,从而对该规则的可靠性有更深刻的认识,为决策提供帮助。

图2-2通用型知识发现系统功能模块图

在具体的挖掘过程中,用户可以循环调用以上模块,直至获得满意的决策信息为止。

第7页共15页

知识发现与管理2知识发现

图2-3通用型知识发现系统的总体结构图

2.3.2知识发现理论体系

根据通用知识发现系统的总体结构可推导出知识发现理论体系,如图2-4所示。

图2-4知识发现理论体系圈

(1)理论基础

①逻辑基础,基本概念包括数据(data):

数据是客观事物的属性(property)、数量、位置等的抽象表示。

信息(information):

信息是数据所表示的含义(或称数据的语义)。

信息是对数据的解释,数据是信息的载体。

知识(knowledge):

知识是以各种方式把一个或多

第8页共15页

知识发现与管理2知识发现

个关联在一起的信息结构。

知识的属性,包括真理性:

对客观事物或客观世界的反映,可判定真伪;相对性:

有适用条件和环境的要求;不完全性(不完备性):

条件不完全或结论不完全;模糊性:

在现实条件下的不精确性;可表示性:

1)符号的逻辑结合——抽象表示;2)图形表示——形象表示;3)物理表示;可存储性(可记忆性),可传递性,可处理性;相容性(无矛盾性):

关于知识的集合的属性,即存在与一体的所有知识之间应该是互相不矛盾的。

按照不同的属性特点,知识有不同的分类方法按含义大体上可分为:

事实,规则,规律,方法理论;按使用范围可分为:

通用知识、专门知识。

事实:

事实是指人类对客观事物的属性的值的描述(客观陈述——Objectivedescription)。

规则:

规则指可以分解为前提(条件)和结论两部分的那种能够表达因果关系的知识。

规律:

规则中如果含有变量,则可将这类规则称为规律,规律比规则具有更广阔的适用范围,反映更深刻的知识。

推理方法:

推理方法是知识的很重要的一部分,通过它可以从已有的知识推出新知识,是获得知识的重要方法。

②方法论基础,(鱼与鱼竿的故事)“方法论”(methodology)指的是处理问题的一般途径和程序。

“方法”(method)指的是具体做法。

用于完成一个既定目标的具体基础、工具或程序。

知识发现研究方法如基于粗糙集理论的BP网络,模糊C-均值算法和最大化分类指标算法等。

③认识论基础,探讨人类认识的本质、结构,认识与客观实在的关系,认识的前提和基础,认识发生、发展的过程及其规律,认识的真理标准等问题的哲学学说。

又称知识论。

因此,知识发现就是要从认识的本质、结构,认识与客观实在的关系中识别有效的、新颖的、有潜在价值的以及最终可理解的模式。

(2)内在认识机理

①双库协同机制,通过建立数据库与知识库间的关系,产生“定向搜索”与“定向挖掘”的机制。

②双基融合机制,挖掘数据库中的知识发现与知识库中的知识发现之间的内在联系的机制。

揭示了基于数据库的知识发现模型与基于知识库的知识发现模型的逻辑等价。

③信息扩张机制,把信息扩散理论的结果经合理修正,有针对性地移植到知识发现系统中,建立双库协同、双基融合的信息开放系统中信息扩张的模型,以寻求在知识库与数据库的动态扩张下,知识信度、优化与算法复杂性等变化规律机制。

揭示了动态挖掘进程中规则参数的演变规律。

④免疫进化机制,借鉴生命科学中免疫的概念与理论,提出了一系列揭示基于免疫机制

第9页共15页

知识发现与管理2知识发现

的进化算法,其目的就是动态挖掘KDD进程中人工免疫与进化演算的协同性。

2.4知识管理中知识发现方法

知识管理作为一种企业战略,其本质就是在恰当的时间以恰当的方式,将恰当的知识传递给恰当的人。

因此知识的产生就是这个战略得以实施的源泉。

1989年8月在美国底特律召开的第11届国际人工智能联合会议的专题讨论会上。

提出了数据库的知识发现(knowledgediscoveryindatabase,KDD)。

FayyadU。

等人于1996年出版专著

旷,明确定义“KDD是从数据集中识别出有效的、新颖的、潜在有用的以及最终可为人们理解的非平凡的知识的过程”。

在知识管理的关键内容中,知识发现是其中的—个重要部分,知识技术

(KnowledgeTechnology,KT),信息技术(InformationTechnology,IT)与人(Person)之间的交互作用,构成了知识管理框架

图2-5知识管理中需要知识技术支持的关键活动

其中个性化表示人与人之间的知识交流与共享;创造/创新表示生产新知识;编码表示获取的数据结构化;发现表示搜索获取知识;捕获/控制表示人机交互任务。

在这个框架中,知识发现是借助信息技术完成的,而信息技术的不断发展和完善,在各种复杂的知识库中得到运用,使知识发现更加智能化和科学化;同时由于知识的特殊性,特别是隐性知识的显性化。

知识库的庞大化,知识类型的多样化等,对知识发现的信息技术也不断提出挑战,促使信息技术不断进步。

任何一种企业发展战略都离不开决策。

知识管理面临的将是更加科学和智能化的决策,决策基于对未来的某种预期,决策的依据是现有的知识库,知识发现就是基于已有的知识库,从中发现潜在的有用的知识。

因此知识发现是决策的基础。

从下面的图中,

第10页共15页

知识发现与管理2知识发现

可以看到知识发现以及与之相关的一些概念的层次结构关系

图2-6识发现及其相关概念描述层级

在这个层次结构中,知识发现在知识管理的下层,通过知识发现,将多种规则和关系提炼出来,为知识管理打下基础,同时知识管理是企业智能系统的下层,实际上企业的知识管理最终目标就是实现企业的智能决策,这种密切的关联关系都依赖于知识发现。

任何一种管理模式都是为生产经营服务的,都是为了企业创造更加丰厚的利润,而管理本身是有成本的,尤其是知识管理,由于知识需要经过处理才能为人们所共享和交流,大量的知识需要结构整理和筛选才能真正为人们所用,已有的公开的知识都是成熟和众所周知的,固守已经拥有的知识不可能获得持久的竞争优势,因此,在实旖知识管理中提高知识的利用率和效率成为一项艰巨的首要任务。

知识发现就是实现这一目标的有效手段,已有的知识可能是庞杂零乱的,通过知识发现可以进行归类整理;大量的知识可能会有重复和相似的,通过知识发现可以进行简化;知识的属性可能涉及各个方面。

通过知识发现可以提炼出属性的重要性次序;现有的知识库是已经发生的过去事件,通过知识发现可以挖掘出潜在的。

隐含在知识库内的有效规则,这些规则具有一定的代表性,是对未来事件的一种预测和估计,有助于人们进行科学决策。

在当今这个知识经济时代,企业的致胜之道在于善于利用知识管理技术。

主要表现在:

(1)知识管理技术推动知识管理应用和发展。

知识管理技术是使知识管理得以具体实现的主要工具,它在知识管理的任何一个环节都发挥着重要作用。

达文波特和布鲁萨克在他们的《营运知识t工商企业的知识管理》一书中指出t“知识管理远不只是一门技术,但‘技术知识’显然是知识管理的—个部分?

?

新技术的出现有助于加速知识管理活动。

由于我们拥有

第11页共15页

知识发现与管理2知识发现

知识并懂得驾驭知识的价值。

所以这些新技术的出现拨旺了知识的火花。

”知识管理离不开知识管理技术。

知识管理的各种功能及服务通常在不同程度上依靠知识管理技术来实现,如查询服务离不开搜索引擎技术、知识生产服务需要内容管理技术。

可以说,没有强大的知识管理技术支持,企业将难以有效地实施知识管理。

(2)人对知识管理技术的驾驭直接影响知识管理的效率。

知识管理实施过程中有相当多的技术问题令人头痛,若能‘啥理碰r把棘手的技术问题抛开,何乐而不为呢?

但问题的原因是使用了错误的。

不适当的技术,而并非技术之过。

事实上技术只是—个组成部分,认为实施知识管理只要将昂贵的软件与硬件恰当的安装起来就可以了,并将技术祝为惟一的解决方案,这种错误的认知使知识管理技术无数次蒙冤。

脱离了技术,知识管理也停滞不前。

只有把知识管理同信息技术所浮现的问题恰当结合,才能使知识管理呈现出潜力。

(3)管理与信息技术的结合,用新的游戏规则迎战知识经济。

知识管理技术推动管理体系发展,管理也对技术的改进形成影响。

现代组织变革的前沿是人、组织和信息技术的集合——知识管理作为一个运动潮流,有必要处于前沿。

对于—个企业而言,要么管好知识,要么走向衰亡。

企业知识管理的出发点应将知识视为企业最重要的战略资源,把最大限度地掌握和利用知识作为提高企业竞争力的关键。

知识管理与信息技术相辅相成,信息技术为企业知识管理提供了保障,知识管理水平的提高又会促进企业对信息技术的应用。

2.5面向服务的语义知识发现

2.5.1语义

(1)概念

数据的含义就是语义(semantic)。

简单的说,数据就是符号。

数据本身没有任何意义,只有被赋予含义的数据才能够被使用,这时候数据就转化为了信息,而数据的含义就是语义。

语义可以简单地看作是数据所对应的现实世界中的事物所代表的概念的含义,以及这些含义之间的关系,是数

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 表格模板 > 合同协议

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1