ImageVerifierCode 换一换
格式:DOCX , 页数:25 ,大小:210.08KB ,
资源ID:7747542      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/7747542.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(第七章决策表属性约简.docx)为本站会员(b****6)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

第七章决策表属性约简.docx

1、第七章 决策表属性约简第七章 信息表属性约简基于Rough集理论的知识获取,主要是通过对原始决策表的约简,在保持决策表决策属性和条件属性之间的依赖关系不发生变化的前提下对决策表进行约简(简化),包括属性约简和值约简。本章将对决策表的属性约简从代数集合观点和信息论的信息熵观点进行系统分析,并介绍几种有效的属性约简算法。7.1决策表属性约简概述一个决策表就是一个决策信息系统,表中包含了大量领域样本(实例)的信息。在第四章中,我们曾经对决策规则进行了讨论,决策表中的一个样本就代表一条基本决策规则,如果我们把所有这样的决策规则罗列出来,就可以得到一个决策规则集合,但是,这样的决策规则集合是没有什么用处

2、的,因为其中的基本决策规则没有适应性,只是机械地记录了一个样本的情况,不能适应新的、其他的情况。为了从决策表中抽取得到适应度大的规则,我们需要对决策表进行约简,使得经过约简处理的决策表中的一个记录就代表一类具有相同规律特性的样本,这样得到的决策规则就具有较高的适应性。根据定义2.1-1,我们可以进一步讨论决策表中属性的必要性和相应的约简算法。定义7.1-1 设U是一个论域,P是定义在U上的一个等价关系簇,RP。如果IND(P-R)=IND(P),则称关系R在P中是绝对不必要的(多余的);否则,称R在P中是绝对必要的。绝对不必要的关系在知识库中是多余的,如果将它们从知识库中去掉,不会改变该知识库

3、的分类能力。相反,若知识库中去掉一个绝对必要的关系,则一定改变知识库的分类能力。定义7.1-2 设U为一个论域,P为定义在U上的一个等价关系簇,RP。如果每个关系RP在P中都是绝对必要的,则称关系簇P是独立的;否则,称P是相互依赖的。对于相互依赖的关系簇来说,其中包含有冗余关系,可以对其约简;而对于独立的关系簇,去掉其中任何一个关系都将破坏知识库的分类能力。定义7.1-3 设U为一个论域,P为定义在U上的一个等价关系簇,P中所有绝对必要关系组成的集合,称为关系簇P的绝对核,记作CORE(P)。定义7.1-4 设U为一个论域,P、Q为定义在U上的两个等价关系簇,且QP。如果 (1) IND(Q)

4、=IND(P); (2) Q是独立的;则称Q是P的一个绝对约简。如果知识Q是知识P的绝对约简,那么,U中通过知识P可区分的对象,同样可以用知识Q来区分。在讨论决策表信息系统约简的时候,一个条件属性A就对应着一个等价关系(也称不分明关系或不可分辨关系),即在条件属性A上取值的相等关系,它对论域U形成一个划分U/A。决策表的所有条件属性形成条件属性集合(P)对论域U的划分U/P,同时,决策属性集D=d也对论域形成一个划分U/D。这两个划分形成了条件属性和决策属性在对论域样本分类上的知识。属性约简的目标就是要从条件属性集合中发现部分必要的条件属性,使得根据这部分条件属性形成的相对于决策属性的分类和所

5、有条件属性所形成的相对于决策属性的分类一致,即和所有条件属性相对于决策属性D有相同的分类能力。这就是相对约简的概念。定义7.1-5 设U为一个论域,P、Q为定义在U上的两个等价关系簇,Q的P正域记为POSP(Q),定义为:。定义7.1-6 设U为一个论域,P、Q为定义在U上的两个等价关系簇,若POSP(Q)=POS(P-r)(Q),则称r为P中相对于Q可省略的(不必要的),简称P中Q可省略的;否则,称r为P中相对于Q不可省略的(必要的)。定义7.1-7 设U为一个论域,P、Q为定义在U上的两个等价关系簇,若P中的每一r都是P中Q不可省略的,则称P为(相对于)Q独立的。定义7.1-8 设U为一个

6、论域,P、Q为定义在U上的两个等价关系簇,若P的Q独立子集S(SP)有POSs(Q)=POSP(Q),则称S为P的Q约简。可以记P的所有Q约简关系簇为REDQ(P)。定义7.1-9 设U为一个论域,P、Q为定义在U上的两个等价关系簇,P的所有Q不可省略原始关系簇称为P的Q核,记为COREQ(P)。定义7.1-10 设U为一个论域,P、Q为定义在U上的两个等价关系簇,如果POSP(Q)=U,则称论域U是P上相对于Q一致的。定理7.1-1 设U为一个论域,P、Q为定义在U上的两个等价关系簇,REDQ(P)为P的所有Q约简关系簇,COREQ(P)为P的Q核,则COREQ(P)=REDQ(P)。下面再

7、给出在可变精度Rough集模型相应的属性集之间依赖、独立,以及约简的定义(定义7.1-11至定义7.1-13)。定义7.1-11 如果,则称属性a是属性集C中相对于决策属性D是依赖的;否则称属性a是属性集C中相对于决策属性D是独立的。定义7.1-12 如果存在条件属性集B(BC)的真子集E,使得,则称B相对于决策属性D是依赖的;否则,称B相对于决策属性D是独立的。定义7.1-13 决策表条件属性集合C的相对约简C是条件属性集合C相对于决策属性D的最大的对立子集。下面通过实例对决策表的约简问题加以说明。如表7.1-1所示的一个关于气象信息的决策表系统。表7.1-1 关于气象信息的决策表系统U条件

8、属性决策属性(d)Outlook(a1)Temperature(a2)Humidity(a3)Windy(a4)1SunnyHotHighFalseN2SunnyHotHighTrueN3OvercastHotHighFalseP4RainMildHighFalseP5RainCoolNormalFalseP6RainCoolNormalTrueN7OvercastCoolNormalTrueP8SunnyMildHighFalseN9SunnyCoolNormalFalseP10RainMildNormalFalseP11SunnyMildNormalTrueP12OvercastMildH

9、ighTrueP13OvercastHotNormalFalseP14RainMildHighTrueN令Q=决策属性集=d,P=条件属性全集=a1,a2,a3,a4,则IND(P)=1,2,3,4,5,6,7,8,9,10,11,12,13,14,IND(Q)=1,2,6,8,14,3,4,5,7,9,10,11,12,13,POSP(Q)=U,因此,论域U是P上相对于Q一致的,这说明该决策表是完全确定的决策表,决策表中不包含不一致信息(样本)。IND(P-a1)=1,3,2,4,8,5,9,6,7,10,11,12,14, 13,IND(P-a2)=1,8,2,3,4,5,10,6,7,9

10、,11,12,13, 14,IND(P-a3)=1,2,3,13,4,10,5,6,7,8,9,11,12, 14,IND(P-a4)=1,2,3,4,14,5,6,7,8,9,10,11,12, 13,从而,POS(P-a1)(Q)=2,5,9,10,11,POS(P-a2)(Q)=U=POSP(Q),POS(P-a3)(Q)=U=POSP(Q),POS(P-a4)(Q)=1,2,3,7,8,9,10,11,12,13,由此可知,属性a2、a3是相对于决策属性d可省略的,但不一定可以同时省略。而属性a1和a4是相对于决策属性d不可省略的,COREQ(P)=a1, a4,进一步,IND(P-

11、a2, a3)=1,8,9,2,11,3,13,4,5,10,6,14,7,12,POS(P-a2,a3)(Q)=3,4,5,6,7,10,12,13,14,故属性a2是条件属性集P-a3相对于决策属性d不可省略的,属性a3是也条件属性集P-a2相对于决策属性d不可省略的。条件属性集a1,a3,a4和a1,a2,a4为相对于决策属性集Q=d独立的,REDQ(P)=a1,a3,a4,a1,a2,a4,COREQ(P)=REDQ(P)=a1,a3,a4a1,a2,a4=a1,a4。去掉表7.1-1中的决策属性列,可以得到一个如表7.1-2所示的信息系统。令P=属性全集=a1,a2,a3,a4,根据

12、前面的计算可知IND(P)IND(P-ai), i=1,2,3,4。即,在表7.1-2所示的信息系统中,所有的属性都是绝对必要的,去掉任何属性都会改变系统中的知识。由此,我们可以看出,要根据决策表中的数据信息分析得到条件属性对决策属性的分类(判定)规则,需要研究条件属性集合相对于决策属性的相对约简。在智能数据分析研究中,原始的决策表信息系统中的知识(条件属性)并不是同等重要的,甚至其中某些条件属性是冗余的。冗余属性的存在,一方面是对资源的浪费(需要存储空间和处理时间);另一方面,也干扰人们作出正确而简洁的决策。所谓决策表的属性约简,就是要在保持条件属性相对于决策属性的分类能力不变的条件下,删除

13、其中不必要的或不重要的属性。一般来讲,一个决策表的条件属性对于决策属性的相对约简不是唯一的,即对同一个决策表可能存在多个相对约简。因为属性约简的目的是导出关于决策表的决策规则,约简中属性的多少直接影响着决策规则的繁简和性能。因此,人们往往期望找到具有最少条件属性的约简,即最小约简。然而,S K M Wong和W Ziarko已经证明了找出一个决策表的最小约简是NP-hard问题。导致NP-hard问题的主要原因是属性的组合爆炸问题。表7.1-2 关于气象信息的信息表系统UOutlook(a1)Temperature(a2)Humidity(a3)Windy(a4)1SunnyHotHighFa

14、lse2SunnyHotHighTrue3OvercastHotHighFalse4RainMildHighFalse5RainCoolNormalFalse6RainCoolNormalTrue7OvercastCoolNormalTrue8SunnyMildHighFalse9SunnyCoolNormalFalse10RainMildNormalFalse11SunnyMildNormalTrue12OvercastMildHighTrue13OvercastHotNormalFalse14RainMildHightrue7.2 决策表属性约简的信息熵表示我们这里将对Rough集理论中的

15、知识(属性集合,即属性集合对论域的划分)作新的理解,建立知识与信息熵的关系。设U为一个论域,P、Q为U上的两个等价关系簇(属性集),可以认为U上任一等价关系簇是定义在U上的子集组成的代数上的一个随机变量,其概率分布可通过如下方法来确定。定义7.2-1 设P、Q在U上导出的划分分别为X、Y,X=X1,X2,Xn,Y=Y1,Y2, ,Ym;则P、Q在U的子集组成的代数上的概率分布为: , ,其中;。有了知识的概率分布定义后,根据信息论就可以定义知识的熵与条件熵的概念。定义7.2-2 知识(属性集合)P的熵H(P)定义为。定义7.2-3 知识(属性集合)Q (U|IND(Q)=Y1,Y2,Ym)相对

16、于知识(属性集合)P (U|IND(P)=X1,X2,Xn)的条件熵H(Q|P)定义为。其中,P(Yj/Xi)=|YjXi|/|Xi|,i=1,2,n,j=1,2,m。定理7.2-1 设U是一个论域,P、Q是U上的两个等价关系簇(属性集合)。若IND(Q)=IND(P),则H(Q)=H(P)。证明:因为IND(Q)=IND(P),所以P、Q在U的子集上组成的代数上的概率分布相同,显然H(Q)=H(P)。注意:定理7.2-1的逆未必成立。定理7.2-2 设U是一个论域,P、Q是U上的两个等价关系簇(属性集合),且PQ。若H(Q)=H(P),则IND(Q)=IND(P)。证明:因为PQ,所以IND

17、(Q)IND(P)。 下面证明IND(P)IND(Q)。令U/IND(P)=A1,A2,An,U/IND(Q)=B1,B2,Bm。用反证法,假设IND(P)IND(Q)不成立。因为IND(Q)IND(P),所以对于任意Bj,j=1,2,m,都存在一个Ai,i=1,2,n,使得BjAi。即U/IND(P)中的任意等价类都是由U/IND(Q)中的一个或者多个等价类合并而成的。由于IND(P)IND(Q)不成立,则至少存在一个Ai0U/IND(P),是由U/IND(Q)中的多个等价类合并而成的。显然,存在一种构造方法从U/IND(Q)得到U/IND(P):每次将U/IND(Q)中的某两个等价类合并为

18、一个等价类,在得到的新的划分上反复进行这样的过程,则在有限步内一定能够得到U/IND(P)。假定将U/IND(Q)中的任意等价类Bi和Bj(ij,i,j=1,2,m)合并后得到划分U/IND(Q),则H(Q)-H(Q)=(|Bi+Bj|/|U|)log(|Bi+Bj|/|U|)-(|Bi|/|U|)log(|Bi|/|U|)-(|Bj|/|U|)log(|Bj|/|U|)(|Bi+Bj|/|U|)log(|Bi+Bj|/|U|)-(|Bi|/|U|)log(|Bi+Bj|/|U|)- (|Bj|/|U|)log(|Bi+Bj|/|U|)=log(|Bi+Bj|/|U|)(|Bi+Bj|/|U|

19、)-(|Bi|/|U|)-(|Bj|/|U|)=0所以,在通过逐步合并U/IND(Q)中的等价类得到U/IND(P)的过程是信息熵单调递减的过程,从而有H(Q)H(P)。这和已知H(Q)=H(P)相矛盾。所以假设不成立,应该有IND(P)IND(Q)成立。综上所述,定理7.2-2成立。定理7.2-3 设U是一个论域,P是U上的一个等价关系簇(属性集合),P中的一个关系R(属性)是绝对不必要的(多余的),其充分必要条件为H(R|P-R)=0。证明:(必要性)设R是P中不必要的,则IND(P)=IND(P-R),令 U/IND(P)=U/IND(P-R)=A1,A2,An,U/IND(R)=B1,

20、B2,Bm。则任意Ai(i=1,2,n)中的所有记录在属性R上的取值相等,即对于任意Ai(i=1,2,n),都存在一个Bj(j=1,2,m)使得AiBj。所以,。(充分性)设H(R|P-R)=0,令 U/IND(P-R)=A1,A2,An,U/IND(R)=B1,B2,Bm。则,对于任意i(i=1,2,n),有,且所以,而如果存在i(i=1,2,n)、j(j=1,2,m)使得0p(Bj|Ai)0。定理7.2-4 设U是一个论域,P是U上的一个等价关系簇(属性集合),QP是P的一个约简的充分必要条件为(1) H(Q)=H(P);且(2) 对任意的qQ,有H(q|Q-q)0。证明:QP是P的一个约

21、简的充分必要条件为IND(Q)=IND(P)且Q是独立的。由定理7.2-2可知,IND(Q)=IND(P)成立的充分必要条件为H(Q)=H(P)(因为QP)。由定理7.2-3可知,Q是独立的成立的充分必要条件为对于任意的qQ,有H(q|Q-q)0。故定理7.2-4成立。由上述定理可知,对于属性约简而言,信息熵表示形式与前一节的代数表示是等价的,我们也可以从信息熵的角度来研究属性约简问题。上述定理还仅仅是针对一般信息表而言的。对于决策表这样的特殊信息表,可以有如下定理成立。定理7.2-5 设U是一个论域,P是U的一个条件属性集合,d为决策属性,且论域U是在P上相对于d一致的,则P中的一个属性R是

22、P相对于决策属性d不必要的(多余的),其充分必要条件为H(d|P)=H(d|P-R)。证明:首先令U/IND(P)=X1,X2,Xn,U/IND(d)=Y1,Y2, ,Ym。因为论域U是在P上相对于d一致的,即POSP(d)=U,所以U/IND(P)是U/IND(d)的细分,U/IND(P+d)=U/IND(P)=X1,X2,Xn,。(必要性)假设属性R是P相对于决策属性d不必要的,则POSP-R(d)=POSP(d)=U,所以U/IND(P-R)是U/IND(d)的细分,令U/IND(P-R+d)=U/IND(P-R)=Z1,Z2,Zk,故,H(d|P)=H(d|P-R)。(充分性)假设PO

23、SP-r(d)U=POSP(d)。令U/IND(P-r)=Z1,Z2,Zk,则至少存在Zi(ZiU/IND(P-r)、Yj1(Yj1U/IND(d)和Yj2(Yj2U/IND(d),Yj1Yj2,使得ZiYj1且ZiYj2,则有,这与H(d|P-r)=H(d|P)=0相矛盾。故假设POSP-r(d)U不成立。因此POSP-r(d)=U=POSP(d),根据定义7.1-6知属性r是P相对于决策属性d不必要的。因此,定理7.2-5成立。定理7.2-6 设U是一个论域,P是U的一个条件属性集合,d为决策属性,且论域U是在P上相对于d一致的,则P是相对于决策属性d独立的,其充分必要条件为对于P中任意属

24、性R都有H(d|P)H(d|P-R)成立。定理7.2-7 设U是一个论域,P是U的一个条件属性集合,d为决策属性,且论域U是在P上相对于d一致的,则QP是P相对于决策属性d的一个约简的充分必要条件为(1) H(d|Q)=H(d|P);且(2) Q是相对于决策属性d独立的。定义7.2-4 设T=(U,R,V,f)是一个决策表系统,其中R=CD,C是条件属性集合,D=d是决策属性集合,且AC,则对于任意属性aC-A的重要性SGF(a,A,D)定义为:SGF(a,A,D)=H(D|A)-H(D|Aa);若A=,则SGF(a,A,D)=H(D)-H(D|a),称为属性a和决策D的互信息,记为I(a,D

25、)。SGF(a,A,D)的值越大,说明在已知A的条件下,属性a对于决策D就越重要。属性重要性是Rough集理论中很多运算都要涉及的基本概念,定义4.2-3和定义7.2-4分别给出了Rough集理论中属性重要性概念的代数定义和信息熵定义。实际上,这两种定义具有互补的特性:属性重要性的代数定义考虑的是该属性对论域中确定分类子集的影响,而属性重要性的信息熵定义考虑的是该属性对于论域中不确定分类子集的表7.2-1 一个决策表系统Uabced110110201011300000400011500011600011700111800100900111影响。如果一个属性的增加,不改变论域中本身已确定分类的实

26、例,且所有本身不能确定分类的实例仍然不能确定分类,只是不确定性有所变化,这样,该属性的重要性在代数定义下为0,而其在信息熵定义下不为0。例如,表7.2-1所示的决策信息系统,在代数定义下,属性c的重要性SGF(c,a,b,d)=2/9-2/9=0;而在信息熵定义下,反过来,如果在信息熵定义下,属性的重要性SGF(a,A,D)为0,则该属性的重要性在代数定义下也为0。定理7.2-8 如果H(D|Aa)=H(D|A),则posAa(F)=posA(F)。为了证明这个定理,我们首先来证明如下的引理。引理7.2-1 设论域为U,某个等价关系在U上形成的划分为A1=X1,X2,Xn,而A2=X1,Xi-

27、1, Xi+1,Xj-1,Xj+1,Xn,XiXj是将划分A1中的某两个等价块Xi与Xj合并为XiXj得到的新划分。B=Y1,Y2,Ym也是U上的一个划分,且记,则H(B|A2)H(B|A1)。证明:令|Xi|=x,|Xj|=y,|XiYk|=ax,|XjYk|=by,显然有x0,y0,0a1,0b1。则对于任意k(k=1,m),有显然,如果有a=0或b=0,均有fk0;当a=b=0时,有fk=0。我们在下面的证明过程中仅考虑0a1,00,0,则令=a/b,显然有0,则所以,故,因此,当=a/b=1时,函数fk取最小值fk|=1=0。综上可得,只有在对于任意k(k=1,m)都有|XiYk|/|

28、Xi|=|XjYk|/|Xj|的情况下,H=0,在其他任何情况下均有H0。故引理7.2-1得证。有了引理7.2-1,我们可以对定理7.2-8作如下证明。首先,由引理7.2-1我们可知,如果将决策表条件属性的分类进行合并,将导致条件熵的单调上升,只有在发生合并的两个分类对于决策类的隶属度(概率)均相等的情况下,才可能不导致条件熵的变化。其次,划分U|IND(A)是可以通过将划分U|IND(Aa)中的部分等价块合并得到的,根据上面的引理7.2-1可知,如果H(D|Aa)=H(D|A),则所有被合并在一起的等价块对于决策类的隶属度(概率)均相等。因此,在合并后,每个条件属性分类中的等价块对于各个决策属性分类的隶属度不会发生变化。因

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1