第七章决策表属性约简Word下载.docx
《第七章决策表属性约简Word下载.docx》由会员分享,可在线阅读,更多相关《第七章决策表属性约简Word下载.docx(25页珍藏版)》请在冰豆网上搜索。
这两个划分形成了条件属性和决策属性在对论域样本分类上的知识。
属性约简的目标就是要从条件属性集合中发现部分必要的条件属性,使得根据这部分条件属性形成的相对于决策属性的分类和所有条件属性所形成的相对于决策属性的分类一致,即和所有条件属性相对于决策属性D有相同的分类能力。
这就是相对约简的概念。
定义7.1-5设U为一个论域,P、Q为定义在U上的两个等价关系簇,Q的P正域记为POSP(Q),定义为:
。
定义7.1-6设U为一个论域,P、Q为定义在U上的两个等价关系簇,若POSP(Q)=POS(P-{r})(Q),则称r为P中相对于Q可省略的(不必要的),简称P中Q可省略的;
否则,称r为P中相对于Q不可省略的(必要的)。
定义7.1-7设U为一个论域,P、Q为定义在U上的两个等价关系簇,若P中的每一r都是P中Q不可省略的,则称P为(相对于)Q独立的。
定义7.1-8设U为一个论域,P、Q为定义在U上的两个等价关系簇,若P的Q独立子集S(SP)有POSs(Q)=POSP(Q),则称S为P的Q约简。
可以记P的所有Q约简关系簇为REDQ(P)。
定义7.1-9设U为一个论域,P、Q为定义在U上的两个等价关系簇,P的所有Q不可省略原始关系簇称为P的Q核,记为COREQ(P)。
定义7.1-10设U为一个论域,P、Q为定义在U上的两个等价关系簇,如果POSP(Q)=U,则称论域U是P上相对于Q一致的。
定理7.1-1设U为一个论域,P、Q为定义在U上的两个等价关系簇,REDQ(P)为P的所有Q约简关系簇,COREQ(P)为P的Q核,则COREQ(P)=REDQ(P)。
下面再给出在可变精度Rough集模型相应的属性集之间依赖、独立,以及约简的定义(定义7.1-11至定义7.1-13)。
定义7.1-11如果
,则称属性a是属性集C中相对于决策属性D是依赖的;
否则称属性a是属性集C中相对于决策属性D是独立的。
定义7.1-12如果存在条件属性集B(BC)的真子集E,使得
,则称B相对于决策属性D是依赖的;
否则,称B相对于决策属性D是独立的。
定义7.1-13决策表条件属性集合C的相对约简C’是条件属性集合C相对于决策属性D的最大的对立子集。
下面通过实例对决策表的约简问题加以说明。
如表7.1-1所示的一个关于气象信息的决策表系统。
表7.1-1关于气象信息的决策表系统
U
条件属性
决策属性(d)
Outlook(a1)
Temperature(a2)
Humidity(a3)
Windy(a4)
1
Sunny
Hot
High
False
N
2
True
3
Overcast
P
4
Rain
Mild
5
Cool
Normal
6
7
8
9
10
11
12
13
14
令Q=决策属性集={d},P=条件属性全集={a1,a2,a3,a4},则
IND(P)={{1},{2},{3},{4},{5},{6},{7},{8},{9},{10},{11},{12},{13},{14}},
IND(Q)={{1,2,6,8,14},{3,4,5,7,9,10,11,12,13}},
POSP(Q)=U,
因此,论域U是P上相对于Q一致的,这说明该决策表是完全确定的决策表,决策表中不包含不一致信息(样本)。
IND(P-{a1})={{1,3},{2},{4,8},{5,9},{6,7},{10},{11},{12,14},{13}},
IND(P-{a2})={{1,8},{2},{3},{4},{5,10},{6},{7},{9},{11},{12},{13},{14}},
IND(P-{a3})={{1},{2},{3,13},{4,10},{5},{6},{7},{8},{9},{11},{12},{14}},
IND(P-{a4})={{1,2},{3},{4,14},{5,6},{7},{8},{9},{10},{11},{12},{13}},
从而,
POS(P-{a1})(Q)={2,5,9,10,11},
POS(P-{a2})(Q)=U=POSP(Q),
POS(P-{a3})(Q)=U=POSP(Q),
POS(P-{a4})(Q)={1,2,3,7,8,9,10,11,12,13},
由此可知,属性a2、a3是相对于决策属性d可省略的,但不一定可以同时省略。
而属性a1和a4是相对于决策属性d不可省略的,
COREQ(P)={a1,a4},
进一步,
IND(P-{a2,a3})={{1,8,9},{2,11},{3,13},{4,5,10},{6,14},{7,12}},
POS(P-{a2,a3})(Q)={3,4,5,6,7,10,12,13,14},
故属性a2是条件属性集P-{a3}相对于决策属性d不可省略的,属性a3是也条件属性集P-{a2}相对于决策属性d不可省略的。
条件属性集{a1,a3,a4}和{a1,a2,a4}为相对于决策属性集Q={d}独立的,
REDQ(P)={{a1,a3,a4},{a1,a2,a4}},
COREQ(P)=REDQ(P)={a1,a3,a4}{a1,a2,a4}={a1,a4}。
去掉表7.1-1中的决策属性列,可以得到一个如表7.1-2所示的信息系统。
令P=属性全集={a1,a2,a3,a4},根据前面的计算可知
IND(P)IND(P-{ai}),i=1,2,3,4。
即,在表7.1-2所示的信息系统中,所有的属性都是绝对必要的,去掉任何属性都会改变系统中的知识。
由此,我们可以看出,要根据决策表中的数据信息分析得到条件属性对决策属性的分类(判定)规则,需要研究条件属性集合相对于决策属性的相对约简。
在智能数据分析研究中,原始的决策表信息系统中的知识(条件属性)并不是同等重要的,甚至其中某些条件属性是冗余的。
冗余属性的存在,一方面是对资源的浪费(需要存储空间和处理时间);
另一方面,也干扰人们作出正确而简洁的决策。
所谓决策表的属性约简,就是要在保持条件属性相对于决策属性的分类能力不变的条件下,删除其中不必要的或不重要的属性。
一般来讲,一个决策表的条件属性对于决策属性的相对约简不是唯一的,即对同一个决策表可能存在多个相对约简。
因为属性约简的目的是导出关于决策表的决策规则,约简中属性的多少直接影响着决策规则的繁简和性能。
因此,人们往往期望找到具有最少条件属性的约简,即最小约简。
然而,SKMWong和WZiarko已经证明了找出一个决策表的最小约简是NP-hard问题。
导致NP-hard问题的主要原因是属性的组合爆炸问题。
表7.1-2关于气象信息的信息表系统
true
7.2决策表属性约简的信息熵表示
我们这里将对Rough集理论中的知识(属性集合,即属性集合对论域的划分)作新的理解,建立知识与信息熵的关系。
设U为一个论域,P、Q为U上的两个等价关系簇(属性集),可以认为U上任一等价关系簇是定义在U上的子集组成的代数上的一个随机变量,其概率分布可通过如下方法来确定。
定义7.2-1设P、Q在U上导出的划分分别为X、Y,
X={X1,X2,,Xn},Y={Y1,Y2,,Ym};
则P、Q在U的子集组成的代数上的概率分布为:
,
其中
;
有了知识的概率分布定义后,根据信息论就可以定义知识的熵与条件熵的概念。
定义7.2-2知识(属性集合)P的熵H(P)定义为
定义7.2-3知识(属性集合)Q(U|IND(Q)={Y1,Y2,,Ym})相对于知识(属性集合)P(U|IND(P)={X1,X2,,Xn})的条件熵H(Q|P)定义为
其中,P(Yj/Xi)=|YjXi|/|Xi|,i=1,2,,n,j=1,2,,m。
定理7.2-1设U是一个论域,P、Q是U上的两个等价关系簇(属性集合)。
若IND(Q)=IND(P),则H(Q)=H(P)。
证明:
因为IND(Q)=IND(P),所以P、Q在U的子集上组成的代数上的概率分布相同,显然H(Q)=H(P)。
注意:
定理7.2-1的逆未必成立。
定理7.2-2设U是一个论域,P、Q是U上的两个等价关系簇(属性集合),且PQ。
若H(Q)=H(P),则IND(Q)=IND(P)。
因为PQ,所以IND(Q)IND(P)。
下面证明IND(P)IND(Q)。
令U/IND(P)={A1,A2,,An},U/IND(Q)={B1,B2,,Bm}。
用反证法,假设IND(P)IND(Q)不成立。
因为IND(Q)IND(P),所以对于任意Bj,j=1,2,,m,都存在一个Ai,i=1,2,,n,使得BjAi。
即U/IND(P)中的任意等价类都是由U/IND(Q)中的一个或者多个等价类合并而成的。
由于IND(P)IND(Q)不成立,则至少存在一个Ai0U/IND(P),是由U/IND(Q)中的多个等价类合并而成的。
显然,存在一种构造方法从U/IND(Q)得到U/IND(P):
每次将U/IND(Q)中的某两个等价类合并为一个等价类,在得到的新的划分上反复进行这样的过程,则在有限步内一定能够得到U/IND(P)。
假定将U/IND(Q)中的任意等价类Bi和Bj(ij,i,j=1,2,,m)合并后得到划分U/IND(Q’),则
H(Q)-H(Q’)
=(|Bi+Bj|/|U|)log(|Bi+Bj|/|U|)-(|Bi|/|U|)log(|Bi|/|U|)-(|Bj|/|U|)log(|Bj|/|U|)
>
(|Bi+Bj|/|U|)log(|Bi+Bj|/|U|)-(|Bi|/|U|)log(|Bi+Bj|/|U|)-
(|Bj|/|U|)log(|Bi+Bj|/|U|)
=log(|Bi+Bj|/|U|)((|Bi+Bj|/|U|)-(|Bi|/|U|)-(|Bj|/|U|))
=0
所以,在通过逐步合并U/IND(Q)中的等价类得到U/IND(P)的过程是信息熵单调递减的过程,从而有H(Q)>
H(P)。
这和已知H(Q)=H(P)相矛盾。
所以假设不成立,应该有IND(P)IND(Q)成立。
综上所述,定理7.2-2成立。
定理7.2-3设U是一个论域,P是U上的一个等价关系簇(属性集合),P中的一个关系R(属性)是绝对不必要的(多余的),其充分必要条件为H({R}|P-{R})=0。
(必要性)设R是P中不必要的,则
IND(P)=IND(P-{R}),
令U/IND(P)=U/IND(P-{R})={A1,A2,,An},
U/IND({R})={B1,B2,,Bm}。
则任意Ai(i=1,2,,n)中的所有记录在属性R上的取值相等,即对于任意Ai(i=1,2,,n),都存在一个Bj(j=1,2,,m)使得AiBj。
所以,
(充分性)设H({R}|P-{R})=0,
令U/IND(P-{R})={A1,A2,,An},U/IND({R})={B1,B2,,Bm}。
则,
对于任意i(i=1,2,,n),有
,且
所以
而如果存在i(i=1,2,,n)、j(j=1,2,,m)使得0<
p(Bj|Ai)<
1,则必将使得
,这就必然导致
这与已知H({R}|P-{R})=0相矛盾,所以对于任意i(i=1,2,,n)、j(j=1,2,,m),都有p(Bj|Ai)=0或p(Bj|Ai)=1。
也就是说U/IND(P-{R})是对U/IND({R})的细分,故有IND(P-{R})=IND(P),即属性R在P中是不必要的。
这个定理说明不必要的知识(属性)不能够对信息系统的分类提供新的信息,反之亦然。
推论7.2-1P中的一个关系R(属性)是绝对必要的充分必要条件为H({R}|P-{R})>
0。
定理7.2-4设U是一个论域,P是U上的一个等价关系簇(属性集合),QP是P的一个约简的充分必要条件为
(1)H(Q)=H(P);
且
(2)对任意的qQ,有H({q}|Q-{q})>
QP是P的一个约简的充分必要条件为
IND(Q)=IND(P)且Q是独立的。
由定理7.2-2可知,IND(Q)=IND(P)成立的充分必要条件为H(Q)=H(P)(因为QP)。
由定理7.2-3可知,Q是独立的成立的充分必要条件为对于任意的qQ,有H({q}|Q-{q})>
故定理7.2-4成立。
由上述定理可知,对于属性约简而言,信息熵表示形式与前一节的代数表示是等价的,我们也可以从信息熵的角度来研究属性约简问题。
上述定理还仅仅是针对一般信息表而言的。
对于决策表这样的特殊信息表,可以有如下定理成立。
定理7.2-5设U是一个论域,P是U的一个条件属性集合,d为决策属性,且论域U是在P上相对于{d}一致的,则P中的一个属性R是P相对于决策属性d不必要的(多余的),其充分必要条件为H({d}|P)=H({d}|P-{R})。
首先令U/IND(P)={X1,X2,,Xn},U/IND({d})={Y1,Y2,,Ym}。
因为论域U是在P上相对于{d}一致的,即POSP({d})=U,所以U/IND(P)是U/IND({d})的细分,
U/IND(P+{d})=U/IND(P)={X1,X2,,Xn},
(必要性)
假设属性R是P相对于决策属性d不必要的,则
POSP-{R}({d})=POSP({d})=U,
所以U/IND(P-{R})是U/IND({d})的细分,
令U/IND(P-{R}+{d})=U/IND(P-{R})={Z1,Z2,,Zk},
故,H({d}|P)=H({d}|P-{R})。
(充分性)
假设POSP-{r}({d})U=POSP({d})。
令U/IND(P-{r})={Z1,Z2,,Zk},则至少存在Zi(ZiU/IND(P-{r}))、Yj1(Yj1U/IND({d}))和Yj2(Yj2U/IND({d})),Yj1Yj2,使得
ZiYj1且ZiYj2,
则有
这与H({d}|P-{r})=H({d}|P)=0相矛盾。
故假设POSP-{r}({d})U不成立。
因此POSP-{r}({d})=U=POSP({d}),根据定义7.1-6知属性r是P相对于决策属性d不必要的。
因此,定理7.2-5成立。
定理7.2-6设U是一个论域,P是U的一个条件属性集合,d为决策属性,且论域U是在P上相对于{d}一致的,则P是相对于决策属性d独立的,其充分必要条件为对于P中任意属性R都有H({d}|P)H({d}|P-{R})成立。
定理7.2-7设U是一个论域,P是U的一个条件属性集合,d为决策属性,且论域U是在P上相对于{d}一致的,则QP是P相对于决策属性d的一个约简的充分必要条件为
(1)H({d}|Q)=H({d}|P);
(2)Q是相对于决策属性d独立的。
定义7.2-4设T=(U,R,V,f)是一个决策表系统,其中R=CD,C是条件属性集合,D={d}是决策属性集合,且AC,则对于任意属性aC-A的重要性SGF(a,A,D)定义为:
SGF(a,A,D)=H(D|A)-H(D|A{a});
若A=,则SGF(a,A,D)=H(D)-H(D|{a}),称为属性a和决策D的互信息,记为I(a,D)。
SGF(a,A,D)的值越大,说明在已知A的条件下,属性a对于决策D就越重要。
属性重要性是Rough集理论中很多运算都要涉及的基本概念,定义4.2-3和定义7.2-4分别给出了Rough集理论中属性重要性概念的代数定义和信息熵定义。
实际上,这两种定义具有互补的特性:
属性重要性的代数定义考虑的是该属性对论域中确定分类子集的影响,而属性重要性的信息熵定义考虑的是该属性对于论域中不确定分类子集的
表7.2-1一个决策表系统
a
b
c
e
d
影响。
如果一个属性的增加,不改变论域中本身已确定分类的实例,且所有本身不能确定分类的实例仍然不能确定分类,只是不确定性有所变化,这样,该属性的重要性在代数定义下为0,而其在信息熵定义下不为0。
例如,表7.2-1所示的决策信息系统,在代数定义下,属性c的重要性SGF(c,{a,b},{d})=2/9-2/9=0;
而在信息熵定义下,
反过来,如果在信息熵定义下,属性的重要性SGF(a,A,D)为0,则该属性的重要性在代数定义下也为0。
定理7.2-8如果H(D|A{a})=H(D|A),则posA{a}(F)=posA(F)。
为了证明这个定理,我们首先来证明如下的引理。
引理7.2-1设论域为U,某个等价关系在U上形成的划分为A1={X1,X2,,Xn},而A2={X1,,Xi-1,Xi+1,,Xj-1,Xj+1,,Xn,XiXj}是将划分A1中的某两个等价块Xi与Xj合并为XiXj得到的新划分。
B={Y1,Y2,,Ym}也是U上的一个划分,且记
则H(B|A2)H(B|A1)。
令|Xi|=x,|Xj|=y,|XiYk|=ax,|XjYk|=by,显然有x>
0,y>
0,0a1,0b1。
则
对于任意k(k=1,,m),有
显然,如果有a=0或b=0,均有fk>
0;
当a=b=0时,有fk=0。
我们在下面的证明过程中仅考虑0<
a1,0<
b1的情况。
令ax=,by=,显然有>
0,>
0,则
令=a/b,显然有>
故,
因此,当=a/b=1时,函数fk取最小值fk|=1=0。
综上可得,只有在对于任意k(k=1,,m)都有|XiYk|/|Xi|=|XjYk|/|Xj|的情况下,H=0,在其他任何情况下均有H>
故引理7.2-1得证。
有了引理7.2-1,我们可以对定理7.2-8作如下证明。
首先,由引理7.2-1我们可知,如果将决策表条件属性的分类进行合并,将导致条件熵的单调上升,只有在发生合并的两个分类对于决策类的隶属度(概率)均相等的情况下,才可能不导致条件熵的变化。
其次,划分U|IND(A)是可以通过将划分U|IND(A{a})中的部分等价块合并得到的,根据上面的引理7.2-1可知,如果H(D|A{a})=H(D|A),则所有被合并在一起的等价块对于决策类的隶属度(概率)均相等。
因此,在合并后,每个条件属性分类中的等价块对于各个决策属性分类的隶属度不会发生变化。
因