?
?
?
?
>等价,“Air-Temp=Warm”与G中的
Warm,?
?
?
?
>等价。
学习到的决策树是用变型空间算法得到的变型空间是一种包含关系,前者是后者的子集或者说是后者的一个元素,
(2)在此例子中决策树等价于变型空间的一个成员,但是一般情况的决策树并不一定等价于变型空间中的一个成员,因为决策树的判别有顺序,而假设空间中的元素的各个性质没有顺序
(c)
Gain(S,Sky)=0.3219
Gain(S,AirTemp)=0.3219
Gain(S,Humidity)=0.0200
Gain(S,Wind)=0.3219
Gain(S,Water)=0.1710
Gain(S,Forecast)=0.0200
显然第一个属性应该选择SkyAirTempWind
若第一个属性为Sky则:
Gain(Ssunny,AirTemp)=0
Gain(Ssunny,Humidity)=0.3113
Gain(Ssunny,Wind)=0.8113(最大)
Gain(Ssunny,Water)=0.1226
Gain(Ssunny,Forecast)=0.1226
若第一个属性为AirTemp则:
Gain(Swarm,Sky)=0
Gain(Swarm,Humidity)=0.3113
Gain(Swarm,Wind)=0.8113(最大)
Gain(Swarm,Water)=0.1226
Gain(Swarm,Forecast)=0.1226
若第一个属性为Wind则:
Gain(Sstrony,Sky)=0.8113(最大)
Gain(Sstrony,AirTemp)=0.8113(最大)
Gain(Sstrony,Humidity)=0.1226
Gain(Sstrony,Water)=0.1226
Gain(Sstrony,Forecast)=0.3113
Entropy(S)=-(3/5)log(3/5)(2/5)log(2/5)=0.9710
所有六个属性的信息增益为:
Gain(S,Sky)=Entropy(S)-4/5*((1/4)log(1/4)(3/4)log(3/4))1/5*log1
=0.9710—0.6490=0.3220
Gain(S,Air-Temp)=Entropy(S)-4/5*((1/4)log(1/4)(3/4)log(3/4))1/5*log1
=0.9710—0.6490=0.3220
Gain(S,Humidity)=Entropy(S)-2/5*(1/2*log(1/2)*2)3/5*(2/3*log(2/3)13*log(1/3))
=0.9710—0.9510=0.0200
Gain(S,Wind)=Entropy(S)-4/5*(1/4*log(1/4)3/4*log(3/4))1/5*log1
=0.9710—0.6490=0.3220
Gain(S,Warm)=Entropy(S)-4/5*(2/4*log(2/4)2/4*log(2/4))1/5*log1
=0.9710—0.8000=0.1710
Gain(S,Forecast)=Entropy(S)-2/5*(1/2*log(1/2)*2)3/5*(2/3*log(2/3)1/3*log(1/3))
=0.9710—0.9510=0.0200
选择Sky,Air-Temp,Wind中的任何一个作为根节点的决策属性即可,这里选择Sky作为根节点的决策属性,建立决策树如下:
计算下一步的信息增益如下:
Entropy(Sunny)=-(1/4)log(1/4)(3/4)log(3/4)=0.8113
Gain(Sunny,Air-Temp)=Entropy(Sunny)-(1/4*log(1/4)3/4*log(3/4))=0
Gain(Sunny,Humidity)=Entropy(S)-2/4*(1/2*log(1/2)*2)2/4*log1
=0.8113—0.5000=0.3113
Gain(Sunny,Wind)=Entropy(S)-3/4*log1-1/4*log1=0.8113
Gain(Sunny,Water)=Entropy(S)-3/4*(1/3*log(1/3)2/3*log(3))1/4*log1
=0.8113—0.6887=0.1226
Gain(Sunny,Forecast)=Entropy(S)-3/4*(1/3*log(1/3)2/3*log(3))1/4*log1
=0.8113—0.6887=0.1226
由于Gain(Sunny,Wind)最大,选择Wind做为新的叶子节点,建立决策树如下:
至此,已用完所有的训练样例,决策树建立完毕。
(d)经过表2-1的第一个训练样例后的S和G如下:
S1:
G1:
?
表示对所有例子都接受为正例
当遇到第二个训练样例:
,EnjoySport=Yes
S2:
G2:
?
表示对所有例子都接受为正例
在把候选消除算法应用到决策树假设空间时,预计会遇到如下四种困难:
(1)在把候选消除算法应用到决策树假设空间时,如果目标函数不在假设空间时,侯选消除算法得到的变型空间是空的,或者当遇到含有噪声的数据时,候选消除算法也可能出现空集合,而如果用ID3建立决策树则不会出现这种情况。
(2)如果一个属性的值比较多,一棵决策树将会很宽,
(3)如何精化S中的树而不比G中的树更加一般化是一个困难,反之,如何精化G中的树而不比S中的树更加特殊化也是一个困难,另外,要由S和G求出中间的合理决策树是十分困难的。
其原因都是因为不同形状的决策树可以等价。
如果在修改时不进行标准化,那么在构造时就会出现麻烦。
(4)可能要建立候选决策树的重复信息很多,在选择一棵好的决策树时,计算量会很大,