精品决策树文献翻译节选.docx
《精品决策树文献翻译节选.docx》由会员分享,可在线阅读,更多相关《精品决策树文献翻译节选.docx(21页珍藏版)》请在冰豆网上搜索。
精品决策树文献翻译节选
决策树(文献翻译-节选)
本科毕业设计(论文)
外文参考文献译文及原文
学院管理学院
专业信息管理与信息系统
年级班别2008级(6)班
学号3108006406
学生姓名张钟权
指导教师胡凤
2012年5月
(一)
(一)外文文献译文
4决策树
4.1介绍
统计决策广泛应用于实验地球科学,它在环境科学中扮演着更重要的角色,由于环境系统随时间不断改变,需要根据观测系统和可能情况不断地矫正行动(采取不同的行动策略)。
一组可能的矫正措施通常在一个决策环境中,称为决策集。
一些物理属性(或变量)的观测值是潜在有用的,这也是可采取的矫正措施的一种情况。
在系统中根据新的情况不断地矫正措施,目的是为了减少损失,或成本或为了最大利益。
考虑到成本是一个负收益,对一个给定的决策问题,科学家和企业人员看法了一个综合单一标准——成本最小。
一个好的决策应该满足:
一、综合成本最小,二、最优决策。
获取和收集物理变量值的过程也被称为特征提取(特征变量)、变量测定,这些变量有时候也被称为特征、特征变量、测量。
这些特征变量中的一些变量可能会对决策有影响,确定这些变量是一个挑战。
它们可能是成本、风险或者是在收集这项变量过程中的其他损失。
在另外一些情况下,获得测量结果的时间延迟也可能增加决策成本。
这可能要承受某些损失,这是因为由于测量过程的时间延迟,一个矫正措施并不能被较早的执行,这些损失应当被计入综合成本中。
因此,决策的过程中可能还包括决定是否收集某些测量。
在一个决策系统中,所有变量的数学空间以及它们的成本是可以设想的(计算得到的)。
与每一个综合变量值有关,做出一个决定的总括成本,包括每一个测量成本,是也是可以设想(得到)的。
接着,对没一个特征测量的组合的最优决策也是可以设想(得到)的。
这样的一个表示所有复杂变量之间相互关系的数学变量被称为“模型”。
特征变量、成本、以及参数的测量被整合到一个单一的成本标准中。
用来表示相互关系的其他数学数量和函数体现了模型的相关信息。
不幸的是用精确地数学空间表示决策成本和最优决策图仅仅是一个设想、一个理想。
通常情况下,恰恰是不确定性的数学量化相互关系才是我们所需要的。
可能一些关系是确定性的,另外一些确实统计的。
用先验的知识去精确量化统计关系本身可能是有限的(有问题的)。
最后,即便是我们可以得到一个设想中的完美的表征相互关系的数学空间,它们的表示和计算最优决策可能需要令人可怕的数量的计算机内存和计算能力。
人工智能建模和决策方法在很多情况下式有用的。
它们在降低表示复杂度方面很有用。
在某些情况下,它们通过决策过程动态的表示模型,而不是试图建立一个巨大的可能无法管理的静态的表示。
它们对不确定关系的近似表示也很有用。
总之,人工智能在降低计算(这些计算在计算最优决策时必需的)复杂度方面很有用。
人工智能通过启发式方法能够得到几乎是最优的决策。
决策树是一种人工智能方法,也是本章的主题。
根据一个模型开展工作目的是帮助我们决策。
根据排位赛模型,区分不同的形容词像精确的(exact)、精准的(precise)、完整的(complete)和统计的(statistical),使它们有序。
一个完整的模型解释了所有可能的相互关系。
一个精确地模型(precise)明确的描述了相互关系,没有含糊之处。
例如,语句“由于人的呼吸道敏感性,对人类而言,高臭氧水平的环境会导致相当大的不舒服”指定了一个关系。
但它不是数学的精确描述,它使用了主观性的词语“高”和“相当的”。
一个说明书可以说是精准的(precise),但这只是大约而不是精确(exact)。
有些关系是统计的而不是确定的。
完整的、精准的(precise)统计关系和正确的说明在下面的情况下与精确定义的确定的关系具有非常相似的意义。
在统计关系的情况下,根据决策总体成本的统计平均值或期望值最小化,来获得最佳决策,而不是根据减少精确的整体成本。
显然地,根据上面论述,在环境科学应用中,一个完整的精确的模型通常是不能构建的。
即使我们愿意接受相似的但完整指定的模型,我们也可能不能及时得到。
如果观测值的获取和决策是在有限资源的情况下做出的,时间也是一种资源,那么模型可能是部分指定或者参数不是非常的精确。
气象就是这样的应用。
气象现象是观察天气的事件。
温度、压力、水蒸气等都是影响因素。
这些物理量之间相互作用。
这些物理量在三维空间和时间的四维空间上也是物理属性,它们对气象时间的发生有重要影响。
此外,上述物理属性在预测未来一段时间内的气象时间非常有用。
虽然预测的准确性有了极大提高,但总有进一步提高的空间。
一系列物理属性及其组合的测定对正确认识(预测)各种重要事件是极其有用的。
事实上,各种转换变量和转换组合的数量几乎是没有限制的,这一点可能会潜在地增加分类结果的准确性。
而且,不同属性(和属性的组合)的不同转换也可能是必须的。
因此,关于这一点的研究有很多(开放式的)。
本章研究了一类分类(决策)算法。
这些方法给予统计的不完整的逻辑相互关系构造模型。
总的目的是发展和引导决策算法,即决策树。
根据上面提到的理论,这种方法适用于很多实验地球科学领域。
本章中的最后算法也被称为多级分类和多层分类。
4.2决策和模式分类
4.2.1统计模式分类
在统计模式分类最简单形式中,模式分类(Dudaetal2001)规定,一个给定的数据向量X被分配到几个已知的类别ω1,…,ωk中。
数据向量X由m个测量结果组成:
X=[x
(1),x
(2),…,x(m)](4.1)
如前所述,每个测量都是一个特征,它的值与数据向量X一致,都受模式类的影响。
一个特征可能是重要的,或者序数的(其重要性通过在一个重要性序列体现),或者无价值的(少价值的)。
一个具有重要价值的变量,用一段连续的实线表征其价值。
一个具有序列的价值的变量,通过一个有序的数列,比如整数,体现其价值。
一个没有价值或者具有很少价值的变量,用一个没有自然序列的有限序列表示其价值。
一个无价值的例子就是某种现象的出现或者不出现,像材料样品中出现特别的污染物(这种现象几乎不可能出现)。
在很多已经设计完成的分类应用中,我们知道类的先验概率Pi,分别对应类ωi,我们也知道类的条件概率密度函数P(x|ωi),对应每一个类ωi和观察空间中所有的向量点{X}。
我们根据最大化后验概率来分类观察数据。
也就是说,如果求得的后验概率是ωi(ωi的后验概率最大),就把观察到的数据向量X划分到类ωi.
P[ωi|x]≥P[ωj|x],对于每一个j∈(1,2,…,k)(4.2)
根据概率论中的贝叶斯定理,一个类的后验概率可以表示为一个函数。
这个函数由该类的先验概率函数和条件密度函数组成,如下所示:
,j∈(1,2,…,k)(4.3)
上式等号右侧的分母与j无关。
因此,公式(4.2)的决定性因素简化为公式(4.3)的等号右侧分子的最大化,分子与所有的j有关。
也就是说,如果满足下面的条件,数据向量X就属于类ωi:
P(x|ωi)
≥P(x|ωj)
,j∈(1,2,…,k)(4.4)
上述方法的决策取决于统计地表达所有数据变化情况的能力,包括含有所有测量数据的多维数据空间。
4.2.2使用逻辑相互关系
纯粹统计方法构建数据模型进行决策是一种极端的方法,另一个极端是纯粹的逻辑相互关系。
这种逻辑的相互关系可以通过不同类型的数据分析构建,而不是纯粹的统计模型。
这些相互关系可能是完全确定的,也可能是近似确定的。
在实践中,逻辑相互关系和数据统计分析常常被综合使用。
如果逻辑相互关系能够保证在每次决策的实例中都是不错的,在使用中就可以认为它是完美的。
相同的信息,如果对每一个测量组合都能产生最后的决策(而不是一个局部决策),那么这个信息就被认为是完整的。
一个如此完整的完美的可用的逻辑相互关系,避免了统计方法的缺点。
一个如此理想的情况在应用中是罕见的。
在现实生活应用中,我们通常只有不完善不完整的模型信息。
这就是(也是)常见的已知信息以及根据这些已知信息做出的决策,这些数据称为模式训练样本。
实用的决策算法是在逻辑相互关系和统计训练样本的帮助下进行了最优设计的。
下面用一个简单的虚拟例子说明此方法。
一个病人因为类似流行感冒的症状,访问他的家庭医生。
感冒的可能原因是上呼吸道感染或者病毒感染。
虽然没有对病毒感染的治疗,但是在某些情况下,继发性病毒感染可能会在两种情况中的一种发生。
有此类风险历史的患者应该与没有此类历史的患者区别对待。
图4.1显示了一个可能的逻辑相互关系模型。
医生会检查病人的发烧情况。
对于三个可能的发烧(fever)水平(或者等价),采取的措施也是不同的。
对于低发烧水平的病人,医生会检查的病历以确定他是否有感染的风险。
如果病人处于危险中,医生就开处方药物消除感冒症状(图中决策C表示)。
如果病人是高烧的情况,医生会开抗生素和感冒药物(图中A&C表示)。
其他情况,医生不开任何药物。
当然,如果病情在一两天内恶化,病人需要重返诊所。
这是通过“wait”表示的。
这是一个逻辑相互关系模型的例子。
这个例子假设,医生有一个风险因素清单并且这些风险因素没有模糊性。
然而,这种模型仍然是不完善的,因为这里没有详细说明如何去区分高烧和低烧。
最终的决策算法需要一个阈值体温来判断高烧还是低烧。
一个好的阈值可以通过研究
图4.1一个说明模型和统计训练的简单例子
过去的很多有关体温变化对病人病情影响的例子来确定。
这个阈值的确定也会受到过去不同体温下病人的不同处理方式的影响。
过去病人的观测数据构成了统计训练样本。
在上面的例子中,医生通过一系列的局部决策最后得到最终决策。
在每一个阶段,对案例(上面的病人)的相关信息进行审查并预测进一步的措施。
在每一阶段,都要从可能的行动中选择一个。
这种决策方法称为决策树方法。
相应的决策模式(方案)的图形表示称为决策树。
在一般的决策模式(方案)(包括决策树)中,对没一个测量特征组合的存在一个最优决策。
因此,测量的数学空间被划分为不同的最优决策区域,这些区域称为决策域。
相邻决策域的边界称为决策边界。
4.3决策域
像上面介绍的一样,决策算法在数据空间{X}中产生决策边界和决策域。
也就是说,多维的数据空间被分成了许多小的区域,并对每个区域进行标示。
很能有多个不相交的区域构成一个单独的类。
下面是一个假设的例子。
图4.2是一个有4个决策区域和两个测量,X和Y的例子。
图4.2决策域的例子
在这个例子中,X轴的值从0到24,Y轴的值从0到16。
决策区域1在一个椭圆中,椭圆的长轴与X轴平行。
该椭圆中心在(4,12),长半轴长度为6,短半轴长度为4。
决策域4是一个圆心在(12,8),半径为4的圆。
决策域3在图的右上方,下界为过点(12.16)和(24,8)的直线。
其他区域为决策域2。
与离散型变量一样,如果数据向量也有序列的或者无价值(很少价值)的特征量,特征量的测量空间将是连续的。
在现实中,观察数据的类先验概率函数和类条件概率密度函数通常是不能准确得到的。
接着根据有限样本训练数据集设计模式分类器。
从数据样本训练集开始设计分类器有几种方法。
通常情况下,我们可以从每个类中选择几个数据向量。
一个标记样本集有k个类{ω1,…,ωk}中的数据组成。
ωi类中的数据向量ni为:
,j=1,…,
andi=1,…,k(4.5)
是来自类ωi的第j个数据向量。
在一些应用中,训练数据样本的相对数量完全可以用来表示先验概率。
也就是说
(4.6)
可能是Pi的一个很好的判断。
在一些其他应用中,我们可能会试图提供一个具有尽可能大的训练样本集。
在这种情况下,来自不同类的数据样本的相对数量可能不会与类的先验概率相似。
实际应用中,这种情况下的相对比例是已知的或由其他方法求得。
例如,在特定的季节,我们知道中午的天气情况(无任何额外的信息)具有以下的概率:
P[sunny]=0.75,(4.7)
P[rain]=0.15,(4.8)
P[cloudy]=0.07,(4.9)
P[snow]=0.03,(4.10)
然而在另外一些应用中,对所有的类假设一个相同的概率是合理的。
每个类的数据集都可能被用来评估该类的条件概率函数的参数,这个参数是基于一个已知的或者假定的概率密度函数。
一个概率密度函数的集合的例子就是用高斯概率函数集表示单一特征测量。
平均值和方差的不同值对应于概率密度函数集的不同成员。
密度函数的均值和方差与概率密度函数的参数一样是已知的。
概率密度函数集中的其他成员可能除了均值和方差外,还有其他参数。
例如,一个连续随即变量的联合概率分布可以用它可能取到极值(最大值、最小值)很方便的表示出来。
在这种情况下,这些极值就是概率密度函数的参数。
一个随即变量的概率密度函数是其概率分布函数的导数。
后者也成为累积分分布函数。
模式分类和决策的一个完全定义的统计模型使用概率密度(或分布)函数作为对象(或事件)的特征测量。
这些对象或事件来自模式的每一个类。
自然中一些类发生的类先验概率也是经常使用的。
决策系统所需的所有的参数值对一个完整的详细说明也是必需的。
这种使用概率密度函数集和对参数估值的方法来设计模式分离器的方法,被称为参数化方法。
最终,分类算法为特征测量数据空间的每一个数据点分配一个类标签(将每个数据进行分类)。
分类的规则是按照4.2部分公式4.4所表示的正确分类规则——最大概率规则。
类分类的结果将特征数据空间划分成不同的决策域。
4.6决策树实例
对于给定的决策域(如图4.2或4.3中的决策域),要实现模式分类算法需要按照一定的步骤。
通常,对于一个给定的数据点(x,y),我们应该顺序确定选择点(x,y)的直线或者曲线的哪一边。
如果我们有一个三维数据,那么这个几何空间可以分成两个相邻的区域,即面。
如果我们有一个较高维的数据,通过数学公式将数据空间分成两个相邻的区域,这种区域我们成为超曲面。
如果仔细一点地话,我们会发现在整个可能的数据测量区域并不总是需要确定在数据线(二维数据线)的那一侧。
根据这个决策步骤,当前的决策线能够指导我们选择哪一条线到下一个决策点,直到做出最后的决策。
这种算法相应的被称为多级分类模式。
一般的多级分类器和决策树的区别是有些主观的。
一般来说,在决策树中,测试功能的评价和在每一阶段进行的下一次行动的决策是简单的。
举一个例子,从两个选择里面选取一个的决策行为。
这就需要在每一步根据一线简单的变量参数进行门槛比较,这就是一个简单的多级分类器。
这样的分类器同时也是二叉决策树。
图4.11显示了另外一种模式的决策域。
请注意,这种决策域的边界是直线段,并且平行于坐xy标轴的一条轴。
同样地,整个矩形的长是24个单位,高是16个单位,以坐标轴底部的左角落为原点。
横坐标和纵坐标线段的值是必要的,并在线段的外侧标识出,完整地表示了整个决策域。
各区域的标签是数字1、2、3、4和5,标示在各决策域内。
针对这种决策区域,我们可以用决策树的方法实现决策算法。
而且,我们可以考虑使用二叉决策树。
回想一下,在一个二叉决策树中,每一个决策点检查一个条件,结果是yes或者no,直到做出最终的决策。
图4.2所示是一个二叉决策树,树的每一个边都是一个比较,x或y与对应的阀值比较。
图4.11矩形边界
第一阶段检查y是否小于7。
如前面所约定,结点的左分支表示yes(真),右分支表示no(假)。
显然,我们可以构造这样的决策树,在每一个特殊阶段的测试都可能产生一个可能的结果(两个或两个以上肯能个结果中的一个)。
在这种情况下,决策树并不是一个二叉树,而是普通的树。
图4.13显示了一个完成图4.11决策的决策算法的决策树。
图4.12二进制决策树图4.11的例子
图4.13一个非二进制决策树图4.11的例子
在图4.13中,如果测试结点的结果只有两个,左分支表示true,右分支表示false答案。
在某些条件下,多分支表明这个判断条件含有一个特殊的分支。
我们也可以构造决策树,树中的测试可能会涉及到多个特征变量。
一个有意思的例子如下:
图4.3中的决策边界都是直线段,但是这些直线段既不平行于x轴也不平行于y轴。
然而每一个直线由联立方程的变量x和y确定。
方程的两边由两个可能的(相应的、不相等的)结果精确表示。
因此,对于图4.3所示的决策区域,我们可以构造二叉树。
树中的每一个测试都涉及两个变量x和y的线性组合。
构造这样一个针对图4.3的决策域的决策树是一个综合练习,我们建议读者进行练习。
决策边界并不要求一定是直线段,才能像决策树一样设施决策算法。
当然,如果决策树的各个阶段的测试都非常复杂,使用决策树来实现决策将是值得怀疑的。
让我们用图4.2所示决策域作为例子,通过决策树进行分类。
椭圆的基本方程是(该椭圆的圆心为坐标面的原点,其主轴、次轴分别与x轴、y轴共线):
(4.13)
其中a是椭圆在x轴上的截距,y是椭圆在y轴上的截距。
长轴,椭圆上两点之间距离最大且通过椭圆圆心,是2a;短轴,最短的距离,是2b。
转移椭圆的中心,并用半长轴和半短轴取代例子中的a、b,我们有椭圆的公式如下:
(4.14)
进行简化,我们得到椭圆的公式如下:
(4.15)
椭圆所对应的区域标识为1,它是所有满足下面不等式的所有点(x,y)的集合:
(4.16)
在上面不等式(4.16)中,u是一个复合变量,由初始数据测量x和y转换派生得到的。
对于一个半径为r,圆心在原点的圆的公式为:
(4.17)
在我们的例子中,转换圆心并令半径的长度为4个单位,我们有
(4.18)
简化为:
(4.19)
该区域对应第4类,它是满足下面不等式的所有点(x,y)的集合:
(4.20)
与前面的例子一样,v也是一个复合变量,是由初始数据测量x和y转换派生的。
如果一个直线过两点(x1,y1),(x2,y2),那么它的方程可以表示如下:
(4.21)
在我们的例子中,将类3与其他类区分开的直线过点(12,16)、(24,8),那么这条直线的公式为:
(4.22)
化简得,直线的方程为:
2x+3y-72=0(4.23)
类3的区域是满足一下不等式的点集:
w=2x+3y-72>0(4.24)
同理,w也是复合变量,由变量x和y衍生出来。
有了这些准备,用决策树实现分类就简单了。
图4.14所示的就是这样一棵决策树,树的各个阶段是简单的阀值比较,然而,与阀值进行比较的变量是来自椭圆和圆的非线性转换,以及直线的线性转换。
以上的例子说明了决策树的几个特点,以及它的结构和操作。
所有的这些决策树根据三个给定不同决策域的例子构造的。
因此,如果他们能够满足下面任一个条件,那么这些方法就是直接有效的。
1.我们知道决策域。
2.我们知道数据测量的类先验概率和类条件概率函数。
在这种条件下,我们可以根据公式4.4所给出的最大后验概率决策模型精确地得到决策域。
图4,14二进制决策树图4.2的例子
在许多实际应用中,我们需要根据不完整的物理系统数据、样本类型已知的训练数据、未分类的数据以及它们的组合设计模式分类器。
在这种情况下,我们尝试设计出像决策树一样有效地分类器。
也就是说,我们不再是实际决策边界,然后将它们转换成决策树(就像我们在前面的例子中所做的那样);而是同时设计决策区域和相应的决策树,二者同时推进。
(二)外文文献原文
4DecisionTrees
4.1Introduction
Statisticaldecision-makingiswidelyusedinexperimentalearthsciences.ThetopicplaysanevenmoreimportantroleinEnvironmentalSciencesduetothetimevaryingnatureofasystemunderobservationandthepossiblenecessitytotakecorrectiveactions.Asetofpossiblecorrectiveactionsisusuallyavailableinadecision-makingsituation.Suchasetisalsoknownasthesetofdecisions.Anumberofobservationsofphysicalattributes(orvariables)wouldalsobepoten-tiallyavailable.Itisdesirableforthecorrectiveactionselectedinasituationtominimizethedamageorcost,ormaximizethebenefit.Consideringthatacostisanegativebenefit,scientistsandpractitionersdevelopacompositesinglecriterionthatshouldbeminimized,foragivendecision-makingproblem.Abestdecision,onethatminimizesthecompositecostcriterion,isalsoknownasanoptimaldecision.
Theprocessofobtainingorcollectingthevaluesthatthephysicalvariablestakeinaneventisalsoknownbyothernamessuchasextractingfeatures(orfeaturevariables)andmakingmeasurementsofthevariables.Thevariablesarealsocalledbyothernamessuchasfeatures,featurevariables,andmeasurements.Amongthemanypossiblephysicalvariablesthatmightinfluencethedecision,collectingsomeofthemmayposechallenges.Theremaybeacost,risk,orsomeotherpenaltyassociatedwiththeprocessofcol-lectingsomeofthesevariables.Insomeothercases,thetimedelayinobtainingthemeasurementsmayalsoaddtothecostofdecision-making.Thismaytaketheformofcertainlossesbecauseacorrectiveactioncouldnotbeimplementedearlierduetothetimedelayinthemeasurementprocess.Thesecostsshouldbeincludedintheoverallcostcriterion.Therefore,theprocessofdecision-m