决策树文献翻译节选.doc

资源描述

决策树文献翻译节选.doc

《决策树文献翻译节选.doc》由会员分享，可在线阅读，更多相关《决策树文献翻译节选.doc（26页珍藏版）》请在冰豆网上搜索。

决策树文献翻译节选.doc

本科毕业设计（论文）

外文参考文献译文及原文

学院管理学院

专业信息管理与信息系统

年级班别2008级（6）班

学号3108006406

学生姓名张钟权

指导教师胡凤

2012年5月

（一）外文文献译文 1

4决策树 1

4.1介绍 1

4.2决策和模式分类 2

4.2.1统计模式分类 2

4.2.2使用逻辑相互关系 3

4.3决策域 5

……

4.6决策树实例 6

（二）外文文献原文 11

4DecisionTrees 11

4.1Introduction 11

4.2Decision-MakingandPatternClassification 14

4.2.1StatisticalPatternClassification 14

4.2.2UseofLogicalInter-relationships 15

4.3DecisionRegions 17

……

4.6DecisionTreeExamples 19

（一）外文文献译文

4决策树

4.1介绍

统计决策广泛应用于实验地球科学，它在环境科学中扮演着更重要的角色，由于环境系统随时间不断改变，需要根据观测系统和可能情况不断地矫正行动（采取不同的行动策略）。

一组可能的矫正措施通常在一个决策环境中，称为决策集。

一些物理属性（或变量）的观测值是潜在有用的，这也是可采取的矫正措施的一种情况。

在系统中根据新的情况不断地矫正措施，目的是为了减少损失，或成本或为了最大利益。

考虑到成本是一个负收益，对一个给定的决策问题，科学家和企业人员看法了一个综合单一标准——成本最小。

一个好的决策应该满足：

一、综合成本最小，二、最优决策。

获取和收集物理变量值的过程也被称为特征提取（特征变量）、变量测定，这些变量有时候也被称为特征、特征变量、测量。

这些特征变量中的一些变量可能会对决策有影响，确定这些变量是一个挑战。

它们可能是成本、风险或者是在收集这项变量过程中的其他损失。

在另外一些情况下，获得测量结果的时间延迟也可能增加决策成本。

这可能要承受某些损失，这是因为由于测量过程的时间延迟，一个矫正措施并不能被较早的执行，这些损失应当被计入综合成本中。

因此，决策的过程中可能还包括决定是否收集某些测量。

在一个决策系统中，所有变量的数学空间以及它们的成本是可以设想的（计算得到的）。

与每一个综合变量值有关，做出一个决定的总括成本，包括每一个测量成本，是也是可以设想（得到）的。

接着，对没一个特征测量的组合的最优决策也是可以设想（得到）的。

这样的一个表示所有复杂变量之间相互关系的数学变量被称为“模型”。

特征变量、成本、以及参数的测量被整合到一个单一的成本标准中。

用来表示相互关系的其他数学数量和函数体现了模型的相关信息。

不幸的是用精确地数学空间表示决策成本和最优决策图仅仅是一个设想、一个理想。

通常情况下，恰恰是不确定性的数学量化相互关系才是我们所需要的。

可能一些关系是确定性的，另外一些确实统计的。

用先验的知识去精确量化统计关系本身可能是有限的（有问题的）。

最后，即便是我们可以得到一个设想中的完美的表征相互关系的数学空间，它们的表示和计算最优决策可能需要令人可怕的数量的计算机内存和计算能力。

人工智能建模和决策方法在很多情况下式有用的。

它们在降低表示复杂度方面很有用。

在某些情况下，它们通过决策过程动态的表示模型，而不是试图建立一个巨大的可能无法管理的静态的表示。

它们对不确定关系的近似表示也很有用。

总之，人工智能在降低计算（这些计算在计算最优决策时必需的）复杂度方面很有用。

人工智能通过启发式方法能够得到几乎是最优的决策。

决策树是一种人工智能方法，也是本章的主题。

根据一个模型开展工作目的是帮助我们决策。

根据排位赛模型，区分不同的形容词像精确的（exact）、精准的（precise）、完整的（complete）和统计的（statistical），使它们有序。

一个完整的模型解释了所有可能的相互关系。

一个精确地模型（precise）明确的描述了相互关系，没有含糊之处。

例如，语句“由于人的呼吸道敏感性，对人类而言，高臭氧水平的环境会导致相当大的不舒服”指定了一个关系。

但它不是数学的精确描述，它使用了主观性的词语“高”和“相当的”。

一个说明书可以说是精准的（precise），但这只是大约而不是精确（exact）。

有些关系是统计的而不是确定的。

完整的、精准的（precise）统计关系和正确的说明在下面的情况下与精确定义的确定的关系具有非常相似的意义。

在统计关系的情况下，根据决策总体成本的统计平均值或期望值最小化，来获得最佳决策，而不是根据减少精确的整体成本。

显然地，根据上面论述，在环境科学应用中，一个完整的精确的模型通常是不能构建的。

即使我们愿意接受相似的但完整指定的模型，我们也可能不能及时得到。

如果观测值的获取和决策是在有限资源的情况下做出的，时间也是一种资源，那么模型可能是部分指定或者参数不是非常的精确。

气象就是这样的应用。

气象现象是观察天气的事件。

温度、压力、水蒸气等都是影响因素。

这些物理量之间相互作用。

这些物理量在三维空间和时间的四维空间上也是物理属性，它们对气象时间的发生有重要影响。

此外，上述物理属性在预测未来一段时间内的气象时间非常有用。

虽然预测的准确性有了极大提高，但总有进一步提高的空间。

一系列物理属性及其组合的测定对正确认识（预测）各种重要事件是极其有用的。

事实上，各种转换变量和转换组合的数量几乎是没有限制的，这一点可能会潜在地增加分类结果的准确性。

而且，不同属性（和属性的组合）的不同转换也可能是必须的。

因此，关于这一点的研究有很多（开放式的）。

本章研究了一类分类（决策）算法。

这些方法给予统计的不完整的逻辑相互关系构造模型。

总的目的是发展和引导决策算法，即决策树。

根据上面提到的理论，这种方法适用于很多实验地球科学领域。

本章中的最后算法也被称为多级分类和多层分类。

4.2决策和模式分类

4.2.1统计模式分类

在统计模式分类最简单形式中，模式分类（Dudaetal2001）规定，一个给定的数据向量X被分配到几个已知的类别w1，…，wk中。

数据向量X由m个测量结果组成：

X=[x

（1）,x

（2）,…,x（m）]（4.1）

如前所述，每个测量都是一个特征，它的值与数据向量X一致，都受模式类的影响。

一个特征可能是重要的，或者序数的（其重要性通过在一个重要性序列体现），或者无价值的（少价值的）。

一个具有重要价值的变量，用一段连续的实线表征其价值。

一个具有序列的价值的变量，通过一个有序的数列，比如整数，体现其价值。

一个没有价值或者具有很少价值的变量，用一个没有自然序列的有限序列表示其价值。

一个无价值的例子就是某种现象的出现或者不出现，像材料样品中出现特别的污染物（这种现象几乎不可能出现）。

在很多已经设计完成的分类应用中，我们知道类的先验概率Pi，分别对应类wi，我们也知道类的条件概率密度函数P（x|wi）,对应每一个类wi和观察空间中所有的向量点{X}。

我们根据最大化后验概率来分类观察数据。

也就是说，如果求得的后验概率是wi（wi的后验概率最大），就把观察到的数据向量X划分到类wi.

P[wi|x]³P[wj|x],对于每一个jÎ（1,2，…，k）（4.2）

根据概率论中的贝叶斯定理，一个类的后验概率可以表示为一个函数。

这个函数由该类的先验概率函数和条件密度函数组成，如下所示：

，jÎ（1,2，…，k）（4.3）

上式等号右侧的分母与j无关。

因此，公式（4.2）的决定性因素简化为公式（4.3）的等号右侧分子的最大化，分子与所有的j有关。

也就是说，如果满足下面的条件，数据向量X就属于类wi：

P（x|wi）³P（x|wj），jÎ（1,2，…，k）（4.4）

上述方法的决策取决于统计地表达所有数据变化情况的能力，包括含有所有测量数据的多维数据空间。

4.2.2使用逻辑相互关系

纯粹统计方法构建数据模型进行决策是一种极端的方法，另一个极端是纯粹的逻辑相互关系。

这种逻辑的相互关系可以通过不同类型的数据分析构建，而不是纯粹的统计模型。

这些相互关系可能是完全确定的，也可能是近似确定的。

在实践中，逻辑相互关系和数据统计分析常常被综合使用。

如果逻辑相互关系能够保证在每次决策的实例中都是不错的，在使用中就可以认为它是完美的。

相同的信息，如果对每一个测量组合都能产生最后的决策（而不是一个局部决策），那么这个信息就被认为是完整的。

一个如此完整的完美的可用的逻辑相互关系，避免了统计方法的缺点。

一个如此理想的情况在应用中是罕见的。

在现实生活应用中，我们通常只有不完善不完整的模型信息。

这就是（也是）常见的已知信息以及根据这些已知信息做出的决策，这些数据称为模式训练样本。

实用的决策算法是在逻辑相互关系和统计训练样本的帮助下进行了最优设计的。

下面用一个简单的虚拟例子说明此方法。

一个病人因为类似流行感冒的症状，访问他的家庭医生。

感冒的可能原因是上呼吸道感染或者病毒感染。

虽然没有对病毒感染的治疗，但是在某些情况下，继发性病毒感染可能会在两种情况中的一种发生。

有此类风险历史的患者应该与没有此类历史的患者区别对待。

图4.1显示了一个可能的逻辑相互关系模型。

医生会检查病人的发烧情况。

对于三个可能的发烧（fever）水平（或者等价），采取的措施也是不同的。

对于低发烧水平的病人，医生会检查的病历以确定他是否有感染的风险。

如果病人处于危险中，医生就开处方药物消除感冒症状（图中决策C表示）。

如果病人是高烧的情况，医生会开抗生素和感冒药物（图中A&C表示）。

其他情况，医生不开任何药物。

当然，如果病情在一两天内恶化，病人需要重返诊所。

这是通过“wait”表示的。

这是一个逻辑相互关系模型的例子。

这个例子假设，医生有一个风险因素清单并且这些风险因素没有模糊性。

然而，这种模型仍然是不完善的，因为这里没有详细说明如何去区分高烧和低烧。

最终的决策算法需要一个阈值体温来判断高烧还是低烧。

一个好的阈值可以通过研究

图4.1一个说明模型和统计训练的简单例子

过去的很多有关体温变化对病人病情影响的例子来确定。

这个阈值的确定也会受到过去不同体温下病人的不同处理方式的影响。

过去病人的观测数据构成了统计训练样本。

在上面的例子中，医生通过一系列的局部决策最后得到最终决策。

在每一个阶段，对案例（上面的病人）的相关信息进行审查并预测进一步的措施。

在每一阶段，都要从可能的行动中选择一个。

这种决策方法称为决策树方法。

相应的决策模式（方案）的图形表示称为决策树。

在一般的决策模式（方案）（包括决策树）中

展开阅读全文