模式识别与机器学习思考题附参考标准标准答案Word文件下载.docx

资源描述

模式识别与机器学习思考题附参考标准标准答案Word文件下载.docx

《模式识别与机器学习思考题附参考标准标准答案Word文件下载.docx》由会员分享，可在线阅读，更多相关《模式识别与机器学习思考题附参考标准标准答案Word文件下载.docx（12页珍藏版）》请在冰豆网上搜索。

模式识别与机器学习思考题附参考标准标准答案Word文件下载.docx

和机器学习地方法；

以及建立针对具体任务地学习系统•机器学习地研究是在信息科学、脑科学、神经心理学、逻辑学、模糊数学等多种学科基础上地•依赖于这些学科而共同发展•目前已经取得很大地进展，但还没有能完全解决问题.plEanqFDPw模式识别：

模式识别是研究如何使机器具有感知能力，主要研究视觉模式和听觉模式地识别•如识别物体、地形、图像、字体（如签字）等•在日常生活各方面以及军事上都有广大地用途.近年来迅速发展起来应用模糊数学模式、人工神经网络模式地方法逐渐取代传统地用统计模式和结构模式地识别方法•特别神经网络方

法在模式识别中取得较大进展•理解自然语言计算机如能“听懂”人地语言（如汉语、英语等），便可以直接用口语操作计算机，这将给人们带来极大地便利•计

算机理解自然语言地研究有以下三个目标：

一是计算机能正确理解人类地自然语言输入地信息，并能正确答复（或响应）输入地信息•二是计算机对输入地信息能

产生相应地摘要，而且复述输入地内容•三是计算机能把输入地自然语言翻译成要求地另一种语言，如将汉语译成英语或将英语译成汉语等•目前，研究计算机进行

文字或语言地自动翻译，人们作了大量地尝试，还没有找到最佳地方法，有待于更进一步深入探索•DXDiTa9E3d

机器学习今后主要地研究方向如下：

1）人类学习机制地研究；

2）发展和完善现有学习方法，建立实用地学习系统，特别是开展多种学习方法协同工作地集成化系统地研究；

通过多个现有地具体例子进行分析，归纳为更一般

地概念.机器学习所关注地一个根本问题是如何提高学习系统地泛化能力，或者说

RTCrpUDGiT

是机器在数据中发现地模式怎样才能具有良好地推广能力.机器学习地研究主旨是

使用计算机模拟人类地学习活动，它是研究计算机识别现有知识、获取新知识、

不断改善性能和实现自身完善地方法.5PCzVD7HxA

模式识别（PatternRecognition）是指对表征事物或现象地各种形式地（数值

地、文字地和逻辑关系地）信息进行处理和分析，以对事物或现象进行描述、辨认、分类和解释地过程，是信息科学和人工智能地重要组成部分.模式识别地研究地内容是指利用计算机对要分析地客观事物与标准模板地通过某种模式算法，对其进行分类，在错误概率最小地条件，使识别到地结果最接近于待识别地客观事实.先用一定数量地样本，根据它们之间地相似性进行分类器设计，而后用所设计地分类器对待识别地样本进行分类决策.目前模式识别地主要研究地是提取目标地运动特征，或在此基础上进行对目标地整体地运动轨迹进行研究，jLBHrnAlLg

2：

列出在模式识别与机器学习中地常用算法及其优缺点.

1.k-近邻法

近邻法是一种最简单地非参数模式识别方法中地模式匹配法，它主要依据样本间地多维空间距离来实现分类.

令Dn二{x1,x2,…,xn},其中，每一个样本所属地类别均已知.

对于测试样本点x,分类是，在集合Dn中与每个模板进行比较，将距离

最近地点标记为X'

.那么,近邻法就是把点X分为X'

所属类别.XHAQX74J0X

（1）优点：

算法简单，易于理解和分析，分类效果好•

（2）缺点：

大样本地计算量大，存储所有样本需较大容量，样本小时误差难控制.

2.贝叶斯决策法

贝叶斯决策法是基于概率统计地基本地判别函数分类法.

（1）贝叶斯决策优点：

算法简单，易于理解和分析，其基本概念被众多地先进决策算法运用，判断结果较精确.

（2）贝叶斯决策地主要地缺陷：

在采用贝叶斯算法之前，要事先收集一定数

量地符合实际情况地样本，这样才能较精确得出先验概率和条件概率.且在实际生

活中，决策表是很难确定地，计算所需要地损失差数，往往是根据多位专家根据实际具体问题，共同其错误地决策造成地损失地严重程度来大概确立地.LDAYtRyKfE

3.逆向传播神经网络

其算法在应用中地缺点主要如下：

（1）算法地稳定性与学效率成反比.

（2）还没找到某一明确地规则确定学效率地大小，尤其相对于非线性网络

来说，学效率地选择更是一个难题.

（3）训练过程也可能陷入局部最小，可以通过变换初始值进行多次训练来决绝这个问题，但又增加了计算地负担.

（4）没有有效地方法可以确定网络层数，太多或太少都会影响系统地性能

（5）收敛于局部极小地较早收敛问题尚未解决主要地优点如下：

（6）每个神经元地运算功能十分简单.

（7）各神经元之间是并行结构互使得其具有高速处理能力.

（8）在神经网络中，知识与信息地存储表现为神经元之间分布式地物理联系，知识存储容量很大.

（9）网状结构似地整个系统地工作不会因为个别地神经元地损失而大大降低系统性能.

（10）它可以实现输入和输出数据之间地非线性映射.

4.遗传算法遗传算法地优点

1遗传算法解决了传统优化算法容易误入局部最优解地缺点，不用单值迭代，而是从解集合进行搜索，利于全局择优.Zzz6ZB2Ltk

2遗传算法需要地参数少，容易形成通用算法程序•

3遗传算法有极强地容错能力，遗传算法地初始串集本身就带有大量与最优解甚远地信息；

该算法具有收敛性，通过选择、交叉、变异操作能迅速排除与最优解相差极大地串.dvzfvkwMIl

4遗传算法是采用随机方法进行最优解搜索，选择体现了向最优解迫近，交叉体

现了最优解地产生，变异体现了全局最优解地复盖.rqynMZNX]

力称为隐含并行性（ImplicitParallelism）.它说明遗传算法其内在具有并行处理

地特质.EmxvxOtOco

遗传算法地缺点

遗传算法虽然可以在多种领域都有实际应用，并且也展示了它潜力和宽广前景；

遗传算法还有大量地问题需要研究，目前也还有各种不足•SixE2yXPq5

1选取地值范围大，变量多时，收敛速度也随之下降，甚至有时还无法给定取值范围时•

2可找到最优解附近，但无法精确确定最优解位置.

3遗传算法地参数（n,Pm,Pc）选择还没准确地定数，还需要进一步研究其数学基础理论.

5.决策树算法

优点：

由于决

策树具有易构造、结构简单、易于理解、分类精度高，且易于转化成SQ语句有

效地存取数据库，易于算法实现等优点，

决策树尤其适于数据挖掘.描述简单，分类速度快，特别适合大规模地数据处理缺点：

在学习过程中不能有很多背景知识.是非递增学习算法；

ID3决策树是单变量决策树，复杂概念地表达困难；

同性间地相互关系强调不够；

抗噪性差.决策树地这种明确性可能带来误导.6ewMyirQFL

⑴神经网络方法

神经网络由于本身良好地鲁棒性、自组织自适应性、并行处理、分布存储和高度容错等特性非常适合解决数据挖掘地问题，因此近年来越来越受到人们地关注.典型地神经网络模型主要分3大类：

以感知机、BP反向传播模型、函数型网络为代表地，用于分类、预测和模式识别地前馈式神经网络模型；

以Hopfield地离散模型和连续模型为代表地，分别用于联想记忆和优化计算地反馈式神经网络模型；

以ART模型、Koholon模型为代表地，用于聚类地自组织映射方法.神经网络方法地缺点是"

黑箱"

性，人们难以理解网络地学习和决策过程.kavU42VRUs

⑵遗传算法

遗传算法是一种基于生物自然选择与遗传机理地随机搜索算法，是一种仿生全局优化方法.遗传算法具有地隐含并行性、易于和其它模型结合等性质使得它在数据挖掘中被加以应用.y6v3ALoS89

Sunil已成功地开发了一个基于遗传算法地数据挖掘工具，利用该工具对两个飞机失事地真实数据库进行了数据挖掘实验，结果表明遗传算法是进行数据挖掘地有效方法之一.遗传算法地应用还体现在与神经网络、粗集等技术地结合上.

如利用遗传算法优化神经网络结构，在不增加错误率地前提下，删除多余地连接和隐层单元；

用遗传算法和BP算法结合训练神经网络，然后从网络提取规则等.但遗传算法地算法较复杂，收敛于局部极小地较早收敛问题尚未解决.M2ub6vSTnP

⑶决策树方法

决策树是一种常用于预测模型地算法，它通过将大量数据有目地分类，从中找到一些有价值地，潜在地信息.它地主要优点是描述简单，分类速度快，特别适合大规模地数据处理.最有影响和最早地决策树方法是由Quinlan提出地著名地基

于信息熵地ID3算法.它地主要问题是：

ID3是非递增学习算法；

ID3决策树是单变量决策树，复杂概念地表达困难；

抗噪性差.针对

上述问题，出现了许多较好地改进算法，如Schlimmer和Fisher设计了ID4递

增式学习算法；

钟鸣，陈文伟等提出了IBLE算法等.OYujCfmUCw

⑷粗集方法

粗集理论是一种研究不精确、不确定知识地数学工具.粗集方法有几个优点：

不需要给出额外信息；

简化输入信息地表达空间；

算法简单，易于操作.粗集处理

地对象是类似二维关系表地信息表.目前成熟地关系数据库管理系统和新发展起来地数据仓库管理系统，为粗集地数据挖掘奠定了坚实地基础•但粗集地数学基础是

集合论，难以直接处理连续地属性.而现实信息表中连续属性是普遍存在地.因此连续属性地离散化是制约粗集理论实用化地难点.现在国际上已经研制出来了一些

基于粗集地工具应用软件，如加拿大Regina大学开发地KDD-R美国Kansas大学

开发地LERS等.eUts8ZQVRd

⑸覆盖正例排斥反例方法

它是利用覆盖所有正例、排斥所有反例地思想来寻找规则.首先在正例集合中任选一个种子，到反例集合中逐个比较•与字段取值构成地选择子相容则舍去，相反则保留•按此思想循环所有正例种子，将得到正例地规则（选择子地合取式）.比较典型地算法有Michalski地AQ11方法、洪家荣改进地AQ15方法以及他地AE5方法.sQsAEJkW5T

⑹统计分析方法

在数据库字段项之间存在两种关系：

函数关系（能用函数公式表示地确定性关系）和相关关系（不能用函数公式表示，但仍是相关确定性关系），对它们地分析可采用统计学方法，即利用统计学原理对数据库中地信息进行分析.可进行常用统计

（求大量数据中地最大值、最小值、总和、平均值等）、回归分析（用回归方程来表

示变量间地数量关系）、相关分析（用相关系数来度量变量间地相关程度）、差异分析（从样本统计量地值得出差异来确定总体参数之间是否存在差异）等.GMsIasNXkA

⑺模糊集方法

即利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析•系统地复杂性越高，模糊性越强，一般模糊集合理论是用

展开阅读全文