综述浅谈模式识别数据挖掘机器学习人工智能及它们与数据融合的联系与区别.docx-资源下载

综述浅谈模式识别数据挖掘机器学习人工智能及它们与数据融合的联系与区别.docx

1、综述浅谈模式识别数据挖掘机器学习人工智能及它们与数据融合的联系与区别浅谈模式识别、数据挖掘、机器学习、人工智能以及它们与数据融合的联系与区别目录一.模式识别： 31.1定义与简介： 31.2发展史： 41.3研究方向： 41.4主要方法： 41.5具体应用： 61.6未来发展： 7二.数据挖掘： 82.1定义与简介： 82.2发展史： 82.3研究方向： 92.4主要方法： 92.5十大经典算法： 102.6具体应用： 132.7未来发展： 14三.机器学习： 153.1定义与简介： 153.2发展史： 163.3研究方向： 173.4主要方法： 173.5具体应用： 183.6未来发展： 1

2、9四.人工智能： 204.1定义及简介： 204.2发展史： 204.3研究方向： 214.4主要方法： 234.5具体应用： 254.6未来发展： 26五，与多源数据融合的联系及区别 26参考文献 28 一.模式识别：1.1定义与简介：模式识别（英语：Pattern Recognition），是指对表征事物或现象的各种形式的(数值的、文字的和逻辑关系的)信息进行处理和分析，以及对事物或现象进行描述、辨认、分类和解释的过程，是信息科学和人工智能的重要组成部分。1模式还可分成抽象的和具体的两种形式。前者如意识、思想、议论等，属于概念识别研究的范畴，是人工智能的另一研究分支。应用计算机对一组事件或

3、过程进行辨识和分类，所识别的事件或过程可以是文字、声音、图像等具体对象，也可以是状态、程度等抽象对象。这些对象与数字形式的信息相区别，称为模式信息。模式识别就是通过计算机用数学技术方法来研究模式的自动处理和判读。我们把环境与客体统称为“模式”。随着计算机技术的发展，人类有可能研究复杂的信息处理过程。信息处理过程的一个重要形式是生命体对环境及客体的识别。对人类来说，特别重要的是对光学信息（通过视觉器官来获得）和声学信息（通过听觉器官来获得）的识别。这是模式识别的两个重要方面。市场上可见到的代表性产品有光学字符识别、语音识别系统。1.2发展史：模式识别是人类的一项基本智能，在日常生活中，人们经常在

4、进行“模式识别”。随着20世纪40年代计算机的出现以及50年代人工智能的兴起，人们当然也希望能用计算机来代替或扩展人类的部分脑力劳动。(计算机)模式识别在20世纪60年代初迅速发展并成为一门新学科。11.3研究方向：模式识别研究主要集中在两方面，一是研究生物体(包括人)是如何感知对象的，属于认识科学的范畴，二是在给定的任务下，如何用计算机实现模式识别的理论和方法。前者是生理学家、心理学家、生物学家和神经生理学家的研究内容，后者通过数学家、信息学专家和计算机科学工作者近几十年来的努力，已经取得了系统的研究成果。我们所指的模式识别主要是对语音波形、地震波、心电图、脑电图、图片、照片、文字、符号、生

5、物传感器等对象的具体模式进行辨识和分类。模式识别与统计学、心理学、语言学、计算机科学、生物学、控制论等都有关系。它与人工智能、图像处理的研究有交叉关系。例如自适应或自组织的模式识别系统包含了人工智能的学习机制；人工智能研究的景物理解、自然语言理解也包含模式识别问题。又如模式识别中的预处理和特征抽取环节应用图像处理的技术；图像处理中的图像分析也应用模式识别的技术。21.4主要方法：决策理论方法又称统计方法，是发展较早也比较成熟的一种方法。被识别对象首先数字化，变换为适于计算机处理的数字信息，一个模式常常要用很大的信息量来表示。许多模式识别系统在数字化环节之后还进行预处理，用于除去混入的干扰信息

6、并减少某些变形和失真。随后是进行特征抽取，即从数字化后或预处理后的输入模式中抽取一组特征。所谓特征是选定的一种度量，它对于一般的变形和失真保持不变或几乎不变，并且只含尽可能少的冗余信息。特征抽取过程将输入模式从对象空间映射到特征空间。这时，模式可用特征空间中的一个点或一个特征矢量表示。这种映射不仅压缩了信息量，而且易于分类。在决策理论方法中，特征抽取占有重要的地位，但尚无通用的理论指导，只能通过分析具体识别对象决定选取何种特征。特征抽取后可进行分类，即从特征空间再映射到决策空间。为此而引入鉴别函数，由特征矢量计算出相应于各类别的鉴别函数值，通过鉴别函数值的比较实行分类。2句法方法又称结构方法或

7、语言学方法。其基本思想是把一个模式描述为较简单的子模式的组合，子模式又可描述为更简单的子模式的组合，最终得到一个树形的结构描述，在底层的最简单的子模式称为模式基元。2在句法方法中选取基元的问题相当于在决策理论方法中选取特征的问题。通常要求所选的基元能对模式提供一个紧凑的反映其结构关系的描述，又要易于用非句法方法加以抽取。显然，基元本身不应该含有重要的结构信息。模式以一组基元和它们的组合关系来描述，称为模式描述语句，这相当于在语言中，句子和短语用词组合，词用字符组合一样。基元组合成模式的规则，由所谓语法来指定。一旦基元被鉴别，识别过程可通过句法分析进行，即分析给定的模式语句是否符合指定的语法，满

8、足某类语法的即被分入该类。模式识别方法的选择取决于问题的性质。如果被识别的对象极为复杂，而且包含丰富的结构信息，一般采用句法方法；被识别对象不很复杂或不含明显的结构信息，一般采用决策理论方法。这两种方法不能截然分开，在句法方法中，基元本身就是用决策理论方法抽取的。在应用中，将这两种方法结合起来分别施加于不同的层次，常能收到较好的效果。统计模式识别统计模式识别(Statistic Pattern Recognition)的基本原理是：有相似性的样本在模式空间中互相接近，并形成“集团”，即“物以类聚”。其分析方法是根据模式所测得的特征向量 (i=1,2,3,N),将一个给定的模式归入c个类中，然后

9、根据模式之间的距离函数来判别分类。其中，表示转置，N为样本点数，d为样本特征数。3统计模式识别的主要方法有：判别函数法，近邻分类法，非线性映射法，特征分析法，主因子分析法等。在统计模式识别中，贝叶斯决策规则从理论上解决了最优分类器的设计问题，但其实施却必须首先解决更困难的概率密度估计问题。BP神经网络直接从观测数据(训练样本)学习，是更简便有效的方法，因而获得了广泛的应用，但它是一种启发式技术，缺乏指定工程实践的坚实理论基础。统计推断理论研究所取得的突破性成果导致现代统计学习理论VC理论的建立，该理论不仅在严格的数学基础上圆满地回答了人工神经网络中出现的理论问题，而且导出了一种新的学习方法支持

10、向量机（SVM）。1.5具体应用：文字识别文字识别是利用计算机自动识别字符的技术，是模式识别应用的一个重要领域。文字识别一般包括文字信息的采集、信息的分析与处理、信息的分类判别等几个部分。文字识别方法基本上分为统计、逻辑判断和句法三大类。常用的方法有模板匹配法和几何特征抽取法。文字识别可应用于许多领域，如阅读、翻译、文献资料的检索、信件和包裹的分拣、稿件的编辑和校对等方面。语音识别语音识别技术所涉及的领域包括：信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。近年来，在生物识别技术领域中，声纹识别技术以其独特的方便性、经济性和准确性等优势受到世人瞩目，并日益成为人们日常生

11、活和工作中重要且普及的安验证方式，而且利用基因算法训练连续隐马尔柯夫模型的语音识别方法现已成为语音识别的主流技术，该方法在语音识别时识别速度较快，也有较高的识别率。指纹识别我们手掌及其手指、脚、脚趾内侧表面的皮肤凹凸不平产生的纹路会形成各种各样的图案。而这些皮肤的纹路在图案、断点和交叉点上各不相同，是唯一的。依靠这种唯一性，就可以将一个人同他的指纹对应起来，通过比较他的指纹和预先保存的指纹进行比较，便可以验证他的真实身份。一般的指纹分成有以下几个大的类别:环型(loop)，螺旋型(whorl)，弓型(arch)，这样就可以将每个人的指纹分别归类，进行检索。指纹识别基本上可分成：预处理、特征选

12、择和模式分类几个大的步骤。4 遥感遥感图像识别已广泛用于农作物估产、资源勘察、气象预报和军事侦察等。医学诊断在癌细胞检测、X射线照片分析、血液化验、染色体分析、心电图诊断和脑电图诊断等方面，模式识别已取得了成效。1.6未来发展：模式识别技术是人工智能的基础技术，21世纪是智能化、信息化、计算化、网络化的世纪，在这个以数字计算为特征的世纪里，作为人工智能技术基础学科的模式识别技术，必将获得巨大的发展空间。在国际上，各大权威研究机构、各大公司都纷纷开始将模式识别技术作为公司的战略研发重点加以重视。语音识别技术语音识别技术正逐步成为信息技术中人机接口(Human Computer Interface

13、，HCI)的关键技术，语音技术的应用已经成为一个具有竞争性的新兴高技术产业。中国互联网中心的市场预测：未来5年，中文语音技术领域将会有超过400亿人民币的市场容量，然后每年以超过30%的速度增长。生物认证技术生物认证技术(Biometrics)本世纪最受关注的安全认证技术，它的发展是大势所趋。人们愿意忘掉所有的密码、扔掉所有的磁卡，凭借自身的唯一性来标识身份与保密。国际数据集团（IDC）预测：作为未来的必然发展方向的移动电子商务基础核心技术的生物识别技术在未来10年的时间里将达到100亿美元的市场规模。数字水印技术90年代以来才在国际上开始发展起来的数字水印技术(Digital Waterma

14、rking)是最具发展潜力与优势的数字媒体版权保护技术。IDC预测，数字水印技术在未来的5年内全球市场容量超过80亿美元。模式识别从20世纪20年代发展至今，人们的一种普遍看法是不存在对所有模式识别问题都适用的单一模型和解决识别问题的单一技术，我们现在拥有的只是一个工具袋，所要做的是结合具体问题把统计的和句法的识别结合起来，把统计模式识别或句法模式识别与人工智能中的启发式搜索结合起来，把统计模式识别或句法模式识别与支持向量机的机器学习结合起来，把人工神经元网络与各种已有技术以及人工智能中的专家系统、不确定推理方法结合起来，深入掌握各种工具的效能和应有的可能性，互相取长补短，开创模式识别应用的

15、新局面。二.数据挖掘：2.1定义与简介：数据挖掘（英语：Data mining），又译为资料探勘、数据采矿。它是数据库知识发现（英语：Knowledge-Discovery in Databases，简称：KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中的先前未知的且具有潜在价值的信息的过程。5数据挖掘是目前人工智能和数据库领域研究的热点问题，同时也是一种决策支持过程，通常与计算机科学有关，并通过统计、在线分析处理、情报检索、机器学习、专家系统和模式识别等诸多方法来高度自动化地分析企业的数据，做出归纳性的推理，从中挖掘出潜在的模式，帮助决策者调整市场策略，减少风险，

16、做出正确的决策。2.2发展史：第一阶段：电子邮件阶段这个阶段可以认为是从70年代开始，平均的通讯量以每年几倍的速度增长。第二阶段：信息发布阶段从1995年起，以Web技术为代表的信息发布系统，爆炸式地成长起来，成为目前Internet的主要应用。第三阶段： EC(Electronic Commerce），即电子商务阶段EC在美国也才刚刚开始，之所以把EC列为一个划时代的东西，是因为Internet的最终主要商业用途，就是电子商务。同时反过来也可以说，若干年后的商业信息，主要是通过Internet传递。Internet即将成为我们这个商业信息社会的神经系统。第四阶段：全程电子商务阶段随着SaaS

17、（Software as a service）软件服务模式的出现，软件纷纷登陆互联网，延长了电子商务链条，形成了当下最新的“全程电子商务”概念模式。52.3研究方向：数据挖掘也称为数据库中的知识发现(KDD，Knowledge Discovery in Database)。数据挖掘是通过分析每个数据，从大量数据中寻找其规律的技术，主要有数据准备、数据挖掘以及结果表达和解释三个步骤组成。数据准备是从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集；数据挖掘是用某种方法将数据集所含的规律找出来；结果表达和解释是尽可能以用户可理解的方式（如可视化）将找出的规律表示出来。数据挖掘的任务有关联分

18、析、聚类分析、分类分析、异常分析、特异群组分析和演变分析，等等。2.4主要方法：分类（Classification）首先从数据中选出已经分好类的训练集，在该训练集上运用数据挖掘分类的技术，建立分类模型，对于没有分类的数据进行分类。例如信用卡申请者，分类为低、中、高风险。估计（Estimation）估计与分类类似，不同之处在于，分类描述的是离散型变量的输出，而估值处理连续值的输出；分类的类别是确定数目的，估值的量是不确定的。一般来说，估值可以作为分类的前一步工作。给定一些输入数据，通过估值，得到未知的连续变量的值，然后，根据预先设定的阈值，进行分类。例如根据客户购买模式，估计一个家庭的孩子个数

19、。预测（Prediction）通常，预测是通过分类或估值起作用的，也就是说，通过分类或估值得出模型，该模型用于对未知变量的预言。从这种意义上说，预言其实没有必要分为一个单独的类。预言其目的是对未来未知变量的预测，这种预测是需要时间来验证的，即必须经过一定时间后，才知道预言准确性是多少。相关性分组或关联规则（Affinity grouping or association rules）决定哪些事情将一起发生。例如超市中客户在购买A的同时，经常会购买B，即A = B(关联规则)。聚类（Clustering）聚类是对记录分组，把相似的记录在一个聚集里。聚类和分类的区别是聚集不依赖于预先定义好的类

20、，不需要训练集。聚集通常作为数据挖掘的第一步。例如，哪一种类的促销对客户响应最好？，对于这一类问题，首先对整个客户做聚集，将客户分组在各自的聚集里，然后对每个不同的聚集，回答问题，可能效果更好。复杂数据类型挖掘(Text, Web ,图形图像，视频，音频等)是对数据挖掘结果的表示方式。一般只是指数据可视化工具，包含报表工具和商业智能分析产品（BI）的统称。譬如通过Yonghong Z-Suite等工具进行数据的展现，分析，钻取，将数据挖掘的分析结果更形象，深刻的展现出来。62.5十大经典算法：C4.5C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法. C4.5算法继承了

21、ID3算法的优点，并在以下几方面对ID3算法进行了改进：用信息增益率来选择属性，克服了用信息增益选择属性时偏向选择取值多的属性的不足；在树构造过程中进行剪枝；能够完成对连续属性的离散化处理；能够对不完整数据进行处理。C4.5算法有如下优点：产生的分类规则易于理解，准确率较高。其缺点是：在构造树的过程中，需要对数据集进行多次的顺序扫描和排序，因而导致算法的低效。7The k-means algorithm 即K-Means算法k-means algorithm算法是一个聚类算法，把n的对象根据他们的属性分为k个分割，k n。它与处理混合正态分布的最大期望算法很相似，因为他们都试图找到数据中自然聚

22、类的中心。它假设对象属性来自于空间向量，并且目标是使各个群组内部的均方误差总和最小。Support Vector Machines支持向量机，英文为Support Vector Machine，简称SV机（论文中一般简称SVM）。它是一种監督式學習的方法，它广泛的应用于统计分类以及回归分析中。支持向量机将向量映射到一个更高维的空间里，在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面。分隔超平面使两个平行超平面的距离最大化。假定平行超平面间的距离或差距越大，分类器的总误差越小。一个极好的指南是C.J.C Burges的模式识别支持向量机指南。van d

23、er Walt 和 Barnard 将支持向量机和其他分类器进行了比较。The Apriori algorithmApriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里，所有支持度大于最小支持度的项集称为频繁项集，简称频集。最大期望(EM)算法在统计计算中，最大期望（EM，ExpectationMaximization）算法是在概率（probabilistic）模型中寻找参数最大似然估计的算法，其中概率模型依赖于无法观测的隐藏变量（Latent Variabl）。最大期望经常用在机器学习和

24、计算机视觉的数据集聚（Data Clustering）领域。PageRankPageRank是Google算法的重要内容。2001年9月被授予美国专利，专利人是Google创始人之一拉里佩奇（Larry Page）。因此，PageRank里的page不是指网页，而是指佩奇，即这个等级方法是以佩奇来命名的。PageRank根据网站的外部链接和内部链接的数量和质量俩衡量网站的价值。PageRank背后的概念是，每个到页面的链接都是对该页面的一次投票，被链接的越多，就意味着被其他网站投票越多。这个就是所谓的“链接流行度”衡量多少人愿意将他们的网站和你的网站挂钩。PageRank这个概念引自学术中

25、一篇论文的被引述的频度即被别人引述的次数越多，一般判断这篇论文的权威性就越高。AdaBoostAdaboost是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器(弱分类器)，然后把这些弱分类器集合起来，构成一个更强的最终分类器 (强分类器)。其算法本身是通过改变数据分布来实现的，它根据每次训练集之中每个样本的分类是否正确，以及上次的总体分类的准确率，来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练，最后将每次训练得到的分类器最后融合起来，作为最后的决策分类器。kNN: k-nearest neighbor classificationK最近邻(k-Nearest

26、Neighbor，KNN)分类算法，是一个理论上比较成熟的方法，也是最简单的机器学习算法之一。该方法的思路是：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。Naive Bayes在众多的分类模型中，应用最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型（Naive Bayesian Model，NBC）。朴素贝叶斯模型发源于古典数学理论，有着坚实的数学基础，以及稳定的分类效率。同时，NBC模型所需估计的参数很少，对缺失数据不太敏感，算法也比较简单。理论上，NBC模型与其他分类方法相

27、比具有最小的误差率。但是实际上并非总是如此，这是因为NBC模型假设属性之间相互独立，这个假设在实际应用中往往是不成立的，这给NBC模型的正确分类带来了一定影响。在属性个数比较多或者属性之间相关性较大时，NBC模型的分类效率比不上决策树模型。而在属性相关性较小时，NBC模型的性能最为良好。CART: 分类与回归树CART, Classification and Regression Trees。在分类树下面有两个关键的思想。第一个是关于递归地划分自变量空间的想法；第二个想法是用验证数据进行剪枝。2.6具体应用：目前数据挖掘的应用领域包括以下八个方面：金融、医疗保健、市场业、零售业、制造业、

28、司法、工程和科学、保险业。在选择一种数据挖掘技术的时候，应根据问题的特点来决定采用哪种数据挖掘形式比较合适。应选择符合数据模型的算法，确定合适的模型和参数，只有选择好正确的数据挖掘工具，才能真正发挥数据挖掘的作用。目前研究热点主要有以下几个：网站的数据挖掘：随着Web技术的发展，各类电子商务网站风起云涌。电商网站想有效益，就必须吸引客户，增加能带来效益的客户忠诚度。电商业的竞争比传统的业务竞争更加激烈，原因有很多方面，其中一个因素是客户从一个电子商务网站转换到竞争对手那边，只需点击几下鼠标即可。网站的内容和层次、用词、标题、奖励方案、服务等任何一个地方都有可能成为吸引客户、同时也可能成为失去客

29、户的因素。而同时电子商务网站每天都可能有上百万次的在线交易，生成大量的记录文件（Log files）和登记表，如何对这些数据进行分析和挖掘，充分了解客户的喜好、购买模式，甚至是客户一时的冲动，设计出满足于不同客户群体需要的个性化网站，进而增加其竞争力，几乎变得势在必行。若想在竞争中生存进而获胜，就要比竞争对手更了解客户。在对网站进行数据挖掘时，所需要的数据主要来自于两个方面：一方面是客户的背景信息，此部分信息主要来自于客户的登记表；而另外一部分数据主要来自浏览者的点击流（Click-stream），此部分数据主要用于考察客户的行为表现。但有的时候，客户对自己的背景信息十分珍重，不肯把这部分信息

30、填写在登记表上，这就会给数据分析和挖掘带来不便。在这种情况之下，就不得不从浏览者的表现数据中来推测客户的背景信息，进而再加以利用。就分析和建立模型的技术和算法而言，网站的数据挖掘和原来的数据挖掘差别并不是特别大，很多方法和分析思想都可以运用。所不同的是网站的数据格式有很大一部分来自于点击流，和传统的数据库格式有区别。因而对电子商务网站进行数据挖掘所做的主要工作是数据准备。目前，有很多厂商正在致力于开发专门用于网站挖掘的软件。8生物信息或基因的数据挖掘：生物信息或基因数据挖掘则完全属于另外一个领域，在商业上很难讲有多大的价值，但对于人类却受益非浅。例如，基因的组合千变万化，得某种病的人的基因和正

31、常人的基因到底差别多大？能否找出其中不同的地方，进而对其不同之处加以改变，使之成为正常基因？这都需要数据挖掘技术的支持。对于生物信息或基因的数据挖掘和通常的数据挖掘相比，无论在数据的复杂程度、数据量还有分析和建立模型的算法而言，都要复杂得多。从分析算法上讲，更需要一些新的和好的算法。现在很多厂商正在致力于这方面的研究。但就技术和软件而言，还远没有达到成熟的地步。文本的数据挖掘：人们很关心的另外一个话题是文本数据挖掘。举个例子，在客户服务中心，把同客户的谈话转化为文本数据，再对这些数据进行挖掘，进而了解客户对服务的满意程度和客户的需求以及客户之间的相互关系等信息。从这个例子可以看出，无论是在数据结构还是在分析处理方法方面，文本数据挖掘和前面谈到的数据挖掘相差很大。文本数据挖掘并不是一件容易的事情，尤其是在分析方法方面，还有很多需要研究的专题。目前市场上有一些类似的软件，但大部分方法只是把文本移来移去，或简单地计算一下某些词汇的出现频率，并没有真正的分析功能。2.7未来发展：当前，数据挖掘研究正方兴未艾，预计在21世纪还会形成更大的高潮，研究焦点可能会集中到以下几个方面：形式化描述的语言，即研究专门用于知识发现的数据挖掘语言DMQL，类似SQL语言一样走向形式化和标准化；可视化的数据挖掘过程，寻求数据挖掘过程中的可视化方法，使知识发现的过程易于被用户理解

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？