ImageVerifierCode 换一换
格式:DOCX , 页数:41 ,大小:93.79KB ,
资源ID:28640724      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/28640724.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(Web挖掘技术.docx)为本站会员(b****8)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

Web挖掘技术.docx

1、Web挖掘技术Web挖掘技术 田文颖一、数据挖掘数据挖掘是运用计算机及信息技术,从大量的、不完全的数据集中获取隐含在其中的有用知识的高级过程。Web 数据挖掘是从数据挖掘发展而来,是数据挖掘技术在Web 技术中的应用。Web 数据挖掘是一项综合技术,通过从Internet 上的资源中抽取信息来提高Web 技术的利用效率,也就是从Web 文档结构和试用的集合中发现隐含的模式。数据挖掘涉及的学科领域和方法很多,有多种分类法。(1)根据挖掘对象分:关系数据库、面向对象数据库、空间数据库、时序数据库、DNA 数据库、多媒体数据库、异质数据库、遗产数据库以及Web数据库等;(2)根据挖掘方法分:机器学习

2、方法、统计方法、神经网络方法和数据库方法等;a. 机器学习方法可细分为:归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法等。b.统计方法可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)等。c. 神经网络方法可细分为:前向神经网络(BP 算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。(3)根据开采任务分:可分为关联规则、分类、聚类、时间序列预测模型发现和时序模式发现等。a.关联规则:典型的关联规则发现算法是Apriori算法,该算法也称广度优先算法,是A.Ag

3、rawal和R.Srikandt于1994年提出的,它是目前除AIS 算法、面向SQL的SETM 算法外几乎所有频繁项集发现算法的核心,其基本思想是:如果一个项集不是频繁集,则其父集也不是频繁集,由此大大地减少了需要验证的项集的数目,在实际运行中它明显优于AIS 算法。Apriori算法是关联规则挖掘中最具有影响的一种算法.所谓关联规则就是从事务数据库、关系数据库和其他数据存储中的大量数据的项集之间发现有趣的、频繁出现的模式、关联和相关性.关联规则可以分为两步:.2)由频繁项集产生相关联规则:这些规则必须满足最小支持度和最小置信度.b.分类规则:数据挖掘的一个重要任务是对海量数据进行分类。数据

4、分类是基于一组数据的某些属性的值进行的。数据分类的方法很多,包括决策树方法、统计学方法、神经网络方法、最近邻居方法等等。其中,基于决策树的分类方法与其它的分类方法比较起来,具有速度较快、较容易转换成简单的并且易于被理解的分类规则、较易转换成数据库查询语言、友善、可得到更高的准确度等优点。c.数据聚类:其基本思想是:对数据进行分析的过程中,在考虑数据间的“距离”的同时,更侧重考虑某些数据间具有类的共同内涵。数据聚类是对一组数据进行分组,这种分组基于如下的原理:最大的组内相似性与最小的组间相似性。d. 时序模式:可用如下的例子描述时序模式:一个顾客先租看影片“Star Wars”,然后租“Empi

5、re Strikes Back”,再租“Return of the Judi”,注意到这些租借事物的发生不一定是连着的。像这样一次事件的发生会导致某些事物的相继发生的事件模式,称为时序模式。e.相似模式:时态或空间时态的大量数据存在于计算机中,这些数据库例子包括:股票价格指数的金融数据库、医疗数据库、多媒体数据库等等。在时态或空间时态数据库中搜索相似模式的目的是发现和预测风险、因果关系及关联于特定模式的趋势。 二、Web挖掘Web 站点上的数据有其自身的特点,主要的可以归纳为以下几点:1 、数据量巨大,动态性极强;2、 异构数据库环境;3 、半结构化的数据结构。Web 数据挖掘可以分为Web

6、内容挖掘,Web结构挖掘,Web 使用挖掘三类。Web 内容挖掘是从文档内容或其描述中抽取有用信息的过程,Web 内容挖掘有两种策略:直接挖掘文档的内容和在其他工具搜索的基础上进行改进。采用第一种策略的有针对Web 的查询语言WebLOG,利用启发式规则来寻找个人主页信息的AHOY 等。采用第二种策略的方法主要是对搜索引擎的查询结果进行进一步的处理, 得到更为精确和有用的信息。属于该类的有WebSQL ,及对搜索引擎的返回结果进行聚类的技术等。根据挖掘处理的数据可以将Web 内容挖掘分为文本挖掘和多媒体挖掘两个部分。Web 结构挖掘是从Web 组织结构和链接关系中推导知识。挖掘页面的结构和We

7、b 结构,可以用来指导对页面进行分类和聚类,找到权威页面、中心页面,从而提高检索的性能。同时还可以用来指导页面采集工作,提高采集效率。Web 结构挖掘可以分为Web 文档内部结构挖掘和文档间的超链接结构挖掘。这方面的代表有Page Rank和CLEVER,此外,在多层次Web数据仓库( MLDB ) 中也利用了页面的链接结构。Web 使用挖掘是从服务器端记录的用户访问日志或从用户的浏览信息中抽取感兴趣的模式,通过分析这些数据可以帮助理解用户隐藏在数据中的行为模式,做出预测性分析,从而改进站点的结构或为用户提供个性化的服务。Web 挖掘相关技术:数据挖掘方法通常可以分为两类: 一类是建立在统计模

8、型的基础上, 采用的技术有决策树、分类、聚类、关联规则等; 另一类是建立一种以机器学习为主的人工智能模型,采用的方法有神经网络、自然法则计算方法等。Web 内容挖掘:1、Web 文本挖掘Web 文本挖掘可以对Web 上的大量文档的集合的内容进行总结、分类、聚类、关联分析,以及利用Web 文档进行趋势预测。在Internet 上的文本数据一般是一组html 格式的文档集,要将这些文档转化成一种类似关系数据库中记录的规整且能反映文档内容特征的表示,一般采用文档特征向量,但目前所采用的文档表示方法中,都存在一个弊端就是文档特征向量具有非常大的维数,使得特征子集的选取成为Internet 上文本数据挖

9、掘过程中的必不可少的一个环节。在完成文档特征向量维数的缩减后,便可利用数据挖掘的各种方法,如分类、聚类、关联分析等来提取面向特定应用的知识模式,最后对挖掘结果进行评价,若评价结果满足一定的要求则输出,否则返回到以前的某个环节,分析改进后进行新一轮的挖掘工作。关联规则模式数据描述型模式, 发现关联规则的算法属于无监督学习的方法。发现关联规则通常要经过以下3个步骤: 连接数据, 做数据准备; 给定最小支持度和最小可信度, 利用数据挖掘工具提供的算法发现关联规则; 可视化显示、理解、评估关联规则。目前 Web 内容挖掘研究主要集中在基于文本内容的检索、信息过滤的提炼、重复数据消除、数据模式抽取、中间

10、形式表示、异构集成、文本分类和聚类、文档总结和结构提取、数据仓库及OLAP等几个方面,尤其是基于XML的上述专题研究。对分类挖掘而言,在预处理阶段要做的事情就是把这个Web页面集合文本信息转化成一个二维的数据库表,其中每一列是一个特征,每一行为一个Web页面的特征集合。在文本学习中常用的方法是TF工DF向量表示法,它是一种文档的词集(bag-of-words)表示法,所有的词从文档中抽取出来,而不考虑词间的次序和文本的结构。构造这种二维表的方法是:每一列为一个词,列集(特征集)为辞典中的所有有区分价值的词,所以整个列集可能有几十万列之多。每一行存储一个页面内词的信息,这时,该页面中的所有词对应

11、到列集(特征集)上。列集中的每一个列(词),如果在该页面中不出现,则其值为0;如果出现k次.那么其值就为k。这样就可以表征出页面中词的频度。这样构造的二维表表示的是Web页面集合的词的统计信息,最终就可以采用Naive Bayesian方法或k-Nearest Neighbor方法进行分类挖掘。WebSQL 是一个用于Web 页重构的查询语言,利用Web 文档的图树表示形式,可从在线的文档站点或导游指南中获取信息。而Ahoy则利用像搜索引擎一类的互联网服务来获取与个人有关的服务,利用试探法识别文档中显示该文档作为个人主页的句法特征。分词目前已有很多分词算法,如:正向最大匹配法(MM)、逆向最大

12、匹配法(RMM)、逐词遍历匹配法、设立切分标志法、正向最佳匹配法和逆向最佳匹配法等。近几年又提出了很多新的方法旨在提高分词的精度和分词的速度,如:生成测试法通过词法ATN和语义ATN之间的相互作用来进行歧分决策,以提高分词的精确性;改进的MM分词算法采用正向增字最大匹配法和跳跃匹配法,结合词尾语义检查和归右原则以消除类型歧义;基于神经网络的分词方法尝试利用神经网络来处理歧分问题,但同时又引入一个问题:训练样本的选取,由于自然语言的复杂性,如何选取训练样本还需要作深入的研究;结合直接匹配算法、后缀分词算法和词表结构支持首字Hash的方法,局部提高了速度,但不能进行标准的二分查找;支持首字Hash

13、的近邻匹配算法利用最大增字匹配算法,并支持首字Hash和标准二分查找以提高分词速度。分词的基本算法有: (1)基于词典与规则匹配法。基于词典与规则的方法应用词典匹配, 汉语词法或其它汉语语言知识进行分词, 这类方法简单、分词效率较高,但对词典的完备性、规则的一致性等要求比较高。匹配策略有: 最大匹配法、最小匹配法、逆向匹配法、增字或减字匹配法、双向扫描法。(2)标志法。如切分标志法、统计标引法。(3)词频统计法。基于统计的分词方法将汉语基于字和词的统计信息, 完备性较差。(4)语义语用法。如后缀分词法。目前使用最多的是基于词库的分词方法。由于中文在分词时可能产生二义性, 如“计算机器”可分成“

14、计算”“/ 机器”和“计算机”“/ 器”, 这样必须结合其它分分词方法, 如基于语法规则的分词法、基于朴素贝叶斯分词法等。在具体的分词过程中, 我们还可以将单词变型归并, 像同义词、近义词可进行归并, 如“因特网”和“万维网”可当成一个词条处理。语义Web 是下一代的Web 技术,它赋予Web 以计算机可理解的语义信息。在语义Web技术中,本体起着重要的作用。本体是人们对领域知识达成的共识,是对领域的形式化与结构化的描述。本项目针对语义Web 目前存在的问题,应用语义Web 技术,信息集成和信息管理的若干关键技术,从多个方面对语义Web 进行研究。(1)语义信息集成。对本体的语义标注和本体集成

15、方法进行研究,利用基于本体的语义标注和本体映射技术从异构的资源中抽取出有用信息,并通过映射方法集成多种信息源的的信息。(2)语义查询。实现语义信息的多种查询方式,包括:本体的可视化导航查询,针对概念/实例/属性的查询,基于全文检索技术的查询,语义关系的查询。(3)语义信息挖掘。语义信息的挖掘一直处在一个很浅层的阶段,目前的多数研究一直处在传统的文本信息挖掘。本项目的研究主要从本体实例聚类、本体分类,本体关联规则挖掘以及本体中关键词的抽取。这些技术是语义Web 的应用的基础,他们可以用来分析语义信息的趋势,语义数据的自动处理等。(4)语义Web Service。通过系统定义的软件本体对Web S

16、ervice 进行描述,从而实现WebService 的评估、组装等功能。(5)基于Peer to Peer 的语义信息管理。这个问题的核心思想是要通过集成已有的Peer to Peer框架实现语义挖掘平台在P2P 环境下的应用。(6)算法解释。利用定义的基础数据结构对上述算法的执行过程进行log,从而轻松的实现用户-算法及开发-算法之间的交互。提供针对算法本身的更友好的接口。 2 、Web 多媒体挖掘Web 多媒体挖掘与Web 文本挖掘的不同点就在于需要提取的特征不同。Web 多媒体挖掘需要提取的特征一般包括图像或视频的文件名URL 、类型、键值表、颜色向量等。然后可以对这些特征进行挖掘工作

17、。如关联分析发现类似“如果图像是大而且与关键词草原有关,那么它是绿色的概率是0. 8”的关联规则。当然也可以对多媒体进行分类、聚类等操作。多媒体数据挖掘的方法主要有:多媒体数据中的相似搜索,主要有两种多媒体标引和检索技术:基于描述的检索系统和基于内容的检索系统;多媒体数据的多维分析,可以按传统的从关系数据中构造数据立方体的方法,设计和构造多媒体数据立方体;分类和预测分析,主要应用于天文学、地震学和地理科学的研究,决策树分类是最常用的方法;多媒体数据的关联规则挖掘,关联规则的挖掘主要包括以下三类规则:图像内容和非图像内容之间的关联、与空间关系无关的图像内容的关联、与空间关系有关的图像内容的关联。

18、 3、特征提取经典的文本表示模型是向量空间模型(VSMVector Space Model),由Salton 等人于60 年代末提出,并成功地应用于著名的SMART 文本检索系统。向量空间模型对文本进行简化表示,认为特征之间是相互独立的而忽略其依赖性,将文档内容用它所包含的特征词来表示:D=(t1,t2,tN),其中tk 是文档D 的第k 个特征词,1 k N 。两个文档D1 和D2 之间内容的相似程度Sim(D1,D2)通过计算向量之间的相似性来度量。最常用的相似性度量方式是余弦距离。除了向量空间模型之外,Stephen Robertson 和Spark Jones 等人提出的概率模型得到了

19、人们的广泛认可。该模型综合考虑了词频、文档频率和文档长度等因素,把文档和用户兴趣(查询)按照一定的概率关系融合,形成了著名的OKAPI 公式。该模型在信息检索领域取得了成功。降维就是自动从原始特征空间中提取出部分特征的过程,一般通过两种途径:一是根据对样本集的统计信息删除不包含任何信息的特征;二是将若干低级的特征合成一个新特征。目前关于特征提取的方法很多,如文档频率法(DF)、信息增益(IG)、互关联信息(MI)、 x2 统计法(CHI)、特征增强(TS)等。DF是指包含某一特征的文档数,TS 法通过统计特征在一组相近文档中出现的频率来估计特征的重要性,然而,人们在实际应用中发现,某些DF值或

20、TS值很低的特征反而是信息相关的,不能从特征空间中删去,因此这两种方法在某些情况下不可靠,MI的弱点是受特征的边缘概率的影响很大,CHI和IG的使用效果较好。一般用的评估函数有几率比(Odds ratio) 、信息增益( Information Gain) 、期望交叉熵( Expected CrossEntropy) 、互信息( Mutual Information) 、词频( WordFrequency) 等。(1)IG(Information Gain):即信息赢取。IG值代表了特征在训练集上的分布情况,它通过统计特征在各个类别中的出现次数来计算,公式如下:其中 t 代表特征 ,ci代表第

21、i个类别,m为类别个数,只Pr (cI)代表类别cI的概率,Pr (cI|i) 代表在包含特征t的条件下类别ci的概率,Pr (cI|-t) 代表在不包含特征t的条件下类别cI的概率,Pr(t) 代表特征t出 现 的 概率,Pr (-t) 代表特征t不出现的概率。IG值越高表示该特征在训练集中的类别上分布越集中。IG方法提取IG值较高的特征,其基本思想为分布越集中的特征越重要。(2) MI(Mutual Information):即互信息值,它通过计算特征t和类别c间 的相关性来完成提取。计算公式为: 为方便计算,简化为: 其中N为训练集中包含的文本总数,A为t与c同时出现的次数,B为t出现而

22、c不出现的次数,C为c出现而t不出现的次数。通过该公式就可以取得特征与各类别间的互信息值。为了能取得特征在数据集上的整体评价,有以下两种计算方法: 前 者代表 了 特 征 和 各类别的平均互信息值,后者则取特征与各类别互 信 息 值中的最大值。MI方法提取互信息值较高的特征,其基本思想为与类别相关性越高的特征越重要。(3)CHI具有和MI方法基本相似的思想,同样通过计算特征t和类别c间的依赖程度来完成提取。但二者的计算细节不同,CHI作了更多地考虑 ,有种看法认为CHI是一种“正规化”了的MI。CHI的计算公式如下: 其中N为训练集中包含的文本总数,A为t与c同时出现的次数,B为t出现而c未出

23、现的次数,C为c出现而t未出现的次数,D为二者都未出现的次数。与MI相同,CHI也有平均值和最大值两种方法来取得特征的整体评价: CHI 方 法 的基本思想也是与类别关系越紧密的特征重要性越高。(4)DF (Document frequency):即文档频率,指训练集中包含该特征的文本总数。所谓文本包含特征是指这个特征在该文本中出现,忽略其在文本中的出现次数。DF方法提取DF值较高的特征,它的目的是去掉在训练集上出现次数过少的特征,保留出现达到一定次数、具有一定影响力的特征。在各个特征提取方法中,DF方法的计算是最简单的。(5)WEE(WeightEvidence):即文本证据权,其计算公式如

24、下: 其中,t是一个特征,m是类别的数量,ci代表第i个类别,代表类别ci的概率,Pr (cI|t)代表在包含特征t的条件下类别ci的概率,Pr(t)代表特征t出现的概率。 4、分类目前文本分类的方法很多,如多元回归模型、K-邻近方法、神经网络法、贝叶斯方法、决策树法、支持向量机等,这些方法基本上可以分为两类:统计分类方法和基于机器学习的分类方法。支持向量机(SVM)是统计学习理论领域近几年才提出的新知识,目前仍处于发展阶段,但就目前的应用而言,SVM在很多领域的运用效果都非常理想。网页自动分类是Web内容挖掘的主要研究内容之一,采用的主要技术是分本分类技术,这是因为文本是目前Web内容的主体

25、,并且对文本的处理较音频、视频的处理容易。文本分类首先要进行特征抽取。所谓特征是指一个词或词组。目前英文分类算法大多以单词为特征,在分词的时候利用空格和其它一些标点符号作为分隔符,从而抽取出文档中出现的所有特征,所有抽取出来的特征称为全特征集。特征抽取完毕后一般还要进行特征提取。特征提取是指从全特征集中提取一个子集的过程。提取出来的子集称为特征子集。根据John Pierre的理论,用来表示文本的特征理论上应具有如下特点;(1)数量上尽量少;(2)出 现频率适中;(3)冗余少;(4)噪音少;(5)与其所属类别语义相关;(6)含义尽量明确;从全特征集中提取特征子集时通常根据特征的权值进行取舍,权

26、值的计算方 法有多种,比如信息赢取(Information Gain),互信息(Mutual Information)等。特征提取后就可以用特征子集来表示文本,然后就可以构造用不同分类方法用来分类。常见的分类模型有:(1)K一 近邻模型,(2)Rocchio模型,(3)贝叶斯模型,(4)神经网络模型,(5)决策树模型。目前研究人员己经提出了许多文本分类方法,如向量空间法(VSM)、回归模型、K近邻法、贝叶斯概率方法、决策树、神经网络、在线学习、支持向量机等。在完成特征提取之后,我们就可以使用这些特征来表示一个文本。具体的表示方法因分类方法而异。每种分类模型都会采用自己的方法来表示一个文本,并将

27、这种表示方法纳入到自己的体系中去。所有的分类模型大体上都可分为训练和分类两个步骤。一般来说,训练例越多分类的准确度越有保证,但也并不是越多越好。(1) 基于TFIDF的Rocchio算法Rocchio 算法来源于向量空间模型理论,向量空间模型(Vector space model)的基本思想为采用向量来表示一个文本,之后的处理过程就可以转化为空间中向量的运算。基于TFIDF的Rocchio是这种思想的一种实现方法,其中文本以一个N维向量来表示,向量维数N即特征数,向量分量是特征的某种权重表示,该权值的计算方法称为TFIDF方法,步骤如下:通过 TFIDF方法首先将训练集中的文本表示为向量,然后

28、生成类别特征向量(即可以用来代表一个类别的向量)。类别特征向量取值为该类中所有文本向量的平均值。Rocchio算法训练的过程其实就是建立类别特征向量的过程。分类的时候,给定一个未知文本,先生成该文本的向量,然后计算该向量与各类别特征向量的相似度,最后将该文本分到与其最相似的类别中去。向量的相似度度量方法有两种:(以x,y代表向量,xi,yi代表向量分量):总体来看 ,Rocchio算法简单易行,运行速度尤其是分类速度较快。(2) 朴素贝叶斯模型贝叶斯分类是一种统计学分类方法,它基于贝叶斯定理,可以用来预测类成员关系的可能性,给出文本属于某特定类别的概率。分类时根据预测结果将该样木分到概率最高的

29、类别中去即可。假定有m个类c1,c2,c3Cm,给定未知文本X,贝叶斯分类将给出条件X下具有最高后验概率的类别,即最大化P(Ci|X)根据贝叶斯定理可得:显而易见,P(X)对于所有类是个常数,则只需最大化P(X|Ci )P(Ci)即可。P(ci)可以根据训练集中的类别分布来计算,即 ,其中|Ci|为类别Ci包含的文本数,|D|为训练集中的文本总数。在一个具有许多属性的事例中,计算P(X|Ci)的开销会非常大,为了降低这种开销而引出了称为类条件独立的朴素假定:假定文档的一个属性对于分类的影响独立于其他属性,即文档的属性之间是不相关的。这就是朴素贝叶斯(Nave Bayes)的由来。这样就可以简单

30、的以各个属性在类别Ci上出现的概率来推算P(X|Ci)。通常使用拉普拉斯估计(Laplacean prior)来推算。又因实现细节的不同有两种朴素贝叶斯模型,多元模型(Multi-variate Bernoulli Model)只考虑了特征在文本中是否出现(出现记为1,否则记为。),多项式模型(Multinomial Model)考虑了特征在文本中的出现次数:朴素贝叶斯分类模型训练的过程其实就是统计每一个特征在各类中出现规律的过程。从理论上讲,贝叶斯分类的出错率最小,就试验结果来看,朴素贝叶斯在大型的数据集上表现出来难得的速度和准确度。(3) 决策树决策树(Decision Tree)是一个类

31、似于流程图的树结构,其中每个节点代表一个属性上的测试,每个分支代表一个测试输出,最后的叶结点代表类别。决策树方便改写为形如if-then的分类规则,易于理解。决策树的核心算法是一种贪心算法,它以自顶向下的方式在训练集的基础上构造决策树,之后取未知文本的属性在决策树上测试,路径由根结点到叶结点,从而得到该文本的所属类别。决策树的算法有C4.5(发展于ID3),CART,CHAID等,他们的区别在于构造决策树与树枝剪除的算法细节不同。决策树可以很好的抵抗噪声。最大的缺点在于不适应大规模的数据集,此种情况下决策树的构造会变得效率低下。(4) 神经网络神经网 (Neural Network)的学习结果

32、为目标函数,根据这个目标函数的输出作为分类的依据。输入即为文本在各个特征上的各分量值。神经网络实际上是一组连接的输入/输出单元,其中每一个连接都具有一定的权值。通过训练集来训练的过程就是调整这些权值的过程,使得神经网络可以正确的预测类别。神经网络的训练是针对训练例逐个进行的,所以神经网络的训练集可以随时添加,不需要重新进行训练就可完成网络的调整。同时有实验结果表明,在训练例过少的情况下,神经网络的分类准确率较低。因为可通过训练来针对特征取一定的合适的权值,神经网络可以较好地抵御噪音的干扰。(5) K近邻K近邻分类(K-nearest neighbor)的思想也来源于向量空间模型,同样采用将文本转化为向量的思想。KNN是一种基于类比的分类方法。在训练的过程中KNN会生成所有训练例的特征向量,并将其保存下来。给定一个未知文本,首先生成它的特征向量,之后KNN会搜索所有的训练例,通过向量相似度比较从中找出K个最接近的训练例,然后将未知文本分到这K个近邻中最普遍的类别中去。相似度可以通过欧几里德距离或向量间夹角来度量。根据经验x一般取45。KNN是一种懒散的方法,即它没有学习过程,只是存放所有的训练例,直到接到未知文本的时候才建

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1