(2)只能实现局部最优化
K-Means方法也有以下缺点
(1)Cluster的个数必须事先确定,在有些应用中,事先并不知道cluster的个数
(2)K个中心点必须事先预定,而对于有些字符属性,很难确定中心点(3)不能处理噪音数据(4)不能处理有些分布的数据(例如凹形)
孤立点:
和其它数据相当不同的对象集
孤立点检测方法:
:
基于统计的孤立点检测1)对给定的数据集合假设了一个分布或概率模型(例如一个正态分布)
2)使用不一致检验依靠:
基于距离的孤立点检测1)基于距离的孤立点:
DB(p,D),是指数据集T中的一个对象O,使得T中对象至少有p部分与对象O的距离大于D
基于距离孤立点的挖掘算法:
1)基于索引的算法2)嵌套-循环算法3)基于单元的算法
数据挖掘的步骤
1)数据准备a.数据选择:
目标数据b.数据预处理:
2)数据挖掘
3)结果的解释评估
为什么要预处理数据
1)现实世界的数据是“肮脏的”
2)不完整的:
有些感兴趣的属性缺少属性值
3)含噪声的:
包含错误的,或者孤立点
3)不一致的:
在编码或者命名上存在差异
数据预处理的主要任务1)数据清理2)数据集成3)数据变换4)数据归约5)数据离散化
如何处理空缺值
1)忽略元组:
当类标号缺少时通常会这么做
2)人工填写空缺值:
工作量大,可行性低
3)使用一个全局变量填充空缺值:
如unknown,N/A
4)使用属性的平均值填充空缺值
5)使用与给定元组属同一类的所有样本的平均值
6)使用最可能的值填充空缺值:
使用像Bayesian公式或判定树这样的基于推断的方法
如何处理噪声数据
•分箱(Binning)
•首先排序,并将他们分到等深的箱中
•然后可以按箱的平均值平滑,按箱中值平滑,按箱的边界平滑等
•聚类
•检测并且去除孤立点
•计算机和人工检查结合
•计算机检测可疑数据,然后对他们进行人工判断
•回归
•通过让数据适应回归函数来平滑数据
数据归约策略1)数据立方体聚集:
聚集操作用于数据立方体中的数据。
2)维归约:
通过删除不相关的属性(或)维减少数据量。
通常使用属性子集选择方法。
3)数据压缩4)数值归约5)离散化和概念分层产生
•用于数据归约的时间不应当超过或抵消归约后的数据上挖掘节省的时间
•维归约启发式的方法
•属性子集选择方法包括以下技术:
1)逐步向前选择:
由空属性集开始,每次都选择原属性集中最好的属性,将其添加到集合中。
2)逐步向后删除:
由整个属性集开始,在每一步,删除掉尚在属性集中的最坏属性。
3)向前选择和向后删除的结合:
每一步选择一个最好的属性,并在剩余属性中删除一个最坏的属性。
4)判定树归纳:
用判定树算法选择“最好”的属性,将数据划分成类。
数据数值的离散化和概念分层生成
•分箱(Binning)
•分箱技术递归的用于结果划分,可以产生概念分层
•Top-downsplit,unsupervised,
•直方图分析
•直方图分析方法递归用于每一部分,可以自动的产生多级概念分层
•Top-downsplit,unsupervised
•聚类分析
•将数据划分成簇,每个簇形成同一个概念层上的一个节点,每个簇可再分成多个簇,形成子节点
•Eithertop-downsplitorbottom-upmerge,unsupervised
•基于熵的离散化
•supervised,top-downsplit
•通过自然划分分段
•top-downsplit,unsupervised
信息检索
从非结构化的文档集中找出与用户需求相关的信息
•信息检索的分类,
•从信息规模上分类
1.个人信息检索
2.企业级信息检索
3.Web信息检索
SEO-SearchEngineOptimization
目的:
增加特定关键字的曝光率以增加网站的能见度,进而增加销售的机会
对网页进行相关的优化,使其提高搜索引擎排名,从而提高网站访问量,最终提升网站的销售能力或宣传能力
信息检索为什么会出现:
市场发展的需求,应用需求
信息检索的重要性:
1.信息检索技术是内容应用特别是互联网内容应用的核心技术
2.信息检索将会成为一门计算机专业的基础学科搜索的三个层次
1)应用层次:
搜索是一项非常重要的应用
2)中间层次:
搜索是极其重要的API
3)核心层次:
搜索是未来操作系统的重要组成部分
信息检索和数据库检索
IR系统的体系结构
IR系统的组成部分
•用户接口(UserInterface):
用户和IR系统的人机接口
•输入查询(Query)
•返回排序后的结果文档(RankedDocs)并对其进行可视化
•支持用户进行相关反馈(Feedback)
•用户的两种任务:
retrieval或者browsing
•IR的两种模式:
•Pull:
用户是主动的发起请求,在一个相对稳定的数据集合上进行查询
•Push:
用户事先定义自己的兴趣,系统在不断到来的流动数据上进行操作,将满足用户兴趣的数据推送给用户
•文本处理(TextOperations):
对查询和文本进行的预处理操作
•中文分词(ChineseWordSegmentation)
•词干还原(Stemming)
•停用词消除(Stopwordremoval)
•查询处理(Queryoperations):
对经过文本处理后的查询进行进一步处理,得到查询的内部表示(QueryRepresentation)
•查询扩展(QueryExpansion):
利用同义词或者近义词对查询进行扩展
•查询重构(QueryReconstruction):
利用用户的相关反馈信息对查询进行修改
•文本标引(Indexing):
对经过文本处理后的文本进行进一步处理,得到文本的内部表示(TextRepresentation),通常基于标引项(Term)来表示
•搜索(Searching):
从文本中查找包含查询中标引项的文本
•排序(Ranking):
对搜索出的文本按照某种方式来计算其相关度
•LogicalView:
指的是查询或者文本的表示,通常采用一些关键词或者标引项(indexterm)来表示一段查询或者文本。
数学建模:
当需要从定量的角度分析和研究一个实际问题时,人们就要在深入调查研究、了解对象信息、作出简化假设、分析内在规律等工作的基础上,用数学的符号和语言,把它表述为数学式子,也就是数学模型,然后用通过计算得到的模型结果来解释实际问题,并接受实际的检验。
这个建立数学模型的全过程就称为数学建模。
信息检索模型1)布尔模型2)向量空间模型3)概率模型4)统计模型
布尔模型描述
1.文档表示,一个文档被表示为关键词的集合
2.查询式表示,查询式(Queries)被表示为关键词的布尔组合,用“与、或、非”连接起来,并用括弧指示优先次序
3.匹配
•一个文档当且仅当它能够满足布尔查询式时,才将其检索出来
•检索策略基于二值判定标准
•优点:
•布尔模型是最常用的检索模型,因为:
•由于查询简单,因此容易理解
•通过使用复杂的布尔表达式,可以很方便地控制查询结果
•相当有效的实现方法
•经过某种训练的用户可以容易地写出布尔查询式
•布尔模型可以通过扩展来包含排序的功能
•不足:
•功能弱,不支持部分匹配,导致太多或者太少的结果文档被返回
•很难控制被检索的文档数量,所有被匹配的文档都将被返回
•很难对输出进行排序
•很难进行自动的相关反馈
向量空间模型
•文档D(Document):
泛指文档或文档中的一个片段
•索引项t(Term):
指出现在文档中能够代表文档性质的基本语言单位(如字、词等),也就是通常所指的检索词.
•特征项权重Wk(TermWeight):
指特征项tn能够代表文档D能力的大小,体现了特征项在文档中的重要程度。
•相似度S(Similarity):
指两个文档内容相关程度的大小
特点:
•基于关键词
•根据关键词的出现频率计算相似度
•用户规定一个词项(term)集合,可以给每个词项附加权重
•根据相似度对输出结果进行排序
•支持自动的相关反馈,有用的词项被添加到原始的查询式中
词项的权重
根据词项在文档(tf)和文档集(idf)中的频率(frequency)计算词项的权重
•tfij=词项j在文档i中的频率
•dfj=词项j的文档频率=包含词项j的文档数量
•idfj=词项j的反文档频率=log2(N/dfj)
•N:
文档集中文档总数
•反文档频率用词项区别文档
查询式的词项权重
1.如果词项出现在查询式中,则该词项在查询式中的权重为1,否则为0;也可以用用户指定查询式中词项的权重
2.一个自然语言查询式可以被看成一个文档
索引项的选择:
若干独立的词项被选作索引项,这些索引项是不相关的(或者说是正交的),形成一个向量空间vectorspace
由索引项构成向量空间
n个索引项构成n维空间.一个文档或查询式可以表示为n个元素的线性组合
文档集–一般表示
向量空间中的N个文档可以用一个矩阵表示
•矩阵中的一个元素对应于文档中一个词项的权重。
“0”意味着该词项在文档中没有意义,或该词项不在文档中出现
•T1T2….Tt
•D1d11d12…d1t
•D2d21d22…d2t
•:
:
:
:
•:
:
:
:
•Dndn1dn2…dnt
相似度计算
相似度是一个函数,它给出两个向量之间的相似程度,查询式和文档都是向量;
相似度度量
内积
文档D和查询式Q可以通过内积进行计算:
•sim(D,Q)=
(dikqk)
•dik是文档di中的词项k的权重,qk是查询式Q中词项k的权重
•对于二值向量,内积是查询式中的词项和文档中的词项相互匹配的数量
•对于加权向量,内积是查询式和文档中相互匹配的词项的权重乘积之和
内积的特点
•内积值没有界限
•对长文档有利
•内积用于衡量有多少词项匹配成功,而不计算有多少词项匹配失败
•长文档包含大量独立词项,每个词项均多次出现,因此一般而言,和查询式中的词项匹配成功的可能性就会比短文档大。
余弦(Cosine)相似度度量
•余弦相似度计算两个向量的夹角
•余弦相似度是利用向量长度对内积进行归一化的结果
CosSim(Di,Q)=
优点
•术语权重的算法提高了检索的性能
•部分匹配的策略使得检索的结果文档集更接近用户的检索需求
•可以根据结果文档对于查询串的相关度通过CosineRanking等公式对结果文档进行排序
不足
•标引词之间被认为是相互独立
•随着Web页面信息量的增大、Web格式的多样化,这种方法查询的结果往往会与用户真实的需求相差甚远,而且产生的无用信息量会非常大
•隐含语义索引模型是向量空间模型的延伸
统计语言模型
简单语言模型
•以概率及统计学为基础的一种模型
•首先为每个文档估计一个语言模型,然后基于语言模型根据查询的结果排序
•基于语言模型的IR模型的概念
•文档语言模型
•每个文档对应一个统计语言模型,称为文档的语言模型
•它主要描述了该文档中各个单词的统计分布特征。
•因此每个文档看作是由其语言模型抽样产生的一个样本。
•基于文档语言模型计算查询式的出现概率
•一个查询式也可以看作是由文档的语言模型抽样产生的一个样本。
•因此可以根据每个文档的语言模型抽样生成检索的概率来对其排序,其概率值越大,则该文档就越满足该检索要求。
概率模型
优点
文档可以按照他们相关概率递减的顺序来排序。
缺点
a)开始时需要猜想把文档分为相关和不相关的两个集合,一般来说很难
b)实际上这种模型没有考虑索引术语在文档中的频率(因为所有的权重都是二值的)
c)假设标引词独立
统计模型和传统概率模型的比较
•基本思想完全不同
•传统的信息检索概率模型
•相关度排序函数定义虽然比较直观,但相关性是一个抽象的概念,该定义本身没有也无法具体给出R的定义,所以该模型在理论上存在很大的模糊性。
•基于语言模型的检索模型
•建立在统计语言模型理论基础上,定义明确,便于操作。
•具体实施方法不同
•传统的概率模型
•在检索中,先给定带有相关性标记的文档作为建立模型的基础,要针对每个检索给定学习数据。
•基于语言模型的信息检索模型
•基于每个文档直接计算出相关度排序函数
文本处理主要方法
•词法分析
•分词(中文),断词(英文)
•异文合并
•繁简转换
•形态还原stemming
•提取词干
•其他
•停用词过滤
•FrequencycountsandcomputingTF-IDFterm
词法分析(LexicalAnalysis)
•将文档的字符串序列变成词序列
•英文词法分析:
书写时英文词之间通常通过空格或者标点进行区分,因此从英文字符串变成英文词是相对比较容易的。
•中文词法分析:
书写时通常没有空格,需要分词。
中文词法分析-分词
•中文分词是很多中文文本处理的第一步
•分词方法
•基于词典的方法:
给出一部词典,根据这部词典进行匹配
•无词典的方法:
不需要词典,根据某种人工构词规则或者统计规则从字生成词。
中文词法分析-困难
•未登录词问题(OutofVocabulary,OOV):
出现词典中没有的词,
•歧义问题(Ambiguition):
同一句子有多种可能的分词结果
解决歧义和未登录词识别的基本方法:
•规则方法:
分词过程中或者分词结束后根据规则进行处理;
•统计方法:
分词过程中或者分词结束后根据统计训练信息进行处理。
•规则+统计
异文合并方法之一:
查表
•创建一个term和stem的对应表
•表可以被索引起来,以便加快查找速度
•创建这样的表很困难
•存储空间的开销较大
异文合并方法之二:
词缀删除
•词缀删除算法将term的前缀和/或后缀删除,留下词干
•大多数算法删除后缀,例如:
-SES,-ATION,-ING等等
•最长匹配
•从词中删除最长匹配的后缀:
•迭代式最长匹配
•重复最长匹配的过程:
•WILLINGNESS-->删除NESS-->删除ING
异文合并方法之三:
后继变化数
•基于对文本集合的统计分析
•给定一个足够大的语料库,可以通过统计的方法获得词干
•这种方法是自动的,和语言关联性不大的
•后继变化数的定义:
•语料库中跟在某个字符串后的不同字符的数
•汉字简繁转换
•从简体中文到繁体中文(或繁体中文到简体中文)的自动转换过程,被称作C2C(汉字简繁)转换,这一转换可以按照下面简要描述的三个递增的级别来实现
•码对转换:
转换的失败率很高
•字对转换:
被转化的是有意义的语言单位,特别是多字词
•词对转换:
这种汉字简繁转换不是按照拼写,而是按照语义进行的。
例如,简体中的“信息”转换成繁体语义对应词时,就变成了“资讯”
停用词处理--文本词频分布
文本的特点
•有些词在文本中出现的频率非常高,而且对文本所携带的信息基本不产生影响
•文本经过词法分析之后,停用词通常被过滤掉,不参加文件的索引。
•在检索的时候,用户的查询中如果含有停用词,检索系统同样也将其过滤掉
消除停用词对IR的影响
•好处:
•停用词在文本中占的比重很大,排除停用词可以极大地节省索引文件的磁盘空间
•有的检索系统中,这种空间的节省甚至能达到40%以上,目前的检索系统,基本都使用过滤停用词