web.docx - 冰豆网

资源描述

web.docx

《web.docx》由会员分享，可在线阅读，更多相关《web.docx（22页珍藏版）》请在冰豆网上搜索。

web.docx

web

数据挖掘从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

与之相似的概念称为知识发现。

知识发现是用数据库管理系统来存储数据，用机器学习的方法来分析数据，挖掘大量数据背后隐藏的知识，称为数据库中的知识发现。

数据挖掘功能或任务?

第一类是描述性挖掘任务：

刻划数据库中数据的一般特性；第二类是预测性挖掘任务：

在当前数据上进行推断，以进行预测。

数据挖掘的方法1监督学习2无监督学习3关联规则挖掘4序列模式挖掘

监督学习–分类是指把数据样本映射到一个事先定义的类中的学习过程，即给定一组输入的属性向量及其对应的类，用基于归纳的学习算法得出分类。

监督学习分为2个阶段:

1模型构造阶段A假定每个元组/样本都属于某个预定义的类，这些类由分类标号属性所定义B用来构造模型的元组/样本集被称为训练集（trainingset）C模型一般表示为：

分类规则,决策树或者数学公式

2模型使用阶段:

估计模型的准确性A用一些已知分类标号的测试集和由模型进行分类的结果进行比较B两个结果相同所占的比率称为准确率C测试集和训练集必须不相关

无监督学习--聚类（Clustering）是将物理或抽象的对象集合分成多个组的过程，聚类生成的组称为簇（Cluster），即簇是数据对象的集合。

聚类就是要让生成的簇内部的任意两个对象之间具有较高的相似度，而属于不同簇的两个对象间具有较高的相异度。

主要的数据挖掘聚类方法1划分的方法2层次的方法3基于密度的方法4基于网格的方法5基于模型的方法等

关联规则挖掘：

在交易数据、关系数据或其他信息载体中，查找存在于项目集合或对象集合之间的频繁模式、关联、相关性、或因果结构。

时序数据及序列模式挖掘时序数据库1由随时间变化的序列值或事件组成的数据库2数据在等时间间隔内记录3时间序列的特征组成:

趋势,循环,季节性,非规则

网络数据的特征1数据量大，并且仍然在不断增长.主题与内容2存在各种类型的数据3异构的信息内容相同，形式不同4绝大部分信息是相连接的网站内部：

信息组织方式网站之间隐含传递多种信息5噪音的存在，网页包含多个模块，对于特定任务只有一部分信息有用，本身没有信息质量的控制6提供服务7动态性网络.信息不断变化8虚拟社会.不仅是数据信息和服务，而且包含人、组织和系统之间的交互

Web挖掘的分类1Web结构挖掘2Web内容挖掘3Web使用挖掘

频繁项集项的集合称为项集（Itemset），包含k个项的项集称之为k-项集。

如果项集满足最小支持度，则它称之为频繁项集（FrequentItemset）。

关联规则在事务数据库中找出有用的关联规则，需要由用户确定两个阈值：

最小支持度（min_sup）和最小可信度（min_conf）.同时满足最小支持度（min_sup）和最小可信度（min_conf）的规则称之为关联规则，即

成立时，规则称之为关联规则，也可以称为强关联规则.

规则的支持度（support）规则AB在数据库D中具有支持度S，表示S是D中事务同时包含AB的百分比，它是概率P（AB），其中|D|表示事务数据库D的个数，表示A、B两个项集同时发生的事务个数。

规则的可信度（confidence）规则AB具有可信度C，表示C是包含A项集的同时也包含B项集，相对于包含A项集的百分比，这是条件概率P（B|A），其中

表示数据库中包含项集A的事务个数。

Apriori性质性质：

频繁项集的所有非空子集都必须也是频繁的。

A如果项集B不满足最小支持度阈值min-sup，则B不是频繁的，即P（B）

因此，BA也不是频繁的，

P（BA）

•关联规则挖掘的缺点：

A单一的支持度.即所有的规则必须满足同样的支持度

B非真性.某些数据的出现次数可能非常少,因为无法计算出它们的规则

解决稀有物品问题RareItemProblem:

降低最低支持度.但这会造成combinatorialexplosion.多最小支持度模型:

Eachitemcanhaveaminimumitemsupport

信息熵定义：

设r为信源X所有可能的符号数，p（ai）为信源发出ai的概率，则信源每发一个符号所提供的平均信息量即为信息熵。

•

（1）信息熵也称香农信息量，或称不确定度。

•

（2）信息熵可用来度量整个信源X整体的不确定性。

条件熵定义如果X与随机变量Y不是相互独立的，那么用条件熵H（X|Y）来度量收信者在收到随机变量Y之后，对随机变量X仍然存在的不确定性。

•

过学习的概念（过度拟合，Overfitting）对于一个假设，当存在其他的假设对训练样例的拟合比它差，但事实上在实例的整个分布上表现得却更好时，我们说这个假设过度拟合训练样例

导致过度拟合的原因：

1一种可能原因是训练样例含有随机错误或噪声2当训练数据没有噪声时，过度拟合也有可能发生，特别是当少量的样例被关联到叶子节点时，很可能出现巧合的规律性，使得一些属性恰巧可以很好地分割样例，但却与实际的目标函数并无关系。

分类的评价准则：

精确度：

代表测试集中被正确分类的数据样本所占的比例

查全率：

表示在本类样本中被正确分类的样本所占的比例

查准率：

表示被分类为该类的样本中，真正属于该类的样本所占的比例

朴素贝叶斯分类法.

每个数据样本用一个n维特征向量表示，描述由属性对样本的n个度量。

假定有m个类。

给定一个未知的数据样本X（即，没有类标号），分类法将预测X属于具有最高后验概率（条件X下）的类。

即，朴素贝叶斯分类将未知的样本分配给类Ci，当且仅当：

这样，我们最大化。

其最大的类Ci称为最大后验假定。

根据贝叶斯定理:

SVM方法的特点：

1非线性映射是SVM方法的理论基础,SVM利用内积核函数代替向高维空间的非线性映射;2对特征空间划分的最优超平面是SVM的目标,最大化分类边际的思想是SVM方法的核心;3支持向量是SVM的训练结果,在SVM分类决策中起决定作用的是支持向量。

近邻分类方法1近邻分类方法是基于实例的分类方法2不需要事先进行分类器的设计3直接使用训练集对未知类标号的数据样本进行分类4最近邻分类、k-近邻分类K-means算法：

给定一个数据集合X和一个整数K（n），K-Means方法是将X分成K个聚类，并使得每个聚类中所有值与该聚类中心的距离的总和最小。

K-meansalgorithm[1]给K个cluster选择最初的中心点，称为K个Means。

[2]计算每个对象和每个中心点之间的距离。

[3]把每个对象分配给距它最近的中心点所属的cluster。

[4]重新计算每个cluster的中心点。

[5]重复2，3，4步，直到算法收敛。

K-Means方法具有下面的优点

（1）对于处理大数据量具有可扩充性和高效率。

算法的复杂度是O（tkn），其中n是对象的个数，k是cluster的个数，t是循环的次数，通常k，t<

（2）只能实现局部最优化

K-Means方法也有以下缺点

（1）Cluster的个数必须事先确定，在有些应用中，事先并不知道cluster的个数

（2）K个中心点必须事先预定，而对于有些字符属性，很难确定中心点（3）不能处理噪音数据（4）不能处理有些分布的数据（例如凹形）

孤立点：

和其它数据相当不同的对象集

孤立点检测方法:

：

基于统计的孤立点检测1）对给定的数据集合假设了一个分布或概率模型（例如一个正态分布）

2）使用不一致检验依靠：

基于距离的孤立点检测1）基于距离的孤立点:

DB（p,D），是指数据集T中的一个对象O，使得T中对象至少有p部分与对象O的距离大于D

基于距离孤立点的挖掘算法：

1）基于索引的算法2）嵌套－循环算法3）基于单元的算法

数据挖掘的步骤

1）数据准备a.数据选择：

目标数据b.数据预处理：

2）数据挖掘

3）结果的解释评估

为什么要预处理数据

1）现实世界的数据是“肮脏的”

2）不完整的：

有些感兴趣的属性缺少属性值

3）含噪声的：

包含错误的，或者孤立点

3）不一致的：

在编码或者命名上存在差异

数据预处理的主要任务1）数据清理2）数据集成3）数据变换4）数据归约5）数据离散化

如何处理空缺值

1）忽略元组：

当类标号缺少时通常会这么做

2）人工填写空缺值：

工作量大，可行性低

3）使用一个全局变量填充空缺值：

如unknown,N/A

4）使用属性的平均值填充空缺值

5）使用与给定元组属同一类的所有样本的平均值

6）使用最可能的值填充空缺值：

使用像Bayesian公式或判定树这样的基于推断的方法

如何处理噪声数据

•分箱（Binning）

•首先排序，并将他们分到等深的箱中

•然后可以按箱的平均值平滑，按箱中值平滑，按箱的边界平滑等

•聚类

•检测并且去除孤立点

•计算机和人工检查结合

•计算机检测可疑数据，然后对他们进行人工判断

•回归

•通过让数据适应回归函数来平滑数据

数据归约策略1）数据立方体聚集：

聚集操作用于数据立方体中的数据。

2）维归约：

通过删除不相关的属性（或）维减少数据量。

通常使用属性子集选择方法。

3）数据压缩4）数值归约5）离散化和概念分层产生

•用于数据归约的时间不应当超过或抵消归约后的数据上挖掘节省的时间

•维归约启发式的方法

•属性子集选择方法包括以下技术：

1）逐步向前选择：

由空属性集开始，每次都选择原属性集中最好的属性，将其添加到集合中。

2）逐步向后删除：

由整个属性集开始，在每一步，删除掉尚在属性集中的最坏属性。

3）向前选择和向后删除的结合：

每一步选择一个最好的属性，并在剩余属性中删除一个最坏的属性。

4）判定树归纳：

用判定树算法选择“最好”的属性，将数据划分成类。

数据数值的离散化和概念分层生成

•分箱（Binning）

•分箱技术递归的用于结果划分，可以产生概念分层

•Top-downsplit,unsupervised,

•直方图分析

•直方图分析方法递归用于每一部分，可以自动的产生多级概念分层

•Top-downsplit,unsupervised

•聚类分析

•将数据划分成簇，每个簇形成同一个概念层上的一个节点，每个簇可再分成多个簇，形成子节点

•Eithertop-downsplitorbottom-upmerge,unsupervised

•基于熵的离散化

•supervised,top-downsplit

•通过自然划分分段

•top-downsplit,unsupervised

信息检索

从非结构化的文档集中找出与用户需求相关的信息

•信息检索的分类,

•从信息规模上分类

1.个人信息检索

2.企业级信息检索

3.Web信息检索

SEO-SearchEngineOptimization

目的：

增加特定关键字的曝光率以增加网站的能见度，进而增加销售的机会

对网页进行相关的优化，使其提高搜索引擎排名，从而提高网站访问量，最终提升网站的销售能力或宣传能力

信息检索为什么会出现:

市场发展的需求,应用需求

信息检索的重要性:

1.信息检索技术是内容应用特别是互联网内容应用的核心技术

2.信息检索将会成为一门计算机专业的基础学科搜索的三个层次

1）应用层次:

搜索是一项非常重要的应用

2）中间层次:

搜索是极其重要的API

3）核心层次:

搜索是未来操作系统的重要组成部分

信息检索和数据库检索

IR系统的体系结构

IR系统的组成部分

•用户接口（UserInterface）：

用户和IR系统的人机接口

•输入查询（Query）

•返回排序后的结果文档（RankedDocs）并对其进行可视化

•支持用户进行相关反馈（Feedback）

•用户的两种任务：

retrieval或者browsing

•IR的两种模式：

•Pull:

用户是主动的发起请求，在一个相对稳定的数据集合上进行查询

•Push:

用户事先定义自己的兴趣，系统在不断到来的流动数据上进行操作，将满足用户兴趣的数据推送给用户

•文本处理（TextOperations）：

对查询和文本进行的预处理操作

•中文分词（ChineseWordSegmentation）

•词干还原（Stemming）

•停用词消除（Stopwordremoval）

•查询处理（Queryoperations）：

对经过文本处理后的查询进行进一步处理，得到查询的内部表示（QueryRepresentation）

•查询扩展（QueryExpansion）：

利用同义词或者近义词对查询进行扩展

•查询重构（QueryReconstruction）：

利用用户的相关反馈信息对查询进行修改

•文本标引（Indexing）：

对经过文本处理后的文本进行进一步处理，得到文本的内部表示（TextRepresentation），通常基于标引项（Term）来表示

•搜索（Searching）：

从文本中查找包含查询中标引项的文本

•排序（Ranking）：

对搜索出的文本按照某种方式来计算其相关度

•LogicalView：

指的是查询或者文本的表示，通常采用一些关键词或者标引项（indexterm）来表示一段查询或者文本。

数学建模：

当需要从定量的角度分析和研究一个实际问题时，人们就要在深入调查研究、了解对象信息、作出简化假设、分析内在规律等工作的基础上，用数学的符号和语言，把它表述为数学式子，也就是数学模型，然后用通过计算得到的模型结果来解释实际问题，并接受实际的检验。

这个建立数学模型的全过程就称为数学建模。

信息检索模型1）布尔模型2）向量空间模型3）概率模型4）统计模型

布尔模型描述

1.文档表示,一个文档被表示为关键词的集合

2.查询式表示,查询式（Queries）被表示为关键词的布尔组合，用“与、或、非”连接起来，并用括弧指示优先次序

3.匹配

•一个文档当且仅当它能够满足布尔查询式时，才将其检索出来

•检索策略基于二值判定标准

•优点:

•布尔模型是最常用的检索模型，因为：

•由于查询简单，因此容易理解

•通过使用复杂的布尔表达式，可以很方便地控制查询结果

•相当有效的实现方法

•经过某种训练的用户可以容易地写出布尔查询式

•布尔模型可以通过扩展来包含排序的功能

•不足:

•功能弱，不支持部分匹配，导致太多或者太少的结果文档被返回

•很难控制被检索的文档数量，所有被匹配的文档都将被返回

•很难对输出进行排序

•很难进行自动的相关反馈

向量空间模型

•文档D（Document）：

泛指文档或文档中的一个片段

•索引项t（Term）：

指出现在文档中能够代表文档性质的基本语言单位（如字、词等），也就是通常所指的检索词.

•特征项权重Wk（TermWeight）：

指特征项tn能够代表文档D能力的大小，体现了特征项在文档中的重要程度。

•相似度S（Similarity）：

指两个文档内容相关程度的大小

特点:

•基于关键词

•根据关键词的出现频率计算相似度

•用户规定一个词项（term）集合，可以给每个词项附加权重

•根据相似度对输出结果进行排序

•支持自动的相关反馈,有用的词项被添加到原始的查询式中

词项的权重

根据词项在文档（tf）和文档集（idf）中的频率（frequency）计算词项的权重

•tfij=词项j在文档i中的频率

•dfj=词项j的文档频率=包含词项j的文档数量

•idfj=词项j的反文档频率=log2（N/dfj）

•N:

文档集中文档总数

•反文档频率用词项区别文档

查询式的词项权重

1.如果词项出现在查询式中，则该词项在查询式中的权重为1，否则为0;也可以用用户指定查询式中词项的权重

2.一个自然语言查询式可以被看成一个文档

索引项的选择:

若干独立的词项被选作索引项,这些索引项是不相关的（或者说是正交的），形成一个向量空间vectorspace

由索引项构成向量空间

n个索引项构成n维空间.一个文档或查询式可以表示为n个元素的线性组合

文档集–一般表示

向量空间中的N个文档可以用一个矩阵表示

•矩阵中的一个元素对应于文档中一个词项的权重。

“0”意味着该词项在文档中没有意义，或该词项不在文档中出现

•T1T2….Tt

•D1d11d12…d1t

•D2d21d22…d2t

•:

•Dndn1dn2…dnt

相似度计算

相似度是一个函数，它给出两个向量之间的相似程度，查询式和文档都是向量;

相似度度量

内积

文档D和查询式Q可以通过内积进行计算:

•sim（D,Q）=

（dikqk）

•dik是文档di中的词项k的权重，qk是查询式Q中词项k的权重

•对于二值向量,内积是查询式中的词项和文档中的词项相互匹配的数量

•对于加权向量,内积是查询式和文档中相互匹配的词项的权重乘积之和

内积的特点

•内积值没有界限

•对长文档有利

•内积用于衡量有多少词项匹配成功，而不计算有多少词项匹配失败

•长文档包含大量独立词项，每个词项均多次出现，因此一般而言，和查询式中的词项匹配成功的可能性就会比短文档大。

余弦（Cosine）相似度度量

•余弦相似度计算两个向量的夹角

•余弦相似度是利用向量长度对内积进行归一化的结果

CosSim（Di,Q）=

优点

•术语权重的算法提高了检索的性能

•部分匹配的策略使得检索的结果文档集更接近用户的检索需求

•可以根据结果文档对于查询串的相关度通过CosineRanking等公式对结果文档进行排序

不足

•标引词之间被认为是相互独立

•随着Web页面信息量的增大、Web格式的多样化，这种方法查询的结果往往会与用户真实的需求相差甚远，而且产生的无用信息量会非常大

•隐含语义索引模型是向量空间模型的延伸

统计语言模型

简单语言模型

•以概率及统计学为基础的一种模型

•首先为每个文档估计一个语言模型，然后基于语言模型根据查询的结果排序

•基于语言模型的IR模型的概念

•文档语言模型

•每个文档对应一个统计语言模型，称为文档的语言模型

•它主要描述了该文档中各个单词的统计分布特征。

•因此每个文档看作是由其语言模型抽样产生的一个样本。

•基于文档语言模型计算查询式的出现概率

•一个查询式也可以看作是由文档的语言模型抽样产生的一个样本。

•因此可以根据每个文档的语言模型抽样生成检索的概率来对其排序，其概率值越大，则该文档就越满足该检索要求。

概率模型

优点

文档可以按照他们相关概率递减的顺序来排序。

缺点

a）开始时需要猜想把文档分为相关和不相关的两个集合，一般来说很难

b）实际上这种模型没有考虑索引术语在文档中的频率（因为所有的权重都是二值的）

c）假设标引词独立

统计模型和传统概率模型的比较

•基本思想完全不同

•传统的信息检索概率模型

•相关度排序函数定义虽然比较直观，但相关性是一个抽象的概念，该定义本身没有也无法具体给出R的定义，所以该模型在理论上存在很大的模糊性。

•基于语言模型的检索模型

•建立在统计语言模型理论基础上，定义明确，便于操作。

•具体实施方法不同

•传统的概率模型

•在检索中，先给定带有相关性标记的文档作为建立模型的基础，要针对每个检索给定学习数据。

•基于语言模型的信息检索模型

•基于每个文档直接计算出相关度排序函数

文本处理主要方法

•词法分析

•分词（中文），断词（英文）

•异文合并

•繁简转换

•形态还原stemming

•提取词干

•其他

•停用词过滤

•FrequencycountsandcomputingTF-IDFterm

词法分析（LexicalAnalysis）

•将文档的字符串序列变成词序列

•英文词法分析：

书写时英文词之间通常通过空格或者标点进行区分，因此从英文字符串变成英文词是相对比较容易的。

•中文词法分析：

书写时通常没有空格，需要分词。

中文词法分析-分词

•中文分词是很多中文文本处理的第一步

•分词方法

•基于词典的方法：

给出一部词典，根据这部词典进行匹配

•无词典的方法：

不需要词典，根据某种人工构词规则或者统计规则从字生成词。

中文词法分析-困难

•未登录词问题（OutofVocabulary,OOV）：

出现词典中没有的词，

•歧义问题（Ambiguition）：

同一句子有多种可能的分词结果

解决歧义和未登录词识别的基本方法:

•规则方法：

分词过程中或者分词结束后根据规则进行处理；

•统计方法：

分词过程中或者分词结束后根据统计训练信息进行处理。

•规则+统计

异文合并方法之一：

查表

•创建一个term和stem的对应表

•表可以被索引起来，以便加快查找速度

•创建这样的表很困难

•存储空间的开销较大

异文合并方法之二：

词缀删除

•词缀删除算法将term的前缀和/或后缀删除，留下词干

•大多数算法删除后缀，例如：

-SES,-ATION,-ING等等

•最长匹配

•从词中删除最长匹配的后缀:

•迭代式最长匹配

•重复最长匹配的过程：

•WILLINGNESS-->删除NESS-->删除ING

异文合并方法之三：

后继变化数

•基于对文本集合的统计分析

•给定一个足够大的语料库,可以通过统计的方法获得词干

•这种方法是自动的，和语言关联性不大的

•后继变化数的定义：

•语料库中跟在某个字符串后的不同字符的数

•汉字简繁转换

•从简体中文到繁体中文（或繁体中文到简体中文）的自动转换过程，被称作C2C（汉字简繁）转换，这一转换可以按照下面简要描述的三个递增的级别来实现

•码对转换：

转换的失败率很高

•字对转换：

被转化的是有意义的语言单位，特别是多字词

•词对转换：

这种汉字简繁转换不是按照拼写，而是按照语义进行的。

例如，简体中的“信息”转换成繁体语义对应词时，就变成了“资讯”

停用词处理--文本词频分布

文本的特点

•有些词在文本中出现的频率非常高，而且对文本所携带的信息基本不产生影响

•文本经过词法分析之后，停用词通常被过滤掉，不参加文件的索引。

•在检索的时候，用户的查询中如果含有停用词，检索系统同样也将其过滤掉

消除停用词对IR的影响

•好处:

•停用词在文本中占的比重很大，排除停用词可以极大地节省索引文件的磁盘空间

•有的检索系统中，这种空间的节省甚至能达到40%以上，目前的检索系统，基本都使用过滤停用词

展开阅读全文