web.docx-资源下载

web.docx

1、web数据挖掘从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。与之相似的概念称为知识发现。知识发现是用数据库管理系统来存储数据，用机器学习的方法来分析数据，挖掘大量数据背后隐藏的知识，称为数据库中的知识发现。数据挖掘功能或任务?第一类是描述性挖掘任务：刻划数据库中数据的一般特性；第二类是预测性挖掘任务：在当前数据上进行推断，以进行预测。数据挖掘的方法 1监督学习 2无监督学习 3关联规则挖掘 4序列模式挖掘监督学习分类是指把数据样本映射到一个事先定义的类中的学习过程，即给定一组输入的属性向量及其对应的类，用

2、基于归纳的学习算法得出分类。监督学习分为2个阶段:1模型构造阶段A假定每个元组/样本都属于某个预定义的类，这些类由分类标号属性所定义B用来构造模型的元组/样本集被称为训练集（training set）C模型一般表示为：分类规则, 决策树或者数学公式 2模型使用阶段:估计模型的准确性 A用一些已知分类标号的测试集和由模型进行分类的结果进行比较 B两个结果相同所占的比率称为准确率 C测试集和训练集必须不相关无监督学习 - 聚类（Clustering）是将物理或抽象的对象集合分成多个组的过程，聚类生成的组称为簇（Cluster），即簇是数据对象的集合。聚类就是要让生成的簇内部的任意两个对象之间具有较

3、高的相似度，而属于不同簇的两个对象间具有较高的相异度。主要的数据挖掘聚类方法 1划分的方法 2层次的方法 3基于密度的方法 4基于网格的方法 5基于模型的方法等关联规则挖掘：在交易数据、关系数据或其他信息载体中，查找存在于项目集合或对象集合之间的频繁模式、关联、相关性、或因果结构。时序数据及序列模式挖掘时序数据库 1由随时间变化的序列值或事件组成的数据库 2数据在等时间间隔内记录 3时间序列的特征组成: 趋势,循环,季节性,非规则网络数据的特征 1数据量大，并且仍然在不断增长. 主题与内容 2存在各种类型的数据 3异构的信息内容相同，形式不同 4绝大部分信息是相连接的网站内部：信息组

4、织方式网站之间隐含传递多种信息 5噪音的存在，网页包含多个模块，对于特定任务只有一部分信息有用，本身没有信息质量的控制 6提供服务 7动态性网络.信息不断变化 8虚拟社会.不仅是数据信息和服务，而且包含人、组织和系统之间的交互 Web挖掘的分类 1Web结构挖掘 2Web内容挖掘 3Web使用挖掘频繁项集项的集合称为项集（Itemset），包含k个项的项集称之为k-项集。如果项集满足最小支持度，则它称之为频繁项集（Frequent Itemset）。关联规则在事务数据库中找出有用的关联规则，需要由用户确定两个阈值：最小支持度（min_sup）和最小可信度（min_conf）.同时满足最小

5、支持度（min_sup）和最小可信度（min_conf）的规则称之为关联规则，即成立时，规则称之为关联规则，也可以称为强关联规则.规则的支持度(support)规则AB在数据库D中具有支持度S，表示S是D中事务同时包含AB的百分比，它是概率P(AB)，其中|D|表示事务数据库D的个数，表示A、B两个项集同时发生的事务个数。规则的可信度(confidence)规则AB具有可信度C，表示C是包含A项集的同时也包含B项集，相对于包含A项集的百分比，这是条件概率P(B|A)，其中表示数据库中包含项集A的事务个数。 Apriori 性质性质：频繁项集的所有非空子集都必须也是频繁的。A如果项集B不满

6、足最小支持度阈值min-sup，则B不是频繁的，即P（B）min-sup B如果项A添加到B，则结果项集（即BA）不可能比B更频繁出现。因此，BA也不是频繁的，P（BA）min-sup。关联规则挖掘的缺点：A单一的支持度. 即所有的规则必须满足同样的支持度B非真性. 某些数据的出现次数可能非常少, 因为无法计算出它们的规则解决稀有物品问题 Rare Item Problem : 降低最低支持度. 但这会造成combinatorial explosion.多最小支持度模型: Each item can have a minimum item support信息熵定义：设r为信源X所有可能的符号

7、数， p(ai)为信源发出ai的概率，则信源每发一个符号所提供的平均信息量即为信息熵。（1）信息熵也称香农信息量，或称不确定度。（2）信息熵可用来度量整个信源X整体的不确定性。条件熵定义如果X与随机变量Y不是相互独立的，那么用条件熵H(X|Y)来度量收信者在收到随机变量Y之后，对随机变量X仍然存在的不确定性。过学习的概念（过度拟合，Overfitting）对于一个假设，当存在其他的假设对训练样例的拟合比它差，但事实上在实例的整个分布上表现得却更好时，我们说这个假设过度拟合训练样例导致过度拟合的原因： 1 一种可能原因是训练样例含有随机错误或噪声 2 当训练数据没有噪声时，过度拟合也有可

8、能发生，特别是当少量的样例被关联到叶子节点时，很可能出现巧合的规律性，使得一些属性恰巧可以很好地分割样例，但却与实际的目标函数并无关系。分类的评价准则：精确度：代表测试集中被正确分类的数据样本所占的比例查全率：表示在本类样本中被正确分类的样本所占的比例查准率：表示被分类为该类的样本中，真正属于该类的样本所占的比例朴素贝叶斯分类法. 每个数据样本用一个n维特征向量表示，描述由属性对样本的n个度量。假定有m个类。给定一个未知的数据样本X（即，没有类标号），分类法将预测X属于具有最高后验概率（条件X下）的类。即，朴素贝叶斯分类将未知的样本分配给类Ci ，当且仅当：这样，我们最大化。其最大的

9、类Ci称为最大后验假定。根据贝叶斯定理:SVM方法的特点：1 非线性映射是SVM方法的理论基础,SVM利用内积核函数代替向高维空间的非线性映射; 2 对特征空间划分的最优超平面是SVM的目标,最大化分类边际的思想是SVM方法的核心; 3支持向量是SVM的训练结果,在SVM分类决策中起决定作用的是支持向量。近邻分类方法 1 近邻分类方法是基于实例的分类方法 2 不需要事先进行分类器的设计 3 直接使用训练集对未知类标号的数据样本进行分类 4 最近邻分类、k-近邻分类 K-means算法：给定一个数据集合X和一个整数K（n），K-Means方法是将X分成K个聚类，并使得每个聚类中所有值与该聚类

10、中心的距离的总和最小。 K-means algorithm1 给K个cluster选择最初的中心点，称为K个Means。2 计算每个对象和每个中心点之间的距离。3 把每个对象分配给距它最近的中心点所属的cluster。4 重新计算每个cluster的中心点。5 重复2，3，4步，直到算法收敛。 K-Means方法具有下面的优点（1）对于处理大数据量具有可扩充性和高效率。算法的复杂度是O（tkn），其中n是对象的个数，k是cluster的个数，t是循环的次数，通常k，t 删除NESS - 删除ING异文合并方法之三：后继变化数基于对文本集合的统计分析给定一个足够大的语料库, 可以通过统计的方

11、法获得词干这种方法是自动的，和语言关联性不大的后继变化数的定义：语料库中跟在某个字符串后的不同字符的数汉字简繁转换从简体中文到繁体中文（或繁体中文到简体中文）的自动转换过程，被称作C2C（汉字简繁）转换，这一转换可以按照下面简要描述的三个递增的级别来实现码对转换：转换的失败率很高字对转换：被转化的是有意义的语言单位，特别是多字词词对转换：这种汉字简繁转换不是按照拼写，而是按照语义进行的。例如，简体中的“信息”转换成繁体语义对应词时，就变成了“资讯”停用词处理 - 文本词频分布文本的特点有些词在文本中出现的频率非常高，而且对文本所携带的信息基本不产生影响文本经过词法分析之后，停用词通常被过滤掉，不参加文件的索引。在检索的时候，用户的查询中如果含有停用词，检索系统同样也将其过滤掉消除停用词对IR的影响好处: 停用词在文本中占的比重很大，排除停用词可以极大地节省索引文件的磁盘空间有的检索系统中，这种空间的节省甚至能达到40%以上，目前的检索系统，基本都使用过滤停用词的策略坏

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？