1、web数据挖掘从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。与之相似的概念称为知识发现。知识发现是用数据库管理系统来存储数据,用机器学习的方法来分析数据,挖掘大量数据背后隐藏的知识,称为数据库中的知识发现。数据挖掘功能 或任务?第一类是描述性挖掘任务:刻划数据库中数据的一般特性;第二类是预测性挖掘任务:在当前数据上进行推断,以进行预测。数据挖掘的方法 1监督学习 2无监督学习 3关联规则挖掘 4序列模式挖掘 监督学习 分类是指把数据样本映射到一个事先定义的类中的学习过程,即给定一组输入的属性向量及其对应的类,用
2、基于归纳的学习算法得出分类。监督学习分为2个阶段:1模型构造阶段A假定每个元组/样本都属于某个预定义的类,这些类由分类标号属性所定义B用来构造模型的元组/样本集被称为训练集(training set)C模型一般表示为:分类规则, 决策树或者数学公式 2模型使用阶段:估计模型的准确性 A用一些已知分类标号的测试集和由模型进行分类的结果进行比较 B两个结果相同所占的比率称为准确率 C测试集和训练集必须不相关无监督学习 - 聚类(Clustering)是将物理或抽象的对象集合分成多个组的过程,聚类生成的组称为簇(Cluster),即簇是数据对象的集合。聚类就是要让生成的簇内部的任意两个对象之间具有较
3、高的相似度,而属于不同簇的两个对象间具有较高的相异度。 主要的数据挖掘聚类方法 1划分的方法 2层次的方法 3基于密度的方法 4基于网格的方法 5基于模型的方法等 关联规则挖掘:在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性、或因果结构。 时序数据及序列模式挖掘时序数据库 1由随时间变化的序列值或事件组成的数据库 2数据在等时间间隔内记录 3时间序列的特征组成: 趋势,循环,季节性,非规则网络数据的特征 1数据量大,并且仍然在不断增长. 主题与内容 2存在各种类型的数据 3异构的信息 内容相同,形式不同 4绝大部分信息是相连接的 网站内部:信息组
4、织方式 网站之间 隐含传递多种信息 5噪音的存在,网页包含多个模块,对于特定任务只有一部分信息有用,本身没有信息质量的控制 6提供服务 7动态性网络.信息不断变化 8虚拟社会.不仅是数据信息和服务,而且包含人、组织和系统之间的交互 Web挖掘的分类 1Web结构挖掘 2Web内容挖掘 3Web使用挖掘频繁项集项的集合称为项集(Itemset),包含k个项的项集称之为k-项集。如果项集满足最小支持度,则它称之为频繁项集(Frequent Itemset)。 关联规则在事务数据库中找出有用的关联规则,需要由用户确定两个阈值:最小支持度(min_sup)和最小可信度(min_conf).同时满足最小
5、支持度(min_sup)和最小可信度(min_conf)的规则称之为关联规则,即 成立时,规则称之为关联规则,也可以称为强关联规则.规则的支持度(support)规则AB在数据库D中具有支持度S,表示S是D中事务同时包含AB的百分比,它是概率P(AB),其中|D|表示事务数据库D的个数,表示A、B两个项集同时发生的事务个数。 规则的可信度(confidence)规则AB具有可信度C,表示C是包含A项集的同时也包含B项集,相对于包含A项集的百分比,这是条件概率P(B|A), 其中表示数据库中包含项集A的事务个数。 Apriori 性质性质:频繁项集的所有非空子集都必须也是频繁的。A如果项集B不满
6、足最小支持度阈值min-sup,则B不是频繁的,即P(B)min-sup B如果项A添加到B,则结果项集(即BA)不可能比B更频繁出现。因此,BA也不是频繁的,P(BA)min-sup。 关联规则挖掘的缺点:A单一的支持度. 即所有的规则必须满足同样的支持度B非真性. 某些数据的出现次数可能非常少, 因为无法计算出它们的规则解决稀有物品问题 Rare Item Problem : 降低最低支持度. 但这会造成combinatorial explosion.多最小支持度模型: Each item can have a minimum item support信息熵定义:设r为信源X所有可能的符号
7、数, p(ai)为信源发出ai的概率,则信源每发一个符号所提供的平均信息量即为信息熵。 (1)信息熵也称香农信息量,或称不确定度。 (2)信息熵可用来度量整个信源X整体的不确定性。条件熵定义 如果X与随机变量Y不是相互独立的,那么用条件熵H(X|Y)来度量收信者在收到随机变量Y之后,对随机变量X仍然存在的不确定性。 过学习的概念(过度拟合,Overfitting)对于一个假设,当存在其他的假设对训练样例的拟合比它差,但事实上在实例的整个分布上表现得却更好时,我们说这个假设过度拟合训练样例导致过度拟合的原因: 1 一种可能原因是训练样例含有随机错误或噪声 2 当训练数据没有噪声时,过度拟合也有可
8、能发生,特别是当少量的样例被关联到叶子节点时,很可能出现巧合的规律性,使得一些属性恰巧可以很好地分割样例,但却与实际的目标函数并无关系。分类的评价准则 :精确度:代表测试集中被正确分类的数据样本所占的比例 查全率:表示在本类样本中被正确分类的样本所占的比例 查准率:表示被分类为该类的样本中,真正属于该类的样本所占的比例 朴素贝叶斯分类法. 每个数据样本用一个n维特征向量表示,描述由属性对样本的n个度量。假定有m个类。给定一个未知的数据样本X(即,没有类标号),分类法将预测X属于具有最高后验概率(条件X下)的类。即,朴素贝叶斯分类将未知的样本分配给类Ci ,当且仅当:这样,我们最大化 。其最大的
9、类Ci称为最大后验假定。根据贝叶斯定理:SVM方法的特点:1 非线性映射是SVM方法的理论基础,SVM利用内积核函数代替向高维空间的非线性映射; 2 对特征空间划分的最优超平面是SVM的目标,最大化分类边际的思想是SVM方法的核心; 3支持向量是SVM的训练结果,在SVM分类决策中起决定作用的是支持向量。 近邻分类方法 1 近邻分类方法是基于实例的分类方法 2 不需要事先进行分类器的设计 3 直接使用训练集对未知类标号的数据样本进行分类 4 最近邻分类、k-近邻分类 K-means算法 :给定一个数据集合X和一个整数K(n),K-Means方法是将X分成K个聚类,并使得每个聚类中所有值与该聚类
10、中心的距离的总和最小。 K-means algorithm1 给K个cluster选择最初的中心点,称为K个Means。2 计算每个对象和每个中心点之间的距离。3 把每个对象分配给距它最近的中心点所属的cluster。4 重新计算每个cluster的中心点。5 重复2,3,4步,直到算法收敛。 K-Means方法具有下面的优点(1)对于处理大数据量具有可扩充性和高效率。算法的复杂度是O(tkn),其中n是对象的个数,k是cluster的个数,t是循环的次数,通常k,t 删除NESS - 删除ING异文合并方法之三:后继变化数 基于对文本集合的统计分析 给定一个足够大的语料库, 可以通过统计的方
11、法获得词干 这种方法是自动的,和语言关联性不大的 后继变化数的定义: 语料库中跟在某个字符串后的不同字符的数 汉字简繁转换 从简体中文到繁体中文(或繁体中文到简体中文)的自动转换过程,被称作C2C(汉字简繁)转换,这一转换可以按照下面简要描述的三个递增的级别来实现 码对转换:转换的失败率很高 字对转换:被转化的是有意义的语言单位,特别是多字词 词对转换:这种汉字简繁转换不是按照拼写,而是按照语义进行的。例如,简体中的“信息”转换成繁体语义对应词时,就变成了“资讯”停用词处理 - 文本词频分布文本的特点 有些词在文本中出现的频率非常高,而且对文本所携带的信息基本不产生影响 文本经过词法分析之后,停用词通常被过滤掉,不参加文件的索引。 在检索的时候,用户的查询中如果含有停用词,检索系统同样也将其过滤掉 消除停用词对IR的影响 好处: 停用词在文本中占的比重很大,排除停用词可以极大地节省索引文件的磁盘空间 有的检索系统中,这种空间的节省甚至能达到40%以上,目前的检索系统,基本都使用过滤停用词的策略 坏
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1