ImageVerifierCode 换一换
格式:DOCX , 页数:14 ,大小:93.08KB ,
资源ID:19459399      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/19459399.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(汕头大学数据挖掘期末复习Word格式文档下载.docx)为本站会员(b****5)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

汕头大学数据挖掘期末复习Word格式文档下载.docx

1、2) 数据预处理技术可以改进数据的质量,从而有助于提高其后的挖掘过程的精度和性 能。3) 高质量的决策必然依赖于高质量的数据,因此数据预处理是知识发现过程的重要步骤。数据的质量涉及的三个要素是准确性,完整性和一致性。现实世界的数据一般是脏的不完整的不一致的。数据预处理 技术可以改善数据的质量。如何填充数据中存在的缺失值1.忽略元组(删除)2.使用一个全局常量填充空缺值(例如 NULL3.使用属性的平均值、众数、中位数来填充空缺值4.人工填充空缺值数据清理补充缺失的属性值:使用属性的中心度量(如均值或者中位数或者众数(频率度量出现单峰)填充缺失值。使用最可能的值填充缺失值 (可以用回归,使用贝叶

2、斯形式化方法) 光滑数据,去掉噪声:噪声是被测量的变量的随机误差或者方差。数据光滑的技术:分箱法,把有序的数据数量等频地分到箱子中, 可以用箱的均值光滑,用箱的边界值光滑,用箱的中位数光滑。数据集成将数据由多个数据源合并成一个一致的数据存储, 如数据仓库(集成多个数据库)。数据归约可以通过如聚集、删除冗余特征或者聚类来降低数据的规模。 (得到数据的简化表示)简化数据、但产生相同或者相似的结果通过选择替代的、“较小的”数据表示形式来减少数据量。数据变换(例如,规范化,离散化)可以把数据压缩到较小的区间,如到。这可以提高涉及距离度量的挖掘算法的准确率和效率。规范化和聚集数据最小-最大规范化最小-最

3、大规范化:将原始数据 v经线性变换,映射到区间new_minA, new_maxA选择区间,找到数据最大值和最小值,进行区间规范化v - min av = (new ww _ 一 mi心jnaXi - min a _ _ _例如:income的最大,最小值分别为9000. 2000,则将它的值映射到0, 1时,若income的值6800规范后为:(6800-2000) / (9000-2000) * (1-0) +0=0.686离群点可能影响规范化零族规范化z-score规范化(零均值规范化):属性A的值基于A的平均值和标准差规 范化。对离群点不敏感.v AvA离散化:通俗的说,离散化是在不改

4、变数据相对大小的条件下,对数据进行相应的缩小。概念解释离群点:与数据的一般行为或模型不一致的数据对象数据错误不可避免数据输入和获取过程出现的错误数据集成表现出来的错误数据传输过程所引入的错误分箱:通过考察数据的“近邻”(周围的值)来光滑有序数据的值。局部光滑。 回归:(线性回归,多元线性回归)用一个函数(回归函数)拟合数据来光滑数据。聚类:将类似的值聚集为簇。可以识别并删除离群点、解决数据的不一致基本描述数据汇总的图形显示(数据排序后使用)盒图(需要先将数据进行有序排列):盒图可以用五数概括(上下四分位数、中位数、上下边缘)四分位数是3个值,把排序的数据集分成4个相等的部分。盒的端点一般在四分

5、位数上, 使得盒的长度是四分位数的极差 IQR (上四分位数75%下四分位数25%中位数用盒内的线标记。盒外两条虚线(称为胡须)延伸到最小和最大的观测值(上边缘、下边缘) 。超过过四分位数*IQR时,单独画出离群点,否则让胡须扩展到它们。直方图:通常让一个桶代表给定属性的一个连续值域。概括给定属性分布的图形方法,每个矩形等宽。分位数图:是一种观察单变量数据分布的简单有效的方法。分位数 -分位数图可以查看一个分布到另外一个分布是否有漂移(确定间隔)散布图(散点图):是一种观察双变量数据的有用的方法,用于观察点簇和离群点,或 考察相关联系的可能性。 确定两个数值变量之间看上去是否存在联系、 模式或

6、者趋势的有效图形之一。两个变量属性的三个关系可以从散点图上看出来:正相关、负相关、不 相关。分布式度量、代数度量、整体度量的概念1)分布式度量:可以通过如下方法计算度量(即函数) :将数据集划分成较小的子集,计算每个子集的度量,然后合并计算结果,得到原(整个)数据集的度量值。 sum()、count() 、min()、max()2) 代数度量:可以通过应用一个代数函数于一个或多个分布度量计算的度量(平均数sum/count)3) 整体度量:必须对整个数据集计算的度量。例如:中位数、众数三、数据关联分析关联规则挖掘(Association Rule Mining) 是数据挖掘中最活跃的研究内容之

7、一。一个典型的关联规则的例子:70%勾买了牛奶的顾客将倾向于同时购买面包。发现这样的关联规则可以为市场预测、决策和策划等方面提供依据。技术用语解释:频繁模式是频繁地出现在数据集中的模式(如项集、子序列、子结构)频繁项集:例如,频繁地同时出现在交易数据集中的商品项目(如牛奶与面包)的集合 是频繁项集。序列模式:例如,先买PC,然后是数码相机,再后是内存卡,如果它频繁地出现在历 史数据库中,则称它为一个频繁的序列模式。子结构:一个子结构可能涉及不同的结构形式,如子图、子树或者子格,它可能与项集或者子序列结合在一起。如果一个子结构频繁地出现,则称它为频繁的结构模式。关联规则中的支持度和置信度规则的支

8、持度和置信度是规则兴趣度的两种度量。 它们分别反映所发现规则的有用性和确定性。Computer=a ntivirus_softwaresupport = 2%;c on fide nee =60%表示所分析的所有事物的 2%显示计算机和杀毒软件被同时购买,置信度60%意味购买计 算机的顾客60%也购买了杀毒软件。支持度(项集X在交易集中出现的概率)交易呗客购买商品1伽跚11brrd Creum liiillk liraT2bread cream vnitkTJcake milkT4mUk id*15hrviid chM mlillk.16bread. Lcji丁7tr jaiilk ImTSh

9、md te*Tbrra J cream milk 耐T10brand milkI例如:对于、项集X= bread, milk f它出现在Tp T, T5. 和T中,supportfX)5/10=0.5a可信度(置信度)关联规则的可信度(Confidenee)是指包含X和Y的交易数与包含 X的交易数之比:confidence (X Y)和卩卩朋以 丫)support(X)关联规则的可信度反映了如果交易中包含 X,则交易中同时出现 Y的概率。关联规则 Ri: bread milk 的可信度为con fide nce(R 1)=support(bread,milk) / support(bread)

10、= = 5/7 。项目与项集设I=i 1, i 2,i n是由m个不同项目构成的集合,其中的每个 ik (k=1, 2,m)被称为一个项目(Item)。在超市的关联规则挖掘中,项目就是顾客购买的各种商品,如:bread, milk 等。项目的集合I被称为项目集合(Itemset),简称项集。I中元素个数称为项集的长度;超市出售6种商品,即:项集I中包含6个项目,则I的长度为6。长度为k的项集称为k-项集(k-Itemset)。对于项集cake, milk,可称为2-项集 项集的最小支持度与频繁集用于发现关联规则的项集必须满足的最小支持度的阈值,称为项集的最小支持度(Minimum Suppor

11、t),记为 supmin。从统计意义上讲,它表示用户关心的关联规则必须满足的最低重要性。 只有满足最小支持度的项集才能产生关联规则。支持度大于或等于SUpmin的项集称为频繁项集,简称频繁集,反之则称为非频繁 集。通常,k-项集如果满足SUpmin,可称为k-频繁集,记作Lk。强关联规则关联规则的最小支持度(Mi nimum Support)表示关联规则需要满足的最低支持度,记为sup min。关联规则的最小可信度(Mi nimum Con fide nee)表示关联规则需要满足的最低可 信度,记为conf min。如果关联规则同时满足如下两个条件:support(X Y) sup minco

12、n fide nce(X Y) conf min称关联规则为强关联规则,否则称为弱关联规则。在挖掘关联规则时, 产生的关联规则要经过 supmin和confmin的衡量,筛选出来的强关联规则才能用于指导决策。关联规则的挖掘:经典算法:Apriori算法关联规则挖掘包含以下两个步骤:首先,找出所有频繁集;其次,由频繁集产生强关联规则。Apriori算法通过多次扫描数据集,找出所有频繁集,然后用这些频繁集产生强关联规则Apriori算法通过 迭代来穷举出数据集中的所有频繁集。Apriori算法 示例(supmin=2 次)算法过程:输入数据集D,最小支持度阈值SUPmin 首先,产生1-频繁集Li

13、; 其次,在Li上通过连接和修剪产生2-频繁集L2 ; 依次类推,可在Lk上通过连接和修剪产生(k+1)-频繁集Lk+i ; 最后,直到无法产生新的频繁集为止。连接:只相差一个项目的两个项集才能进行连接(集合“并”操作) 例如:由L2生成C3的过程中,L2中的A,C和B,C只相差一个项目,因此它们 可以连接生成A,B,C。但是,L 2中的A,C和B,E无法进行连接。修剪:去除子集不是频繁集的项集。Apriori算法的性质:频繁集的所有非空子集也一定是频繁的 。虽然L2中的A,C和B,C可以连接生成A,B,C,但是由于A,B,C的子集A,B不是频繁集(不在L2中),因此,需要从 G中删除A,B,

14、C。描述算法过程:1.输入:数据集D,最小支持度阈值SUPmin2.K=13.产生CK:K-候选频繁集4.根据最小支持度筛选K-候选频繁集生成LK:K-频繁集5.循环23步骤,直到无法生成新的频繁集为止6.输出可以产生关联规则的所有频繁集 L。Apriori的挑战与改进思路挑战多遍事务数据库扫描候选频繁项集的数目巨大候选项集的计数工作量较大改进Apriori :思路减少事务数据库扫描次数减少候选项集数目有效支持候选项集的计数提高Apriori的有效性1.基于散列的技术2.事务压缩3.划分4.抽样5.动态项集技术四、数据分类与预测分类有那些方法,优缺点判定树归纳分类(缺失数据敏感)-优点:1 决

15、策树易于理解和解释2.能够同时处理数据型和常规型属性3 在相对短的时间内能够对大型数据源做出可行且效果良好的结果。4.如果给定一个观察的模型,那么根据所产生的决策树很容易推出相应的逻辑表达式。-缺点:一、 对于那些各类别样本数量不一致的数据,在决策树当中 ,信息增益的结果偏向于那些具 有更多数值的特征。二、 决策树处理缺失数据时的困难。三、 过度拟合问题的出现。四、 忽略数据集中属性之间的相关性。朴素贝叶斯分类:(缺失数据不敏感)易于实现,对缺失数据不太敏感,算法也比较简单,常用于文本分类。小规模数据表现好需要知道先验概率,很多时候先验概率基于假设,假设类条件独立假设不一定总是成立。朴素贝叶斯

16、分类无法对属性之间的依赖关系建模。人工神经网络分类(缺失数据不敏感)分类的准确度高,并行分布处理能力强,分布存储及学习能力强,对噪声神经有较强的鲁棒性和容错能力,能充分逼近复杂的非线性关系,具备联想记忆的功能等。缺点:神经网络需要大量的参数。不能观察之间的学习过程, 输出结果难以解释, 会影响到结果的可信度和可接受程度;学习时间过长 ,甚至可能达不到学习的目的。SVM支持向量机(缺失数据敏感)SVM的优点:一、 可以解决小样本情况下的机器学习问题。二、 可以提高泛化性能。三、 可以解决高维问题。四、 可以解决非线性问题。五、 可以避免神经网络结构选择和局部极小点问题。SVM的缺点:一、 对缺失

17、数据敏感。二、 对非线性问题没有通用解决方案,必须谨慎选择 Kernelfu nction 来处理。遗传算法的优点:一、 与问题领域无关切快速随机的搜索能力。二、 搜索从群体出发,具有潜在的并行性,可以进行多个个体的同时比较,鲁棒性好三、 搜索使用评价函数启发,过程简单。四、 使用概率机制进行迭代,具有随机性。五、 具有可扩展性,容易与其他算法结合。遗传算法的缺点:一、 遗传算法的编程实现比较复杂,首先需要对问题进行编码,找到最优解之后还需要对 问题进行解码,二、 另外三个算子的实现也有许多参数,如交叉率和变异率,并且这些参数的选择严重影响解的品质,而目前这些参数的选择大部分是依靠经验 没有能

18、够及时利用网络的反馈信息,故算法的搜索速度比较慢,要得要较精确的解需要较多的训练时间。三、 算法对初始种群的选择有一定的依赖性,能够结合一些启发算法进行改进。K-最临近分类KNN优点简单好用,容易理解,精度高,理论成熟,既可以用来做分类也可以用来做回归;可用于数值型数据和离散型数据;训练时间复杂度为 O(n);无数据输入假定;对异常值不敏感。计算复杂性高;空间复杂性高;样本不平衡问题(即有些类别的样本数量很多,而其它样本的数量很少) ;一般数值很大的时候不用这个,计算量太大。但是单个样本又不能太少,否则容易发生 误分。最大的缺点是无法给出数据的内在含义。聚类分析有哪些方法它们的优缺点是什么k-

19、mea ns: 是一种典型的划分聚类算法,它用一个聚类的中心来代表一个簇,即在迭代过程中选择的聚点不一定是聚类中的一个点,该算法只能处理数值型数据。优点:k均值聚类法 快速高效,特别是大量数据时,准确性高一些,但是需要你自己指定 聚类的类别数量均值漂移聚类高斯混合模型最大期望聚类什么是分类、什么是预测分类预测类标识(离散的)基于带类标识的数据构建分类模型,然后使用分类模型对未知类标识的数据分类预测对连续值函数建模,即预测未知或丢失的值分类一一一个两步的过程建立模型:描述数据中的类每个元组/样本都属于由其类标识所确定的类用于构建模型的数据集被称为训练数据集模型的表现形式有分类规则,判定树,和数学

20、公式使用模型进行分类:将未知类标识的数据分类评估模型的预测准确率将模型预测的测试样本的类与测试样本的类标识进行比较模型的预测准确率等于被模型正确分类的测试样本在测试数据集中所占的比例测试数据集应该与训练数据集相互独立,否则将会产生过拟合问题如果模型的预测准确率可以接受,就可用模型对未知类标识的数据对象进行分类有指导的学习(分类)指导:训练数据(度量,观察)带有类标识,即训练数据集中的每个数 据对象所属的类已知无指导的学习(聚类)训练数据的类标识未知对给定的一组观察数据或度量数据,识别数据中存在的类(簇)-信息熵指的是系统的混乱程度小结分类是一个被广泛研究的问题(主要在统计学,机器学习和神经网络

21、)分类是数据挖掘中用得最多的技术之一判定树归纳、朴素贝叶斯分类、贝叶斯信念网络、后向传播、关联挖掘等算法 评估模型的准确率;提高模型的准确率;其他度量模型准确性的量支持向量机SVM一种对线性和非线性数据进行分类的方法 )从线性可分情况下的最优分类面发展而来。2.最优分类面就是要求分类线不但能将两类正确分开 (训练错误率为0),且使分类间隔考虑寻找一个满足分类要求的超平面 ,并且使训练集中的点距离分类面尽可能的远 ,也就是寻找一个分类面使它两侧的空白区域 (margin)最大。4.过两类样本中离分类面最近的点且平行于最优分类面的超平面上 H1,H2的训练样本就叫做支持向量。特点:尽管SVM勺训练也非常慢,但是其对复杂的非线性边界的建模能力, 它们是非常准确的。可以用于数值预测和分类。(手写数字识别,语音识别,人脸识别,文本分类)SVM通过搜索最大边缘超平面来寻找决策边界题目:使用不同的核函数来优化非线性 SVM SVM核函数的作用不同核函数的效果如何(重点)聚类分析占考试比重很大, 聚类分析的5种策略什么是聚类分析聚类分析有哪些方法优缺点自行补充(重点)考试概念居多,基本没有计算,但考题年年会微调,范围以考试大纲为准。

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1