机器学习与数据挖掘复习.docx

资源描述

机器学习与数据挖掘复习.docx

《机器学习与数据挖掘复习.docx》由会员分享，可在线阅读，更多相关《机器学习与数据挖掘复习.docx（17页珍藏版）》请在冰豆网上搜索。

机器学习与数据挖掘复习.docx

机器学习与数据挖掘复习

第一章：

Introduction

1.什么是数据挖掘：

数据挖掘时从大量的数据中取出令人感兴趣的知识（令人感兴趣的知识：

有效地、新颖的、潜在有用的和最终可以理解的）。

2.数据挖掘的分类（从一般功能上的分类）：

a）描述型数据挖掘（模式）：

聚类，summarization，关联规则，序列发现。

b）预测型数据挖掘（值）：

分类，回归，时间序列分析，预测。

3.KDD（数据库中的知识发现）的概念：

KDD是一个选择和提取数据的过程，它能自动地发现新的、精确的、有用的模式以及现实世界现象的模型。

数据挖掘是KDD过程的一个主要的组成部分。

4.用数据挖掘解决实际问题的大概步骤：

a）对数据进行KDD过程的处理来获取知识。

b）用知识指导行动。

c）评估得到的结果：

好的话就循环使用，不好的话分析、得到问题然后改进。

5.KDD过程中的角色问题：

6.整个KDD过程：

a）合并多个数据源的数据。

b）对数据进行选择和预处理。

c）进行数据挖掘过程得到模式或者模型。

d）对模型进行解释和评价得到知识。

第二章数据和数据预处理

1.什么是数据：

数据是数据对象和它的属性的集合。

一个属性是一个对象的性质或特性。

属性的集合描述了一个对象。

2.属性的类型：

a）标称（nominal）：

它的值仅仅是不同的名字，只是提供足够的信息来区分对象。

例如邮政编码、ID、性别。

b）序数：

序数属性的值提供足够的信息确定对象的序。

例如硬度、成绩、街道号码。

c）区间：

对于区间属性，值之间的差是有意义的，即存在测量单位。

例如日历日期、温度。

d）比率：

对于比率变量，差和比率都是有意义的。

例如绝对温度、年龄、质量、长度。

3.用值的个数描述属性：

a）离散的：

离散属性具有有限惑无限可数个值，这样的属性可以是分类的。

b）连续的：

连续属性是取实数值的属性。

4.非对称属性：

对于非对称属性，出现非零属性值才是最重要的。

5.数据集的类型：

a）记录型数据：

每一个数据对象都是有固定数目的属性组成的。

数据矩阵：

如果一个数据集中的所有数据对象都具有相同的数值属性集，则数据对象可以看做是多维空间中的点，其中每个位代表描述对象的一个不同属性。

文档数据：

每个文档看成是一个向量。

事务数据：

每一个事务涉及一个项的集合。

b）图数据：

可以表示数据对象间的关系或者是数据对象本身就是用图形表示。

c）有序数据：

属性在时间或者空间上有关系。

时态数据：

记录型数据的扩展，但是每个记录都有一个时间。

序列数据：

由数据构成的序列，没有时间，但表述了一个时间的先后顺序。

时间序列数据：

每个记录都是一个时间序列。

空间数据：

属性和空间位置有关。

6.噪声和离群点的区别：

噪声是对原始值产生了修改；离群点是具有不同于数据集中其他大部分数据对象的特征的数据对象，或是相对于该属性的典型值不寻常的属性值。

7.如何处理噪声数据：

a）分箱（binning）：

分享方法通过考察数据的近邻来光滑有序数据的值。

b）回归：

可以用一个函数你和数据来光滑数据。

c）聚类：

将数据划分为不同的类，落在类之外的视为离群点。

d）把计算机分析的结果让人检查看是否有问题。

8.数据预处理中的主要任务：

a）数据清洗：

填补缺值、去除噪声、解决数据不一致、解决冗余。

b）数据集成：

将不同数据源的数据放在一个地方。

c）数据转换：

平滑处理、数据聚合、数据泛化、归一化、属性特征构造。

d）数据约减：

减少数据量，但仍需从少量的数据中得到原有或接近原有的结果。

e）数据离散化对给定连续值划分为若干小区间，每个区间用一个值表示。

9.相关分析两类方法：

对于数值属性可以通过计算两属性之间的相关系数。

对于分类数据两属性之间的相关联系可以通过卡方来计算。

10.对数据归一化处理的三大类方法：

a）最小-最大规范化：

b）Z-score规范化：

c）小数定标规范化：

11.属性约减的方法：

a）回归：

拟合函数。

b）直方图：

将数据划分为一定的区间，存储时只用存储其平均值。

（等宽度、等深度、V-optimal：

取最优化分、MaxDiff：

根据值间距离来划分）。

c）聚类：

将数据聚为不同的类，存储类中最有代表性的数据，例如中心点。

d）抽样：

从数据中抽取一个样本，要能代表原来的数据。

12.数据离散化的方法：

a）数值型：

i.直方图：

自上而下的划分。

ii.聚类的分析。

iii.基于熵的离散化。

iv.卡方分析。

v.自然划分的方法。

b）分类型数据：

i.模式集。

ii.属性集。

iii.通过只可以得到层次的关系。

iv.根据不同属性的取值自动生成。

13.计算二进制属性的相似性用SMC和Jaccard系数（也可以不用于二进制属性，也可用于连续和计数属性），Cosine相似性用来测文档和文档之间的距离。

第三章概念学习

1.概念的概念：

a）概念是定义在一个大集合上的事物或对象的子集。

b）概念是定义在一个大集合上的二值函数。

2.概念学习的概念：

a）概念学习就是从数据里提取出此概念的定义。

b）概念学习可看成从给定的数据（输入、输出）中拟合出一个二值函数。

3.概念学习的三种算法：

a）Find-S：

找到一个最具体的假设

i.把H中的每个h初始化成最具体的假设。

ii.它对所有否定样本都不处理。

iii.它保证能收敛到一个最具体的假设。

iv.缺点：

找到一个假设，但是并没有表示他是唯一的，有可能有其他假设存在；

不一定最具体的假设就是最好的；

不能适应噪声的问题；

假设不止一个，然而此算法只能找到一个。

b）候选-删除算法：

输出与训练样例一致的所有假设的集合。

（使S更一般、使G更具体）。

它也不适应噪声问题。

c）列表后消除算法：

列出所有的版本空间成员，然后把不合适的找出。

他要先将所有的假设找出来，然而这并不都是可以实现的。

第四章决策树

1.决策数学系的概念：

决策树学习是一个简单的逼近方法，学习一个离散型函数。

学习函数被用一个决策树来表示；同时，决策树能被描述为if-then规则。

2.决策树分类的基本步骤：

a）从数据归纳产生出一棵树。

b）用模型对新数据进行分类。

3.决策树学习过程：

a）生成根节点：

对每一个属性进行评估，得到一个最好的属性作为根。

b）根属性有几个值就产生几个分支，将数据计划成若干部分。

c）重复上述过程。

4.不纯度计算方法：

a）GiniIndex：

b）Entropy：

c）Classificationerror：

5.决策树优点：

a）构造速度较快，节约。

b）分类速度快。

c）树小时容易解释。

d）分类精度和别的方法差不多在一些简单的数据集上。

6.如何解决过拟合现象：

a）预裁剪：

在树充分长成前停下来。

停止的条件是所有的实例都被分为一个类，或者所有的属性值都相同。

b）后裁剪：

将树充分生成，再按自下而上的方法进行裁剪。

若将子树裁剪后泛化的误差减小，则将子树裁去，将类标号出现最多的标号作为裁掉树后补上的叶子。

7.度量模型的方法：

8.性能评估的方法：

a）Holdout：

用2/3训练，1/3测试。

b）随机二次抽样：

多次重复Holdout方法来改进最分类器性能的评估。

c）交叉验证：

把数据分为大小相同的k份，在每次运行，选择其中一份作检验集，其余的全做为训练集，该过程重复k次，使得每份数据都用于检验恰好一次。

d）分块抽样。

e）带回放抽样：

适用于数据集小的情况。

9.ROC（接受者操作特征曲线）：

曲线上的每一点代表每个分类器的性能。

第五章神经网络

1.神经网络适合具有下面特征的问题：

a）实例是用很多“属性-值”对表示的。

b）目标函数的输出可能是离散值、实数值或者由若干实数属性或离散属性组成的向量。

c）训练数据可能包含错误。

d）可容忍长时间的训练。

e）可能需要快速求出目标函数值。

f）人类能否理解学到的目标函数是不重要的。

2.感知器：

感知器以一个实数值向量作为输入，计算这些输出的线性组合，然后如果结果大于某个阈值就输出1，否则输出-1。

我们可以把感知器看作是n维实例空间中的超平面决策面。

3.感知器网络的训练方法：

a）感知器训练法则：

从随机的权值开始，然后反复地应用这个感知器到每个训练样例，只要它误分类样例就修改感知器的权值。

重复这个过程，直到感知器正确分类所有的训练样例。

法则如下：

在有限次使用感知器训练法则后，上面的训练过程会收敛到一个能正确分类所有训练样例的权向量，前提是训练样例线性可分，并且使用了充分小的η。

如果数据不是线性可分的，那么不能保证训练过程收敛。

b）Delta法则：

如果训练样本不是线性可分的，那么delta法则会收敛到目标概念的最佳近似。

Delta规则的拟合精度是足够好的，他用梯度下降的方法在假设空间中找出一组能够最好的拟合训练样本的一组。

梯度下降法则：

随意给一组初始值，循环的修改初始值使误差E要足够小，他要在曲面上找一个下降方向最快的方向进行估计。

c）这两个算法间的关键差异是感知器训练法则根据阈值化的感知器输出误差更新权值，然而Delta法则根据输入的非阈值化线性组合的误差来更新权值。

4.反向传播算法：

用来学习由一系列确定的单元互连形成的多层网络的权值。

它采用梯度下降方法试图最小化网络输出值和目标值之间的误差平方。

先用样本数据训练神经网络时，它自动地将输出值与期望值进行比较，得到误差信号，再根据误差信号，从后向前调节个神经网络层神经元之间的连接强度，然后再进行运算，使误差减小，再将新的输出值与期望值进行比较，得到新的比先前小的误差信号，再根据较小的误差信号，从后向前重新调节各神经网络层神经元之间的连接强度，依此不断地多次进行，直到误差满足要求为止。

第六章贝叶斯学习

1.贝叶斯学习方法的特征：

a）观察到的每个训练样例可以增量的降低或升高某假设的估计概率。

b）先验知识可以与观察数据一起决定假设的最终概率。

c）贝叶斯方法可允许假设做出不确定性的预测。

d）新的实例分类可由多个假设一起做出预测，用他们的概率来加权。

e）即使在贝叶斯方法计算复杂度较高时，他们仍可作为一个最优的决策的标准衡量其他方法。

2.贝叶斯公式：

3.极大后验假设MAP和极大似然度ML：

考虑候选假设集合H并在其中寻找给定数据D是可能性最大的假设h。

这样的具有最大可能性的假设被称为MAP假设。

当H中每个假设有相同的先验概率时，最大后验假设就可以进一步化简为极大似然假设：

4.贝叶斯最优分类器：

分类通过合并所有假设的预测得到，用后验概率来加权。

a）它将每一个假设都最大化它的结果。

b）如果我们用了同样的假设空间和先验知识，则贝叶斯最优分类器比其他方法都好。

c）对假设空间的表示要求不是很严格。

d）问题：

需要将所有假设空间加起来，若h很大，则计算量很大，因此算法开销比较大。

5.朴素贝叶斯分类器：

朴素贝叶斯分类器应用的学习任务中，每个实例x可由属性值的合取描述，而目标函数f（x）从某有限集合V中取值。

学习其被提供一系列关于目标函数的训练样例以及新实例，然后要求预测新实例的目标值。

它基于一个简单的假定：

在给定目标值时属性值之间相互条件独立。

6.贝叶斯信念网：

贝叶斯信念网用有向环图的方式来表示一组随机变量之间的概率关系，他用更中立的态度进行分类。

它还可以被看做是变量之间的因果关系图，用于推理和预测。

实例：

见课件。

第七章基于实例的学习

1.基于实例的学习：

对训练样本不作处理，不构造模型，只是存

展开阅读全文