机器学习导论习题解答.docx

资源描述

机器学习导论习题解答.docx

《机器学习导论习题解答.docx》由会员分享，可在线阅读，更多相关《机器学习导论习题解答.docx（19页珍藏版）》请在冰豆网上搜索。

机器学习导论习题解答.docx

机器学习导论习题解答

机器学习导论

习题解答

卢官明编著

机械工业出版社

1.7习题

1．如何理解机器学习的三个基本要素？

机器学习的三个基本要素是模型、学习准则（策略）和优化算法。

具体内容请见《机器学习导论》第11~16页。

2．请阐述人工智能、机器学习、深度学习三者之间的关系。

人工智能是在控制论、信息论和系统论的基础上诞生的前沿交叉学科，涉及哲学、心理学、语言学、神经生理学、认知科学、计算机科学、信息科学、系统科学、数学以及各种工程学方法。

人工智能的研究领域十分广泛，涉及机器学习、数据挖掘、知识发现、模式识别、计算机视觉、专家系统、自然语言理解、自动定理证明、自动程序设计、智能检索、多智能体、人工神经网络、博弈、机器人学、智能控制、智能决策支持系统等领域，相关研究成果也已广泛应用到生产、生活的各个方面。

机器学习是人工智能的核心，也是使机器具有智能的根本途径，是当前人工智能理论研究和实际应用的非常活跃的研究领域。

深度学习则是机器学习的一个分支。

在很多人工智能问题上，深度学习的方法突破了传统机器学习方法的瓶颈，推动了人工智能领域的快速发展。

3．什么是监督式机器学习？

什么是非监督式机器学习？

两者的区别是什么？

监督式机器学习，也称监督学习，通过使用带有正确标签（Label）的训练样本数据进行学习得到一个模型，然后用这个训练得到的模型来对输入的未知标签的测试样本进行预测并输出预测的标签。

非监督式机器学习又称为无监督学习，它的输入样本并不需要标注，而是自动从样本中学习特征实现预测。

两者的区别：

监督式机器学习中的训练样本数据是带标签的；而非监督式机器学习中的训练样本数据是不带标签的。

4．什么是生成式模型？

什么是判别式模型？

各自的特点是什么？

请分别列举生成式模型和判别式模型。

假设样本的特征向量为

，类别标签为

，生成式模型先对它们的联合概率分布

或者类条件概率

进行建模，然后计算样本属于每一个类别的条件概率

，即类后验概率。

而判别式模型是直接对类后验概率

进行建模，将样本归属到使类后验概率

最大的那个类别。

在监督式机器学习中，判别式模型和生成式模型各有优缺点，适合于不同条件的学习问题。

生成式模型的特点：

（1）对联合概率密度分布

建模，可以从统计的角度表示数据的分布情况，能够反映同类数据本身的相似度，但它不关心到底划分各类的那个分类边界在哪。

（2）生成式模型的学习收敛速度更快，即当样本容量增加的时候，学到的模型可以更快地收敛于真实模型，而且对于存在隐变量的问题，仍可以使用生成式模型。

（3）生成式模型学习和计算过程复杂，需要更多的计算资源。

（4）需要的样本数更多，样本较少时学习效果较差。

（5）预测时性能较差。

（6）一定条件下能转换成判别式。

判别式模型特点：

（1）对类后验概率

建模，寻找不同类别之间的最优分类面，反映的是异类数据之间的差异，不能反映训练数据本身的特性。

（2）判别式模型简单易懂，而且可以对数据进行各种抽象、定义特征并使用特征，可以简化学习问题，需要的计算资源较少。

（3）需要的样本数可以较少，少样本也能很好学习。

（4）预测时拥有较好性能。

（5）无法转换成生成式模型。

总之，判别式模型和生成式模型都是使类后验概率

最大化，判别式是直接对类后验概率

建模，而生成式模型通过贝叶斯定理这一“桥梁”使问题转化为求联合概率。

常见的生成式模型有朴素贝叶斯模型、隐马尔可夫模型（HMM）、高斯混合模型（GMM）等。

常见的判别式模型有逻辑斯谛回归模型、Softmax回归模型、线性回归模型、线性判别分析（LDA）、支持向量机（SVM）、神经网络等。

5．监督式机器学习涉及的损失函数有哪些？

监督式机器学习涉及的损失函数包括0-1损失函数、平方损失函数（

损失函数）、均方误差损失函数、绝对损失函数（

损失函数）、对数损失函数、交叉熵损失函数、合页损失函数等。

6．简述损失函数、代价函数和目标函数的区别和联系。

请见《机器学习导论》第12页。

7．既然代价函数已经可以度量样本集的平均误差，为什么还要设定目标函数？

通常情况下，由于训练样本集中的样本数量是有限的，而且训练集中的样本数据包含了各种噪声，因此实际所用的训练集不能很好地反映样本数据的真实分布。

在这种情况下，如果以经验风险作为代价函数，当模型过于复杂时，利用经验风险最小化（ERM）准则，有可能对训练集样本数据拟合得很好，但是对测试集样本数据的拟合效果不好，导致模型产生“过拟合”现象，这就出现了所谓的“结构化风险”。

结构风险最小化即为了防止过拟合而提出来的策略，结构风险函数就是最终待优化的目标函数。

8．请解释经验风险和结构风险的含义和异同点。

经验风险是模型关于整个训练集中所有样本的平均损失。

经验风险越小说明模型对训练集样本数据的拟合效果越好，但是对于未知的样本效果怎么样呢？

我们知道未知的样本数据的数量是不容易确定的，所以就没有办法用所有样本损失函数的平均值最小化这个准则，那么怎么来衡量这个模型对所有样本（包含未知的样本和已知的训练样本）的预测能力呢？

从概率论的角度很容易就想到了数学期望。

期望风险是损失函数的期望，用来度量平均意义下模型预测的性能好坏，表示的是决策函数对所有的样本预测能力的大小。

而经验风险仅仅表示决策函数对训练数据集里样本的预测能力。

理想的模型（决策）函数应该是让所有的样本的损失函数最小的（也即期望风险最小化），但是，在实际的机器学习问题中，我们无法得知X与Y的联合概率分布函数P（X,Y），因此也没有办法直接计算期望风险。

如果只考虑经验风险的话，会出现过拟合的现象，过拟合的极端情况便是模型对训练集中所有的样本数据都有很好的拟合效果，但是对于非训练集中的样本数据，模型的拟合效果非常不好。

导致“过拟合”发生的因素有很多，最主要的原因是因为训练样本数量不足以及模型过于复杂。

为了解决这一问题，我们需要引入结构风险函数，即对经验风险函数进行矫正，也就是在经验风险函数后面加上一个表示模型复杂度的正则项（惩罚项）。

结构风险是对经验风险和期望风险的折中。

相比于经验风险，结构风险多了一个正则项（惩罚项），结构风险可以这么理解：

经验风险越小，模型决策函数越复杂，其包含的参数越多，当经验风险函数小到一定程度就出现了过拟合现象。

也可以理解为模型决策函数的复杂程度是过拟合的必要条件，那么我们要想防止模型产生“过拟合”现象，就要破坏这个必要条件，即降低决策函数的复杂度。

也即，让惩罚项最小化，现在出现两个需要最小化的函数了。

我们需要同时保证经验风险函数和模型决策函数的复杂度都达到最小化，一个简单的办法把两个式子融合成一个式子得到结构风险函数，然后对这个结构风险函数进行最小化。

结构风险小意味着经验风险小、模型复杂度低。

结构风险小的模型往往对训练样本以及新的测试样本都有较好的预测性能。

结构风险最小化的策略认为结构风险最小的模型是最优的模型。

9．机器学习中常见的优化算法有哪些？

机器学习中常见的优化算法有梯度下降法、随机梯度下降、小批次梯度下降、牛顿法、拟牛顿法、坐标下降法等。

10．为什么需要对数值类型的特征做归一化？

请见《机器学习导论》第27~28页。

11．什么是过拟合？

产生过拟合的原因是什么？

防止模型过拟合的常用方法有哪些？

“过拟合”是指模型过于复杂，学习能力太强，以至于能捕捉到单个训练样本的特征，并将其认为是“一般规律”，具体表现就是最终模型对已知数据（即训练集中的样本）的预测性能很好，在训练集上的误差很小，而对未知数据（即测试集中的样本）的预测性能不佳，在测试集上的误差远大于训练误差，即模型的泛化能力下降。

产生过拟合的主要原因在于训练样本数量较少而样本的特征数量过多，模型参数太多而导致复杂度过高。

解决过拟合问题的常用方法有：

（1）增加训练样本数量；

（2）使用正则化约束；

（3）减少特征数；

（4）使用丢弃（Dropout）法；

（5）提前停止训练。

12．什么是欠拟合？

产生欠拟合的原因是什么？

防止模型欠拟合的常用方法有哪些？

“欠拟合”是指模型过于简单，学习能力不足，没有很好地捕捉到样本数据特征，无法学习到样本数据中的“一般规律”，不能很好地拟合数据的真实分布，数据点距离拟合曲线较远。

欠拟合具体表现就是最终模型在训练集和测试集上的误差都较大，性能较差。

欠拟合的现象比较容易克服，常见的解决方法是增加更多的特征，提高模型的表达能力。

例如，在线性模型中通过添加二次项或者三次项，使用核SVM、随机森林、深度学习等复杂模型。

13．请解释机器学习模型的方差和偏差。

偏差（Bias）度量了机器学习模型的预测期望

与真实标签值

的偏离程度，即刻画了模型本身的拟合能力。

方差（Variance）度量了同样大小训练集的样本变动所导致的学习性能的变化，即刻画了数据扰动所造成的影响，描述的是预测值作为随机变量的离散程度。

一般来说，在一个实际系统中，偏差和方差是有冲突的，偏差随着模型复杂度的增加而降低，而方差随着模型复杂度的增加而增加。

14．为什么要将样本数据集分为训练集、验证集和测试集三个部分？

他们各自的作用是什么？

请见《机器学习导论》第29页。

15．解释交叉验证的工作原理？

如何在

-折交叉验证中选择

的值？

请见《机器学习导论》第30页。

16．回归模型和分类模型各有哪些常见的评估指标？

请见《机器学习导论》第31页。

17．准确率的定义是什么？

准确率始终是一个好的度量指标吗？

它有什么局限性？

请见《机器学习导论》第33页。

18．什么是查准率（精确率）？

什么是查全率（召回率）？

如何权衡查准率（精确率）与查全率（召回率）？

请见《机器学习导论》第33~35页。

19．什么是ROC曲线？

如何绘制ROC曲线？

ROC曲线相比P-R曲线有什么特点？

请见《机器学习导论》第34~36页。

20．什么是AUC？

AUC与ROC的关系是什么？

什么情形下要使用AUC？

请见《机器学习导论》第36页。

21．有哪些常见的正则化方法？

请解释

范数和

范数正则化的作用。

范数正则化使得模型参数具有稀疏性的原理是什么？

常见的正则化方法包括：

范数和

范数正则化。

范数是指向量中每个元素的平方之和，

范数是指向量中每个元素的绝对值之和。

范数正则化使用的是每个权重值的平方和，其作用是通过使模型的权重值变小，进而使模型变得简单。

范数正则化使用的是每个权重值的绝对值之和。

使用

范数正则化后，模型参数会稀疏，即模型的权重值中有很多0。

22．为什么加正则化项能防止模型过拟合？

过拟合是模型训练当中出现的一种现象，具体表现为模型在训练集上表现很好，误差较小，但在测试集上表现较差，误差较大。

其原因通常是：

（1）训练样本不足；

（2）模型过于复杂；（3）训练集与测试集样本的分布不同；（4）训练集样本里面的噪声数据干扰过大。

正则化则是对模型参数添加先验，降低模型的复杂度，对于噪声以及异常样本数据（outliers）的输入扰动相对较小。

2.6习题

1．什么是回归？

哪些模型可用于解决回归问题？

在统计学中，回归分析指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。

回归分析按照涉及的自变量的多少，分为一元回归和多元回归分析；按照因变量的多少，可分为简单回归分析和多重回归分析；按照自变量和因变量之间的关系类型，可分为线性回归分析和非线性回归分析。

线性回归模型、多项式回归模型可用于解决回归问题。

2．什么是线性回归？

解决线性回归的模型有哪些？

如果因变量（输出变量）与自变量（输入变量）之间的关系可以用线性方程来表示，则我们称因变量与自变量的关系是线性关系。

线性回归（LinearRegression）的目标旨在找到可以描述目标值（输出变量）与一个或多个特征（输入变量）之间关系的一个线性方程或函数。

解决线性回归的模型有岭回归模型、套索回归模型和弹性网络（ElasticNet）模型。

3．什么是正规方程？

最小二乘法可以将误差方程转化为有确定解的代数方程组（其方程式数目正好等于未知数的个数），从而可求解出这些未知参数。

这个有确定解的代数方程组称为最小二乘法估计的正规方程。

正规方程是最小二乘法的矩阵形式。

4．请阐述梯度下降法的工作原理？

什么是随机梯度下降？

与通常的梯度下降有何不同？

请见《机器学习导论》第51~53页。

5．什么样的正则化技术适用于线性模型？

可以使用L1或L2正则化进行特征选择吗？

请见《机器学习导论》第55~56页。

6．什么时候需要对线性模型进行特征归一化？

什么情况下可以不做归一化？

在以下情况下需要进行特征归一化：

（1）涉及或隐含距离计算的算法，比如K-均值、KNN、PCA、SVM等，一般需要进行特征归一化。

因为

•zero-mean一般可以增加样本间余弦距离或者内积结果的差异，区分力更强，假设数据集集中分布在第一象限遥远的右上角，将其平移到原点处，可以想象样本间余弦距离的差异被放大了。

在模版匹配中，zero-mean可以明显提高响应结果的区分度。

•就欧式距离而言，增大某个特征的尺度，相当于增加了其在距离计算中的权重，如果有明确的先验知识表明某个特征很重要，那么适当增加其权重可能有正向效果，但如果没有这样的先验，或者目的就是想知道哪些特征更重要，那么就需要先进行特征归一化，对各维特征等而视之。

•增大尺度的同时也增大了该特征维度上的方差，PCA算法倾向于关注方差较大的特征所在的坐标轴方向，其他特征可能会被忽视，因此，在PCA前做特征归一化效果可能更好

（2）损失函数中含有正则项时，一般需要进行特征归一化。

（3）使用梯度下降算法时，需要进行特征归一化

（4）对于传统的神经网络，对输入做特征归一化也很重要，因为采用sigmoid等有饱和区的激活函数，如果输入分布范围很广，参数初始化时没有适配好，很容易直接陷入饱和区，导致梯度消失，所以，需要对输入做进行特征归一化或映射到[0,1]、[−1,1]，配合精心设计的参数初始化方法，对值域进行控制。

但自从有了BatchNormalization，每次线性变换改变特征分布后，都会重新进行Normalization，似乎可以不太需要对网络的输入进行特征归一化了，但习惯上还是会做特征归一化。

在以下情况下可以不做特征归一化：

（1）与距离计算无关的概率模型，比如朴素贝叶斯分类器，不需要进行特征归一化；

（2）与距离计算无关的基于树的模型，比如决策树、随机森林等，树中节点的选择只关注当前特征在哪里切分对分类更好，即只在意特征内部的相对大小，而与特征间的相对大小无关，不需要进行特征归一化。

7．逻辑斯谛回归为什么用Sigmoid函数？

这个函数有什么优点和缺点？

请见《机器学习导论》第58页。

8．逻辑斯谛回归模型是线性模型还是非线性模型？

是生成式模型还是判别式模型？

为什么？

请见《机器学习导论》第60页。

9．如果样本标签值为0或1，请推导逻辑斯谛回归的对数似然函数。

请见《机器学习导论》第59~60页。

10．平方误差损失函数和交叉熵损失函数分别适合什么场景？

当模型输出预测值与实际观测值之间的误差服从高斯分布的假设成立时，最小化均方误差损失函数与极大似然估计本质上是一致的，在此情形下（比如回归任务），平方误差损失是一个很好的损失函数选择。

交叉熵损失函数一般用于多分类任务，常常与Softmax回归是标配。

11．逻辑斯谛回归为什么使用交叉熵而不使用欧氏距离作为损失函数？

如果使用欧氏距离作为损失函数，那么将逻辑斯谛回归模型的决策函数代入均方误差函数后，得到的代价函数是非凸的，而非凸函数的极值点不唯一，因此最终可能会得到一个局部极值点。

12．逻辑斯谛回归模型和线性回归模型的区别是什么？

Softmax回归和逻辑斯谛回归是什么关系？

‍

逻辑斯谛回归模型和线性回归模型的区别：

（1）逻辑斯谛回归模型适用于分类任务，而线性回归模型适用于回归任务。

（2）线性回归模型一般采用均方误差代价函数，而逻辑斯谛回归模型不能使用均方误差代价函数。

逻辑斯谛回归只适用于二分类问题。

Softmax回归模型是逻辑斯谛回归模型在多分类问题上的推广，类别标签

可以取

个不同的值。

3.4习题

1．请阐述

-最近邻法的基本思想。

-最近邻（kNN）法的基本思想：

给定一个训练样本集，对于待预测类别标签的新输入测试实例，可以在特征空间中计算它与所有训练样本的距离，然后在训练样本集中找到与该测试实例最邻近的

个训练样本（也就是上面所说的

个“邻居”），统计这

个样本所属的类别，其中样本数最多的那个类就是该测试实例所属的类别。

2．

-最近邻法的三个关键要素是什么？

kNN算法涉及以下三个关键要素：

●距离度量，特征空间中样本点的距离是样本点间相似程度的反映。

●算法超参数

的取值。

●决策规则，例如，对于分类任务，采取少数服从多数的“投票法”；对于回归任务，采用取平均值的规则。

3．

-最近邻法有什么优点和缺点？

请见《机器学习导论》第69页。

4．如何选择

-最近邻法中

的取值？

在实际应用中，通常取较小的

值，采用交叉验证法来选择一个合适的

值。

5．请列举常见的距离度量。

常见的距离度量有：

闵可夫斯基距离、曼哈顿距离、欧式距离、切比雪夫距离。

6．在构建k-d树过程中，如何确定划分维度和划分数据点？

请见《机器学习导论》第71页。

7．请简述k-d树的构建过程。

请见《机器学习导论》第72~73页。

4.8习题

1．什么是“支持向量”？

支持向量机的基本原理是什么？

支持向量机有什么特点？

最大间隔和最优超平面可以只由离最优超平面最近的正例样本和反例样本完全确定，我们称这些能确定最优超平面的训练样本为支持向量（SupportVector）。

支持向量机的基本原理是寻找一个分类超平面，不仅能正确地对每一个样本进行分类，并且要使得每一类样本中离超平面最近的样本到超平面的距离尽可能远，即使得间隔（Margin）最大化。

对应最大间隔的分类超平面称为最优超平面。

支持向量机的优缺点，请见《机器学习导论》第89页。

2．简述软间隔SVM和硬间隔SVM的异同点？

分类超平面要满足的约束条件不同，硬间隔SVM的分类超平面要满足式（4-25）的约束条件，软间隔SVM的分类超平面要满足式（4-40）的约束条件，“软间隔”相比于“硬间隔”的约束要求降低了。

3．SVM为什么要求解对偶问题？

为什么对偶问题与原问题等价？

由于求解最优超平面的优化问题带有大量不等式约束，因此不容易求解，而满足Slater条件的凸优化问题可以根据拉格朗日对偶性将其转化为对偶问题求解，通过解相应的拉格朗日乘子可以得到原约束问题的解。

4．SVM如何实现非线性分类？

核函数的作用是什么？

请见《机器学习导论》第95页。

5．常用的核函数有哪些？

核函数的选择对支持向量机的性能有何影响？

常用的核函数有线性核函数、多项式核函数、径向基核函数、Sigmoid核函数。

理论分析与试验结果都表明，支持向量机的性能与核函数的类型、核函数的参数有很大的关系。

然而，目前没有足够的理论来指导如何选择有效的核函数及其参数值，只能凭借经验、试验对比、大范围的搜索或利用软件包提供的交叉验证功能进行寻优。

6．SVM如何解决多分类问题？

首先构造若干个二分类器，然后按照某种规则将它们组合起来实现多分类。

主要有以下几种经典算法：

一对一（One-versus-One，OvO）法、一对余（One-versus-theRest，OvR）法、决策导向无环图（DecisionDirectedAcyclicGraph，DDAG）法、决策二叉树法等。

7．请阐述SVM模型与逻辑斯谛回归模型的异同点。

请见《机器学习导论》第90页。

8．支持向量机适合解决什么问题？

支持向量机常用在哪些领域？

支持向量机（SVM）是一种基于统计学习理论和结构风险最小化原则的机器学习方法，能有效地解决小样本分类和回归任务中的“过学习”、“维数灾难”和局部极小点等问题，具有良好的推广能力。

SVM不仅可以用于模式分类，还可以用于回归分析。

它在解决小样本、非线性及高维模式识别中表现出许多特有的优势。

5.5习题

1．请阐述贝叶斯公式和朴素贝叶斯分类器原理。

贝叶斯公式

朴素贝叶斯分类器原理，请见《机器学习导论》第115页。

2．请解释贝叶斯分类器是生成式模型还是判别式模型。

贝叶斯分类器是一种生成式模型。

因为使用了类别标签的先验概率分布

和类条件概率分布

，两者的乘积就是联合概率分布

，因此它对联合概率分布进行建模。

3．在贝叶斯定理的应用过程中，先验概率如何计算？

先验概率是指根据以往经验和分析得到的概率，可通过全概率公式计算得到。

4．朴素贝叶斯分类器有哪些优缺点？

请见《机器学习导论》第118~119页。

6．请阐述朴素贝叶斯分类模型与逻辑斯谛回归模型与的异同点。

两者相同之处：

朴素贝叶斯分类模型与逻辑斯谛回归模型都应用于分类任务。

两者不同之处：

朴素贝叶斯分类模型是一个生成式模型，在计算P（y|x）之前，先要从训练数据中计算P（x|y）和P（y）的概率，从而利用贝叶斯公式计算P（y|x）。

而逻辑斯谛回归模型是一个判别式模型，它通过在训练数据集上最大化判别函数P（y|x）学习得到，不需要知道P（x|y）和P（y）。

7．如何构建贝叶斯网络？

结合实例，讨论贝叶斯网络的推理过程。

贝叶斯网络是一个有向无环图，每个节点都代表一个随机变量，节点间的有向边代表随机变量间的依赖关系。

此外，每个节点都关联一个概率分布，根节点所对应的是边缘概率分布，而非根节点所对应的是条件概率分布。

请见《机器学习导论》第120~127页。

8．贝叶斯网络适合解决什么问题？

贝叶斯网络可以作为人脑推理过程的一个表达，因为依赖和独立关系是人们日常推理的基本工具，而且人类知识的基本结构也可以用依赖图来表达。

另外，贝叶斯网络使用了严谨的数学语言，适合于程序处理。

6.10习题

1．请解释什么是决策树？

简述决策树的生成策略。

请见《机器学习导论》第130、134页。

2．请阐述决策树的优缺点。

请见《机器学习导论》第150、151页。

3．如何避免决策树过拟合的问题？

决策树本身的特点决定了它比较容易产生过拟合问题，从而导致泛化能力较差。

为了避免过拟合的问题，一般需要对决策树进行剪枝（Pruning）处理，同时控制模型的复杂度。

4．ID3用什么指标作为特征选择的指标？

为什么C4.5算法不使用信息增益，而是使用信息增益比作为特征选择的指标？

ID3使用信息增益作为特征选择的指标。

在ID3算法中，使用信息增益来选择特征（或属性）的一个缺点就是容易倾向于优先选取取值种类较多的特征（或属性），而取值种类较多的特征（或属性）并不一定是最优的特征（或属性）。

针对ID3算法容易倾向于优先选取取值种类较多的特征（或属性）的缺点，C4.5算法的解决办法就是用信息增益比来替代信息增益作为特征（或属性）选择的指标。

5．CART对分类问题和回归问题分别使用什么度量指标作为特征（或属性）选择的指标？

基尼指数可以表示数据不确定性，信息熵也可以表示数据的不确定性，为什么CART使用基尼指数作为特征选择的指标？

CART算法在用于分类任务时，采用基尼指数作为特征（或属性）选择的指标；CART算法在用于回归任务时，采用均方误差最小化准则进行特征（或属性）选择。

因为如果使用信息熵会涉及大量的对数运算，而使用基尼指数可以简化计算，所以，CART使用基尼指数作为特征选择的指标。

6．为什么要对决策树进行剪枝处理？

如何进行剪枝？

请见《机器学习导论》第150页。

7．什么是预剪枝？

什么是后剪枝？

请比

展开阅读全文