数据科学导论南开大学Word下载.docx

资源描述

数据科学导论南开大学Word下载.docx

《数据科学导论南开大学Word下载.docx》由会员分享，可在线阅读，更多相关《数据科学导论南开大学Word下载.docx（14页珍藏版）》请在冰豆网上搜索。

数据科学导论南开大学Word下载.docx

D.还有子集不能被基本正确分类

5、系统日志收集的基本特征不包括（D）

A.高可用性

B.高可靠性

C.可扩展性

D.高效率

6、k近邻法的基本要素不包括（C）。

A.距离度量

B.k值的选择

C.样本大小

D.分类决策规则

7、一元回归参数估计的参数求解方法不包括（D）。

A.最大似然法

B.距估计法

C.最小二乘法

D.欧式距离法

8、下列选项不是BFR的对象是（B）

A.废弃集

B.临时集

C.压缩集

D.留存集

9、聚类的主要方法不包括（D）

A.划分聚类

B.层次聚类

C.密度聚类

D.距离聚类

10、以下哪一项不是特征选择常见的方法（D）

A.过滤式

B.封装式

C.嵌入式

D.开放式

11、以下哪一项不是特征工程的子问题（D）

A.特征创建

B.特征提取

C.特征选择

D.特征识别

12、比如一张表，从业务上讲，一个用户应该只会有一条记录，那么如果某个用户出现了超过一条的记录，这就产生了（C）

A.异常值

B.不一致的值

C.重复值

D.缺失值

13、对于相似性与相异性的度量方法，基于距离的方法，以下哪一项不符合要求（D）

A.欧氏距离

B.曼哈顿距离

C.马氏距离

D.对角距离

14、通过变量标准化计算得到的回归方程称为（A）。

A.标准化回归方程

B.标准化偏回归方程

C.标准化自回归方程

D.标准化多回归方程

15、一元线性回归中，真实值与预测值的差称为样本的（D）。

A.误差

B.方差

C.测差

D.残差

16、在回归分析中，自变量为（），因变量为（D）。

A.离散型变量，离散型变量

B.连续型变量，离散型变量

C.离散型变量，连续型变量

D.连续型变量，连续型变量

17、为了解决任何复杂的分类问题，使用的感知机结构应至少包含（B）个隐含层。

A.1

B.2

C.3

D.4

18、BFR聚类用于在（A）欧氏空间中对数据进行聚类

A.高维

B.中维

C.低维

D.中高维

19、层次聚类对给定的数据进行（B）的分解。

A.聚合

B.层次

C.分拆

D.复制

（二）、判断部分

1、当维度增加时，特征空间的体积增加得很快，使得可用的数据变得稀疏。

（√）

2、数据分析师的任务：

用模型来回答具体问题，了解数据，其来源和结构。

（×

）

3、探索性数据分析的特点是研究从原始数据入手，完全以实际数据为依据。

4、特征的信息增益越大，则其越重要。

5、随着特征维数的增加，样本间区分度提高。

6、多层感知机的学习能力有限，只能处理线性可分的二分类问题。

7、给定一组点，使用点之间的距离概念，将点分组为若干簇，不同簇的成员不可以相同。

8、给定关联规则A→B，意味着：

若A发生，B也会发生。

9、Jaccard系数只关心个体间共同具有的特征是否一致这个问题。

10、集中趋势能够表明在一定条件下数据的独特性质与差异。

11、利用K近邻法进行分类时，使用不同的距离度量所确定的最近邻点都是相同的。

12、利用K近邻法进行分类时，k值过小容易发生过拟合现象。

13、神经网络中误差精度的提高可以通过增加隐含层中的神经元数目来实现。

14、单层感知机对于线性不可分的数据，学习过程也可以收敛。

15、聚合方法是自底向上的方法。

16、如果一个候选集至少有一个子集是非频繁的，根据支持度的反单调属性，这样的候选项集肯定是非频繁的。

17、在k近邻方法中，k值增大意味着整体模型变得复杂。

18、朴素贝叶斯分类器有简单、高效、健壮的特点，但某些属性可能会降低分类。

二、主观部分：

（一）、填空部分

1、二分类问题常用的评价指标是精确率、召回率。

2、朴素贝叶斯分类器建立在一个类条件独立性假设基础之上。

3、在决策树生成算法中，最关键的是如何在每一轮的迭代中选择最优特征。

4、一个关联规则同时满足最小支持度和最小置信度，我们称之为强关联规则。

5、数据科学的过程包括获取数据、数据预处理、数据探索、数据建模、结果展示。

6、Pearson线性相关系数要求连续变量的取值服从正态分布。

7、欧氏距离越小，两个点的相似度就越大，欧氏距离越大，两个点的相似度就越小。

8、数据散度分析表示一组数据离数据中心的距离，多用标准差、方差以及极差进行衡量。

9、在k近邻法中，选择较大的k值时，学习的“近似误差”会增大，“估计误差”会减小。

10、在k近邻法中，通常采用交叉验证法来选取最优的k值。

11、划分聚类采取互斥簇的划分，即每个对象必须恰好属于一个簇。

12、在线性回归分析中，根据自变量的维度不同可以分为一维和d维。

13、反向的基本思想为，通过输出层得到输出结果和期望输出的误差，间接调整隐含层的权值。

14、多层感知机中，隐含层和输出层都是拥有激活函数的功能神经元。

15、神经网络中最基本的成分是神经元模型。

16、密度分类法中，单维的变量可以通过其分布峰的个数来确定K值。

17、在聚类中，使用距离测量来定义相似性

18、Apriori核心算法有两个关键步骤为连接步和剪枝步。

（二）、简答

1、为什么需要标准化偏回归系数？

标准化偏回归系数与普通的偏回归系数之间的关系是什么？

在实际问题中，各自变量都有各自的计量单位以及不同的变异程度，所以不能直接用普通的偏回归系数的大小来比较方程中各个自变量对因变量𝑦

的影响大小，可以利用标准化偏回归系数来衡量。

通过变量标准化计算得到的回归方程称为标准化回归方程，相应的回归系数即为标准化偏回归系数。

标准化偏回归系数与普通的偏回归系数关系如下：

其中

2、简单介绍决策树算法流程

决策树算法流程：

1.首先计算训练数据集的信息熵；

2.计算各特征对数据集的信息增益；

3.选取信息增益最大的特征为最优特征；

4.将数据集按照最优特征进行划分；

5.循环2，3，4直到结点不能划分。

3、一般的关联规则学习的步骤是什么？

关联规则学习的步骤：

1.找出所有的频繁项集；

2.根据频繁项集生成频繁规则；

3.根据置信度等指标进一步过滤筛选规则；

4、请简述K-means聚类的优缺点。

优点：

容易实现。

缺点：

可能收敛到局部最小值，在大规模数据集上收敛较慢。

5、请简述在使用反向传播算法训练多层感知机时，应该如何设置学习的停止条件？

在使用反向传播算法训练多层感知机时，设置学习的停止条件常见的方法有两种。

第一种为设置最大迭代次数，比如使用数据集迭代100次后停止训练；

第二种为将数据分为训练集与验证集，当训练集的误差降低而验证集的误差升高，则停止训练。

6、请简述k近邻法中k的取值对模型的影响。

对于k近邻法中k的取值：

选择较小的k值，相当于用较小的邻域中的训练实例进行预测，学习的“近似误差”会减小，“估计误差”会增大，预测结果会对近邻的点实例点非常敏感。

k值减小意味着整体模型变得复杂，容易发生过拟合。

选择较大的k值，学习的“近似误差”会增大，“估计误差”会减小，与输入实例较远（不相似）的训练实例也会对预测起作用。

k值增大意味着整体模型变得简单。

在应用中，k值一般取一个比较小的数值，通常采用交叉验证法来选取最优的k值。

7、简答特征选择的四个步骤？

特征选择的四个步骤：

1.子集产生

2.子集评估

3.停止条件

4.子集验证

8、探索性数据分析有哪些特点？

探索性数据分析的特点：

1.研究从原始数据入手，完全以实际数据为依据；

2.分析方法从实际出发，不以某种理论为依据；

3.分析工具简单直观，更易于普及。

9、单变量分析的方法主要包括非图形化方法和图形化方法两种，其中非图形化方法中主要求出哪些常量？

非图形化方法中主要求出的变量有：

均值、方差、标准差和峰度系数

10、请简述，对于多层感知机，为什么无法通过简单感知机的学习规则对隐含层进行误差估计。

因为对于各隐含层的节点来说，它们并不直接与外界相连，即不存在期望输出。

所以无法通过简单感知机的学习规则对隐含层进行误差估计。

（三）、计算题

1、已知二维空间有三个点

。

要求：

求出在

时，

距离下

的最近邻点，并得出相应结论。

距离计算公式如下：

=6，

=5，此时最近邻点为

；

=4.24，

=4.12，此时最近邻点为

=3.78，

=4.02，，此时最近邻点为

由此可知，由不同的距离度量所确定的最近邻点是不同的。

2、设变量

和

的普通线性回归方程为

，其中

的标准差

，

请写出

的标准化回归方程，并分析

哪个变量对

的影响强度更大。

标准化偏回归系数与普通的偏回归系数关系为

因此

因此标准化回归方程为

从标准化偏回归系数可以看出

，由此可知

对y的影响强度更大

（四）、论述题

1、在特征选择问题上，贪心算法依据搜索策略的不同可以分为几种？

并简述每种策略是如何进行的？

贪心算法依据搜索策略的不同可以分为3种，分别是前向搜索、后向搜索和双向搜索。

前向搜索：

特征子集从空集产生，迭代的从特征全集中选择特征加入子集。

只能加入特征而不能去除特征。

后向搜索：

特征子集从全集产生，迭代的从子集中删除无关或冗余的特征。

只能去除特征不能加入特征。

双向搜索：

从某个随机的特征子集开始，使用前向搜索向子集中增加新特征，同时使用后向搜索从子集中删除无关或冗余的特征，当两者搜索到一个相同的特征时停止搜索。

2、请简述隐含层神经元个数对于神经网络训练过程的影响。

通过增加其神经元个数，可以提高神经网络的训练精度。

神经元数过少时，网络不能很好的学习，训练的迭代次数较多，训练精度不高。

神经元数过多时，网络功能更强大，精确度更高，但训练的迭代次数也更大，并且可能会出现过拟合现象。

由此，神经网络中，隐含层神经元个数的选取原则是：

在能够解决问题的前提下，再增加1到2个神经元，以加快误差下降速度即可。

展开阅读全文