奥鹏南开大学《数据科学导论》19秋期末考核参考答案资料Word格式文档下载.docx

资源描述

奥鹏南开大学《数据科学导论》19秋期末考核参考答案资料Word格式文档下载.docx

《奥鹏南开大学《数据科学导论》19秋期末考核参考答案资料Word格式文档下载.docx》由会员分享，可在线阅读，更多相关《奥鹏南开大学《数据科学导论》19秋期末考核参考答案资料Word格式文档下载.docx（14页珍藏版）》请在冰豆网上搜索。

奥鹏南开大学《数据科学导论》19秋期末考核参考答案资料Word格式文档下载.docx

4.K-means聚类适用的数据类型是（）。

A数值型数据

B字符型数据

C语音数据

D所有数据

A数值型数据|

5.聚类是一种（）。

A有监督学习

B无监督学习

C强化学习

D半监督学习

B无监督学习|

6.在一元线性回归模型中,残差项服从（）分布。

A泊松

B正态

C线性

D非线性

B正态|

7.利用最小二乘法对多元线性回归进行参数估计时,其目标为（）。

A最小化方差#最小化标准差

B最小化残差平方和

C最大化信息熵

C最大化信息熵|

8.例如将工资收入属性值映射到[-1,1]或者[0,1]内属于数据变换中的（）

A简单函数变换

B规范化

C属性构造

D连续属性离散化

B规范化|

9.数据库中相关联的两张表都存储了用户的个人信息,但在用户的个人信息发生改变时只更新了一张表中的数据,这时两张表中就有了不一致的数据,这属于（）

A异常值

B缺失值

C不一致的值

D重复值

C不一致的值|

10.单层感知机是由（）层神经元组成。

A一

B二

C三

D四

B二|

11.BFR聚类用于在（）欧氏空间中对数据进行聚类

A高维

B中维

C低维

D中高维

A高维|

12.聚类的最简单最基本方法是（）。

A划分聚类

B层次聚类

C密度聚类

D距离聚类

A划分聚类|

13.只有非零值才重要的二元属性被称作:

（）,其中购物篮数据就属于这种属性。

A计数属性

B离散属性

C非对称的二元属性#对称属性

C非对称的二元属性#对称属性|

14.单层感知机拥有（）层功能神经元。

A一|

15.通过构造新的指标-线损率,当超出线损率的正常范围,则可以判断这条线路的用户可能存在窃漏电等异常行为属于数据变换中的（）

C属性构造|

16.在回归分析中,自变量为（）,因变量为（）。

A离散型变量，离散型变量

B连续型变量，离散型变量

C离散型变量，连续型变量

D连续型变量，连续型变量

D连续型变量，连续型变量|

17.置信度（confidence）是衡量兴趣度度量（）的指标。

A简洁性

B确定性

C实用性

D新颖性

B确定性|

18.数据质量检验的主要任务就是检查原始数据中是否存在“脏数据”,概括性来说,脏数据不包括以下（）

A普通值

B异常值

A普通值|

19.具有偏差和至少（）个S型隐含层加上一个（）输出层的网络能够逼近任何有理数。

A1,线性

B2,线性

C1,非线性

D2,非线性

A1,线性|

20.以下哪一项不属于数据变换（）

C属性合并

C属性合并|

21.Apriori算法的计算复杂度受（）影响。

A支持度阈值

B项数

C事务数

D事务平均宽度

A支持度阈值|B项数|C事务数|D事务平均宽度|

22.层次聚类的方法是（）

A聚合方法

B分拆方法

C组合方法

D比较方法

A聚合方法|B分拆方法|

23.多层感知机的学习过程包含（）。

A信号的正向传播

B信号的反向传播

C误差的正向传播

D误差的反向传播

A信号的正向传播|D误差的反向传播|

24.K-means聚类中K值选取的方法是（）。

A密度分类法

B手肘法

C大腿法

D随机选取

A密度分类法|B手肘法|

25.下面例子属于分类的是（）

A检测图像中是否有人脸出现

B对客户按照贷款风险大小进行分类

C识别手写的数字

D估计商场客流量

A检测图像中是否有人脸出现|B对客户按照贷款风险大小进行分类|C识别手写的数字|

26.关联规则的评价度量主要有:

（）。

A支持度

B置信度

C准确率

D错误率

A支持度|B置信度|

27.k近邻法的基本要素包括（）。

A距离度量

Bk值的选择

C样本大小

D分类决策规则

A距离度量|Bk值的选择|D分类决策规则|

28.什么情况下结点不用划分（）

A当前结点所包含的样本全属于同一类别

B当前属性集为空，或是所有样本在所有属性上取值相同

C当前结点包含的样本集为空

D还有子集不能被基本正确分类

A当前结点所包含的样本全属于同一类别|B当前属性集为空，或是所有样本在所有属性上取值相同|C当前结点包含的样本集为空|

29.系统日志收集的基本特征有（）

A高可用性

B高可靠性

C可扩展性

D高效率

A高可用性|B高可靠性|C可扩展性|

30.下列选项是BFR的对象是（）

A废弃集

B临时集

C压缩集

D留存集

A废弃集|C压缩集|D留存集|

31.对于多层感知机,（）层拥有激活函数的功能神经元。

A输入层

B隐含层

C输出层

B隐含层|C输出层|

32.一元回归参数估计的参数求解方法有（）。

A最大似然法

B距估计法

C最小二乘法

D欧式距离法

A最大似然法|B距估计法|C最小二乘法|

33.数据科学具有哪些性质（）

A有效性

B可用性

C未预料

D可理解

A有效性|B可用性|C未预料|D可理解|

34.聚类的主要方法有（）。

A划分聚类|B层次聚类|C密度聚类|

35.相关性的分类,按照相关的方向可以分为（）。

A正相关

B负相关

C左相关

D右相关

A正相关|B负相关|

36.交叉表可以帮助人们发现变量之间的相互作用。

T对

F错

T对|

37.标准BP算法是在读取全部数据集后,对参数进行统一更新的算法。

F错|

38.关联规则可以被广泛地应用于通信、金融、交通、健康医疗和Web用户行为分析等领域。

39.当特征为离散型时,可以使用信息增益作为评价统计量。

40.给定一个数据集,如果存在某个超平面S能够将数据集的部分正实例点和负实例点正确的划分到超平面的两侧,则称该数据集是线性可分数据集。

41.不满足给定评价度量的关联规则是无趣的。

42.两个对象越相似,他们的相异度就越高。

43.决策树还可以表示给定特征条件下类的条件概率分布,这一概率分布定义在特征空间的一个划分上,将特征空间分为互不相交的单元或区域,并在每个单元定义一个类的概率分布就构成了一个条件概率分布

44.特征的信息增益越大,则其越不重要。

45.信息熵越小,样本结合的纯度越低

46.如果一个候选集至少有一个子集是非频繁的,根据支持度的反单调属性,这样的候选项集肯定是非频繁的。

47.EDA可以最大化数据分析者对数据集和数据集底层结构的洞察力,并且为分析者提供数据集中包含的各类信息。

48.当维度增加时,特征空间的体积增加得很快,使得可用的数据变得稠密。

49.多元线性回归模型中,标准化偏回归系数没有单位。

50.决策树分类时将该结点的实例强行分到条件概率大的那一类去

51.每个类的先验概率可以通过属于该类的训练记录所占的比例来估计。

52.K均值（K-Means）算法是密度聚类。

53.关联规则可以用枚举的方法产生。

54.获取数据为数据分析提供了素材和依据,这里的数据只包括直接获取的数据。

55.啤酒与尿布的故事是聚类分析的典型实例。

56.决策树的基本组成由结点和有向边组成，其中结点分为哪两种类型和代表含义是什么？

以及决策树的基本思想？

分类决策树模型是一种描述对实例进行分类的树形结构。

决策树由结点和有向边组成。

结点有两种类型：

内部节点和叶节点，内部节点表示一个特征或属性，叶节点表示一个类。

分类的时候，从根节点开始，当前节点设为根节点，当前节点必定是一种特征，根据实例的该特征的取值，向下移动，直到到达叶节点，将实例分到叶节点对应的类中。

57.单层感知机和多层感知机分别解决的是哪类问题？

【

展开阅读全文