奥鹏南开20春学期《数据科学导论》在线作业标准答案.docx

资源描述

奥鹏南开20春学期《数据科学导论》在线作业标准答案.docx

《奥鹏南开20春学期《数据科学导论》在线作业标准答案.docx》由会员分享，可在线阅读，更多相关《奥鹏南开20春学期《数据科学导论》在线作业标准答案.docx（12页珍藏版）》请在冰豆网上搜索。

奥鹏南开20春学期《数据科学导论》在线作业标准答案.docx

奥鹏南开20春学期《数据科学导论》在线作业标准答案

南开大学（本部）

《数据科学导论》在线作业

参考答案

20春学期（1709、1803、1809、1903、1909、2003）《数据科学导论》在线作业

1.实体识别的常见形式（）

【选项】：

A同名异义

B异名同义

C单位不统一

D属性不同

【答案】：

2.例如将工资收入属性值映射到[-1,1]或者[0,1]内属于数据变换中的（）

【选项】：

A简单函数变换

B规范化

C属性构造

D连续属性离散化

【答案】：

3.单层感知机模型属于（）模型。

【选项】：

A二分类的线性分类模型

B二分类的非线性分类模型

C多分类的线性分类模型

D多分类的非线性分类模型

【答案】：

4.通过变量标准化计算得到的回归方程称为（）。

【选项】：

A标准化回归方程

B标准化偏回归方程

C标准化自回归方程

D标准化多回归方程

【答案】：

5.数据库中相关联的两张表都存储了用户的个人信息,但在用户的个人信息发生改变时只更新了一张表中的数据,这时两张表中就有了不一致的数据,这属于（）

【选项】：

A异常值

B缺失值

C不一致的值

D重复值

【答案】：

6.以下哪些不是缺失值的影响（）

【选项】：

A数据建模将丢失大量有用信息

B数据建模的不确定性更加显著

C对整体总是不产生什么作用

D包含空值的数据可能会使建模过程陷入混乱，导致异常的输出

【答案】：

7.层次聚类适合规模较（）的数据集

【选项】：

A大

B中

C小

D所有

【答案】：

8.以下哪个不是处理缺失值的方法（）

【选项】：

A删除记录

B按照一定原则补充

C不处理

D随意填写

【答案】：

9.聚类的最简单最基本方法是（）。

【选项】：

A划分聚类

B层次聚类

C密度聚类

D距离聚类

【答案】：

10.具有偏差和至少（）个S型隐含层加上一个（）输出层的网络能够逼近任何有理数。

【选项】：

A1,线性

B2,线性

C1,非线性

D2,非线性

【答案】：

11.考虑下面的频繁3-项集的集合:

{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用合并策略,由候选产生过程得到4-项集不包含（）

【选项】：

A1,2,3,4

B1,2,3,5

C1,2,4,5

D1,3,4,5

【答案】：

12.在k近邻法中,选择较小的k值时,学习的“近似误差”会（）,“估计误差”会（）。

【选项】：

A减小，减小

B减小，增大

C增大，减小

D增大，增大

【答案】：

13.手肘法的核心指标是（）。

【选项】：

ASES

BSSE

CRMSE

DMSE

【答案】：

14.变量之间的关系一般可以分为确定性关系与（）。

【选项】：

A非确定性关系

B线性关系

C函数关系

D相关关系

【答案】：

15.以下哪一项不属于数据变换（）

【选项】：

A简单函数变换

B规范化

C属性合并

D连续属性离散化

【答案】：

16.以下哪一项不是特征选择常见的方法（）

【选项】：

A过滤式

B封装式

C嵌入式

D开放式

【答案】：

17.通过构造新的指标-线损率,当超出线损率的正常范围,则可以判断这条线路的用户可能存在窃漏电等异常行为属于数据变换中的（）

【选项】：

A简单函数变换

B规范化

C属性构造

D连续属性离散化

【答案】：

18.比如一张表,从业务上讲,一个用户应该只会有一条记录,那么如果某个用户出现了超过一条的记录,这就产生了（）

【选项】：

A异常值

B不一致的值

C重复值

D缺失值

【答案】：

19.某商品的产量（X,件）与单位成本（Y,元/件）之间的回归方程为^Y=100-1.2X,这说明（）。

【选项】：

A产量每增加一台，单位成本增加100元

B产量每增加一台，单位成本减少1.2元

C产量每增加一台，单位成本平均减少1.2元

D产量每增加一台，单位平均增加100元

【答案】：

20.层次聚类对给定的数据进行（）的分解。

【选项】：

A聚合

B层次

C分拆

D复制

【答案】：

21.K-means聚类中K值选取的方法是（）。

【选项】：

A密度分类法

B手肘法

C大腿法

D随机选取

【答案】：

A.B

22.数据科学具有哪些性质（）

【选项】：

A有效性

B可用性

C未预料

D可理解

【答案】：

A.B.C.D

23.多层感知机的学习过程包含（）。

【选项】：

A信号的正向传播

B信号的反向传播

C误差的正向传播

D误差的反向传播

【答案】：

A.D

24.系统日志收集的基本特征有（）

【选项】：

A高可用性

B高可靠性

C可扩展性

D高效率

【答案】：

A.B.C

25.层次聚类的方法是（）

【选项】：

A聚合方法

B分拆方法

C组合方法

D比较方法

【答案】：

A.B

26.距离度量中的距离可以是（）

【选项】：

A欧式距离

B曼哈顿距离

CLp距离

DMinkowski距离

【答案】：

A.B.C.D

27.聚类的主要方法有（）。

【选项】：

A划分聚类

B层次聚类

C密度聚类

D距离聚类

【答案】：

A.B.C

28.相关性的分类,按照相关的方向可以分为（）。

【选项】：

A正相关

B负相关

C左相关

D右相关

【答案】：

A.B

29.对于多层感知机,（）层拥有激活函数的功能神经元。

【选项】：

A输入层

B隐含层

C输出层

【答案】：

B.C

30.什么情况下结点不用划分（）

【选项】：

A当前结点所包含的样本全属于同一类别

B当前属性集为空，或是所有样本在所有属性上取值相同

C当前结点包含的样本集为空

D还有子集不能被基本正确分类

【答案】：

A.B.C

31.信息熵越大,数据信息的不确定性越小。

【选项】：

T对

F错

【答案】：

32.K-means算法采用贪心策略,通过迭代优化来近似求解。

【选项】：

T对

F错

【答案】：

33.K-means聚类是发现给定数据集的K个簇的算法。

【选项】：

T对

F错

【答案】：

34.特征的信息增益越大,则其越不重要。

【选项】：

T对

F错

【答案】：

35.决策树的输入为训练集,输出为以node为根结点的一棵决策树

【选项】：

T对

F错

【答案】：

36.探索性数据分析的特点是研究从原始数据入手,完全以实际数据为依据。

【选项】：

T对

F错

【答案】：

37.sigmoid函数属于阶跃函数,是神经网络中常见的激活函数。

【选项】：

T对

F错

【答案】：

38.在数据预处理时,无论什么情况,都可以直接将异常值删除

【选项】：

T对

F错

【答案】：

39.一般而言,信息增益越大,则意味着使用属性a来进行划分所获得的“纯度提升越大”,因此我们可用信息增益来进行决策树的最优特征选择。

【选项】：

T对

F错

【答案】：

40.当特征为离散型时,可以使用信息增益作为评价统计量。

【选项】：

T对

F错

【答案】：

41.支持度是衡量关联规则重要性的一个指标。

【选项】：

T对

F错

【答案】：

42.交叉表被广泛用于调查研究,商业智能,工程和科学研究

【选项】：

T对

F错

【答案】：

43.BFR聚类簇的坐标可以与空间的坐标保持一致。

【选项】：

T对

F错

【答案】：

44.在树的结构中,特征越重要,就越远离根节点。

【选项】：

T对

F错

【答案】：

45.神经网络中误差精度的提高可以通过增加隐含层中的神经元数目来实现。

【选项】：

T对

F错

【答案】：

46.多元线性回归模型中,标准化偏回归系数没有单位。

【选项】：

T对

F错

【答案】：

47.单层感知机对于线性不可分的数据,学习过程也可以收敛。

【选项】：

T对

F错

【答案】：

48.利用K近邻法进行分类时,使用不同的距离度量所确定的最近邻点都是相同的。

【选项】：

T对

F错

【答案】：

49.EDA可以最大化数据分析者对数据集和数据集底层结构的洞察力,并且为分析者提供数据集中包含的各类信息。

【选项】：

T对

F错

【答案】：

50.对于项集来说,置信度没有意义。

【选项】：

T对

F错

【答案】：

展开阅读全文