奥鹏南开20春学期(1709、1803、1809、1903、1909、2003)《数据科学导论》在线作业随机.docx

资源描述

奥鹏南开20春学期(1709、1803、1809、1903、1909、2003)《数据科学导论》在线作业随机.docx

《奥鹏南开20春学期(1709、1803、1809、1903、1909、2003)《数据科学导论》在线作业随机.docx》由会员分享，可在线阅读，更多相关《奥鹏南开20春学期(1709、1803、1809、1903、1909、2003)《数据科学导论》在线作业随机.docx（9页珍藏版）》请在冰豆网上搜索。

奥鹏南开20春学期(1709、1803、1809、1903、1909、2003)《数据科学导论》在线作业随机.docx

1.以下属于关联分析的是（）

A.CPU性能预测 B.购物篮分析 C.自动判断鸢尾花类别 D.股票趋势建模

【参考答案】:

2.哪一项不属于规范化的方法（）

A.最小-最大规范化 B.零-均值规范化 C.小数定标规范化 D.中位数规范化

【参考答案】:

3.实体识别属于以下哪个过程（）

A.数据清洗 B.数据集成 C.数据规约 D.数据变换

【参考答案】:

4.具有偏差和至少（）个S型隐含层加上一个（）输出层的网络能够逼近任何有理数。

A.1,线性 B.2,线性 C.1,非线性 D.2,非线性

【参考答案】:

5.某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,

这种属于数据挖掘的哪类问题?

（）

A.关联规则发现 B.聚类 C.分类 D.自然语言处理

【参考答案】:

6.层次聚类适合规模较（）的数据集

A.大 B.中 C.小 D.所有

【参考答案】:

7.下面不是分类的常用方法的有（）

A.K近邻法 B.朴素贝叶斯 C.决策树 D.条件随机场

【参考答案】:

8.BFR聚类用于在（）欧氏空间中对数据进行聚类

A.高维 B.中维 C.低维 D.中高维

【参考答案】:

9.只有非零值才重要的二元属性被称作:

（）,其中购物篮数据就属于这种属性。

A.计数属性 B.离散属性 C.非对称的二元属性#对称属性

【参考答案】:

10.为了解决任何复杂的分类问题,使用的感知机结构应至少包含（）个隐含层。

A.1 B.2 C.3 D.4

【参考答案】:

11.在回归分析中,自变量为（）,因变量为（）。

A.离散型变量，离散型变量 B.连续型变量，离散型变量 C.离散型变量，连续型变量 D.连续型变量，连续型变量

【参考答案】:

12.维克托?

迈尔-舍恩伯格在《大数据时代:

生活、工作与思维的大变革》一书中,持续强调了一个观点:

大数据时代的到来,使我们无法人为地去

发现数据中的奥妙,与此同时,我们更应该注重数据中的相关关系,而不是因果关系。

其中,数据之间的相关关系可以通过以下哪个算法直接挖掘（）

A.K-means B.BayesNetwork C.C4.5 D.Apriori

【参考答案】:

13.一元线性回归中,真实值与预测值的差称为样本的（）。

A.误差 B.方差 C.测差 D.残差

【参考答案】:

14.以下哪个不是处理缺失值的方法（）

A.删除记录 B.按照一定原则补充 C.不处理 D.随意填写

【参考答案】:

15.数据库中相关联的两张表都存储了用户的个人信息,但在用户的个人信息发生改变时只更新了一张表中的数据,这时两张表中就有了不一致的数据,这属于（）

A.异常值 B.缺失值 C.不一致的值 D.重复值

【参考答案】:

16.根据映射关系的不同可以分为线性回归和（）。

A.对数回归 B.非线性回归 C.逻辑回归 D.多元回归

【参考答案】:

17.在k近邻法中,选择较小的k值时,学习的“近似误差”会（）,“估计误差”会（）。

A.减小，减小 B.减小，增大 C.增大，减小 D.增大，增大

【参考答案】:

18.考虑下面的频繁3-项集的集

合:

{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3

4,5}假定数据集中只有5个项,采用合并策略,由候选产生过程得到

4-项集不包含（）

A.1,2,3,4 B.1,2,3,5 C.1,2,4,5 D.1,3,4,5

【参考答案】:

19.单层感知机模型属于（）模型。

A.二分类的线性分类模型 B.二分类的非线性分类模型 C.多分类的线性分类模型 D.多分类的非线性分类模型

【参考答案】:

20.特征选择的四个步骤中不包括（）

A.子集产生 B.子集评估 C.子集搜索 D.子集验证

【参考答案】:

21.对于多层感知机,（）层拥有激活函数的功能神经元。

A.输入层 B.隐含层 C.输出层

【参考答案】:

22.Apriori算法的计算复杂度受（）影响。

A.支持度阈值 B.项数 C.事务数 D.事务平均宽度

【参考答案】:

ABCD

23.一元回归参数估计的参数求解方法有（）。

A.最大似然法 B.距估计法 C.最小二乘法 D.欧式距离法

【参考答案】:

ABC

24.层次聚类的方法是（）

A.聚合方法 B.分拆方法 C.组合方法 D.比较方法

【参考答案】:

25.相关性的分类,按照相关的方向可以分为（）。

A.正相关 B.负相关 C.左相关 D.右相关

【参考答案】:

26.数据科学具有哪些性质（）

A.有效性 B.可用性 C.未预料 D.可理解

【参考答案】:

ABCD

27.k近邻法的基本要素包括（）。

A.距离度量 B.k值的选择 C.样本大小 D.分类决策规则

【参考答案】:

ABD

28.下列选项是BFR的对象是（）

A.废弃集 B.临时集 C.压缩集 D.留存集

【参考答案】:

ACD

29.什么情况下结点不用划分（）

A.当前结点所包含的样本全属于同一类别 B.当前属性集为空，或是所有样本在所有属性上取值相同 C.当前结点包含的样本集为空 D.还有子集不能被基本正确分类

【参考答案】:

ABC

30.系统日志收集的基本特征有（）

A.高可用性 B.高可靠性 C.可扩展性 D.高效率

【参考答案】:

ABC

31.在一元线性回归中,输入只包含一个单独的特征。

T.对 F.错

【参考答案】:

32.sigmoid函数属于阶跃函数,是神经网络中常见的激活函数。

T.对 F.错

【参考答案】:

33.多层感知机的学习能力有限,只能处理线性可分的二分类问题。

T.对 F.错

【参考答案】:

34.BFR聚类簇的坐标可以与空间的坐标保持一致。

T.对 F.错

【参考答案】:

35.支持度是衡量关联规则重要性的一个指标。

T.对 F.错

【参考答案】:

36.利用K近邻法进行分类时,使用不同的距离度量所确定的最近邻点都是相同的。

T.对 F.错

【参考答案】:

37.信息熵越小,样本结合的纯度越低

T.对 F.错

【参考答案】:

38.在数据预处理时,无论什么情况,都可以直接将异常值删除

T.对 F.错

【参考答案】:

39.决策树的输入为训练集,输出为以node为根结点的一棵决策树

T.对 F.错

【参考答案】:

40.单层感知机对于线性不可分的数据,学习过程也可以收敛。

T.对 F.错

【参考答案】:

41.朴素贝叶斯分类器有简单、高效、健壮的特点,但某些属性可能会降低分类器的性能

T.对 F.错

【参考答案】:

42.随着特征维数的增加,样本间区分度提高。

T.对 F.错

【参考答案】:

43.选择较小的k值,相当于用较小的邻域中的训练实例进行预测,学习的“近似误差”会减小,“估计误差”会增大,预测结果会对近邻的点实例点非常敏感。

T.对 F.错

【参考答案】:

44.一般而言,信息增益越大,则意味着使用属性a来进行划分所获得的“纯度提升越大”,因此我们可用信息增益来进行决策树的最优特征选择。

T.对 F.错

【参考答案】:

45.决策树内部结点表示一个类,叶结点表示一个特征或属性

T.对 F.错

【参考答案】:

46.为了更加准确地描述变量之间的线性相关程度,可以通过计算相关系数来进行相关分析。

T.对 F.错

【参考答案】:

47.K均值（K-Means）算法是密度聚类。

T.对 F.错

【参考答案】:

48.Apriori算法是一种典型的关联规则挖掘算法。

T.对 F.错

【参考答案】:

49.当特征为离散型时,可以使用信息增益作为评价统计量。

T.对 F.错

【参考答案】:

50.EDA可以最大化数据分析者对数据集和数据集底层结构的洞察力,并且为分析者提供数据集中包含的各类信息。

T.对 F.错

【参考答案】:

展开阅读全文

奥鹏南开20春学期(1709、1803、1809、1903、1909、2003)《数据科学导论》在线作业 随机.docx

奥鹏南开20春学期(1709、1803、1809、1903、1909、2003)《数据科学导论》在线作业随机.docx