奥鹏南开课程考试《数据科学导论》19秋期末考核.docx
《奥鹏南开课程考试《数据科学导论》19秋期末考核.docx》由会员分享,可在线阅读,更多相关《奥鹏南开课程考试《数据科学导论》19秋期末考核.docx(16页珍藏版)》请在冰豆网上搜索。
奥鹏南开课程考试《数据科学导论》19秋期末考核
某商品的产量(X,件)与单位成本(Y,元/件)之间的回归方程为^Y=100-1.2X,这说明()。
A.产量每增加一台,单位成本增加100元
B.产量每增加一台,单位成本减少1.2元
C.产量每增加一台,单位成本平均减少1.2元
D.产量每增加一台,单位平均增加100元
正确答案:
C
变量之间的关系一般可以分为确定性关系与()。
A.非确定性关系
B.线性关系
C.函数关系
D.相关关系
正确答案:
A
根据映射关系的不同可以分为线性回归和()。
A.对数回归
B.非线性回归
C.逻辑回归
D.多元回归
正确答案:
B
K-means聚类适用的数据类型是()。
A.数值型数据
B.字符型数据
C.语音数据
D.所有数据
正确答案:
A
聚类是一种()。
A.有监督学习
B.无监督学习
C.强化学习
D.半监督学习
正确答案:
B
在一元线性回归模型中,残差项服从()分布。
A.泊松
B.正态
C.线性
D.非线性
正确答案:
B
利用最小二乘法对多元线性回归进行参数估计时,其目标为()。
A.最小化方差#最小化标准差
B.最小化残差平方和
C.最大化信息熵
正确答案:
C
例如将工资收入属性值映射到[-1,1]或者[0,1]内属于数据变换中的()
A.简单函数变换
B.规范化
C.属性构造
D.连续属性离散化
正确答案:
B
数据库中相关联的两张表都存储了用户的个人信息,但在用户的个人信息发生改变时只更新了一张表中的数据,这时两张表中就有了不一致的数据,这属于()
A.异常值
B.缺失值
C.不一致的值
D.重复值
正确答案:
C
单层感知机是由()层神经元组成。
A.一
B.二
C.三
D.四
正确答案:
B
BFR聚类用于在()欧氏空间中对数据进行聚类
A.高维
B.中维
C.低维
D.中高维
正确答案:
A
聚类的最简单最基本方法是()。
A.划分聚类
B.层次聚类
C.密度聚类
D.距离聚类
正确答案:
A
只有非零值才重要的二元属性被称作:
(),其中购物篮数据就属于这种属性。
A.计数属性
B.离散属性
C.非对称的二元属性#对称属性
正确答案:
C
单层感知机拥有()层功能神经元。
A.一
B.二
C.三
D.四
正确答案:
A
通过构造新的指标-线损率,当超出线损率的正常范围,则可以判断这条线路的用户可能存在窃漏电等异常行为属于数据变换中的()
A.简单函数变换
B.规范化
C.属性构造
D.连续属性离散化
正确答案:
C
在回归分析中,自变量为(),因变量为()。
A.离散型变量,离散型变量
B.连续型变量,离散型变量
C.离散型变量,连续型变量
D.连续型变量,连续型变量
正确答案:
D
置信度(confidence)是衡量兴趣度度量()的指标。
A.简洁性
B.确定性
C.实用性
D.新颖性
正确答案:
B
数据质量检验的主要任务就是检查原始数据中是否存在“脏数据”,概括性来说,脏数据不包括以下()
A.普通值
B.异常值
C.不一致的值
D.重复值
正确答案:
A
具有偏差和至少()个S型隐含层加上一个()输出层的网络能够逼近任何有理数。
A.1,线性
B.2,线性
C.1,非线性
D.2,非线性
正确答案:
A
以下哪一项不属于数据变换()
A.简单函数变换
B.规范化
C.属性合并
D.连续属性离散化
正确答案:
C
Apriori算法的计算复杂度受()影响。
A.支持度阈值
B.项数
C.事务数
D.事务平均宽度
正确答案:
ABCD
层次聚类的方法是()
A.聚合方法
B.分拆方法
C.组合方法
D.比较方法
正确答案:
AB
多层感知机的学习过程包含()。
A.信号的正向传播
B.信号的反向传播
C.误差的正向传播
D.误差的反向传播
正确答案:
AD
K-means聚类中K值选取的方法是()。
A.密度分类法
B.手肘法
C.大腿法
D.随机选取
正确答案:
AB
下面例子属于分类的是()
A.检测图像中是否有人脸出现
B.对客户按照贷款风险大小进行分类
C.识别手写的数字
D.估计商场客流量
正确答案:
ABC
关联规则的评价度量主要有:
()。
A.支持度
B.置信度
C.准确率
D.错误率
正确答案:
AB
k近邻法的基本要素包括()。
A.距离度量
B.k值的选择
C.样本大小
D.分类决策规则
正确答案:
ABD
什么情况下结点不用划分()
A.当前结点所包含的样本全属于同一类别
B.当前属性集为空,或是所有样本在所有属性上取值相同
C.当前结点包含的样本集为空
D.还有子集不能被基本正确分类
正确答案:
ABC
系统日志收集的基本特征有()
A.高可用性
B.高可靠性
C.可扩展性
D.高效率
正确答案:
ABC
下列选项是BFR的对象是()
A.废弃集
B.临时集
C.压缩集
D.留存集
正确答案:
ACD
对于多层感知机,()层拥有激活函数的功能神经元。
A.输入层
B.隐含层
C.输出层
正确答案:
BC
一元回归参数估计的参数求解方法有()。
A.最大似然法
B.距估计法
C.最小二乘法
D.欧式距离法
正确答案:
ABC
数据科学具有哪些性质()
A.有效性
B.可用性
C.未预料
D.可理解
正确答案:
ABCD
聚类的主要方法有()。
A.划分聚类
B.层次聚类
C.密度聚类
D.距离聚类
正确答案:
ABC
相关性的分类,按照相关的方向可以分为()。
A.正相关
B.负相关
C.左相关
D.右相关
正确答案:
AB
交叉表可以帮助人们发现变量之间的相互作用。
T.对
F.错
正确答案:
A
标准BP算法是在读取全部数据集后,对参数进行统一更新的算法。
T.对
F.错
正确答案:
B
关联规则可以被广泛地应用于通信、金融、交通、健康医疗和Web用户行为分析等领域。
T.对
F.错
正确答案:
A
当特征为离散型时,可以使用信息增益作为评价统计量。
T.对
F.错
正确答案:
A
给定一个数据集,如果存在某个超平面S能够将数据集的部分正实例点和负实例点正确的划分到超平面的两侧,则称该数据集是线性可分数据集。
T.对
F.错
正确答案:
B
不满足给定评价度量的关联规则是无趣的。
T.对
F.错
正确答案:
B
两个对象越相似,他们的相异度就越高。
T.对
F.错
正确答案:
B
决策树还可以表示给定特征条件下类的条件概率分布,这一概率分布定义在特征空间的一个划分上,将特征空间分为互不相交的单元或区域,并在每个单元定义一个类的概率分布就构成了一个条件概率分布
T.对
F.错
正确答案:
A
特征的信息增益越大,则其越不重要。
T.对
F.错
正确答案:
B
信息熵越小,样本结合的纯度越低
T.对
F.错
正确答案:
B
如果一个候选集至少有一个子集是非频繁的,根据支持度的反单调属性,这样的候选项集肯定是非频繁的。
T.对
F.错
正确答案:
A
EDA可以最大化数据分析者对数据集和数据集底层结构的洞察力,并且为分析者提供数据集中包含的各类信息。
T.对
F.错
正确答案:
A
当维度增加时,特征空间的体积增加得很快,使得可用的数据变得稠密。
T.对
F.错
正确答案:
B
多元线性回归模型中,标准化偏回归系数没有单位。
T.对
F.错
正确答案:
A
决策树分类时将该结点的实例强行分到条件概率大的那一类去
T.对
F.错
正确答案:
A
每个类的先验概率可以通过属于该类的训练记录所占的比例来估计。
T.对
F.错
正确答案:
A
K均值(K-Means)算法是密度聚类。
T.对
F.错
正确答案:
B
关联规则可以用枚举的方法产生。
T.对
F.错
正确答案:
A
获取数据为数据分析提供了素材和依据,这里的数据只包括直接获取的数据。
T.对
F.错
正确答案:
B
啤酒与尿布的故事是聚类分析的典型实例。
T.对
F.错
正确答案:
B
决策树的基本组成由结点和有向边组成,其中结点分为哪两种类型和代表含义是什么?
以及决策树的基本思想?
正确答案:
BAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAACAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
单层感知机和多层感知机分别解决的是哪类问题?
正确答案:
BAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAACAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
什么是神经网络?
神经网络中最基本的成分是什么?
正确答案:
BAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAACAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA