奥鹏南开大学《数据科学导论》19秋期末考核参考答案资料Word格式文档下载.docx
《奥鹏南开大学《数据科学导论》19秋期末考核参考答案资料Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《奥鹏南开大学《数据科学导论》19秋期末考核参考答案资料Word格式文档下载.docx(14页珍藏版)》请在冰豆网上搜索。
4.K-means聚类适用的数据类型是()。
A数值型数据
B字符型数据
C语音数据
D所有数据
A数值型数据|
5.聚类是一种()。
A有监督学习
B无监督学习
C强化学习
D半监督学习
B无监督学习|
6.在一元线性回归模型中,残差项服从()分布。
A泊松
B正态
C线性
D非线性
B正态|
7.利用最小二乘法对多元线性回归进行参数估计时,其目标为()。
A最小化方差#最小化标准差
B最小化残差平方和
C最大化信息熵
C最大化信息熵|
8.例如将工资收入属性值映射到[-1,1]或者[0,1]内属于数据变换中的()
A简单函数变换
B规范化
C属性构造
D连续属性离散化
B规范化|
9.数据库中相关联的两张表都存储了用户的个人信息,但在用户的个人信息发生改变时只更新了一张表中的数据,这时两张表中就有了不一致的数据,这属于()
A异常值
B缺失值
C不一致的值
D重复值
C不一致的值|
10.单层感知机是由()层神经元组成。
A一
B二
C三
D四
B二|
11.BFR聚类用于在()欧氏空间中对数据进行聚类
A高维
B中维
C低维
D中高维
A高维|
12.聚类的最简单最基本方法是()。
A划分聚类
B层次聚类
C密度聚类
D距离聚类
A划分聚类|
13.只有非零值才重要的二元属性被称作:
(),其中购物篮数据就属于这种属性。
A计数属性
B离散属性
C非对称的二元属性#对称属性
C非对称的二元属性#对称属性|
14.单层感知机拥有()层功能神经元。
A一|
15.通过构造新的指标-线损率,当超出线损率的正常范围,则可以判断这条线路的用户可能存在窃漏电等异常行为属于数据变换中的()
C属性构造|
16.在回归分析中,自变量为(),因变量为()。
A离散型变量,离散型变量
B连续型变量,离散型变量
C离散型变量,连续型变量
D连续型变量,连续型变量
D连续型变量,连续型变量|
17.置信度(confidence)是衡量兴趣度度量()的指标。
A简洁性
B确定性
C实用性
D新颖性
B确定性|
18.数据质量检验的主要任务就是检查原始数据中是否存在“脏数据”,概括性来说,脏数据不包括以下()
A普通值
B异常值
A普通值|
19.具有偏差和至少()个S型隐含层加上一个()输出层的网络能够逼近任何有理数。
A1,线性
B2,线性
C1,非线性
D2,非线性
A1,线性|
20.以下哪一项不属于数据变换()
C属性合并
C属性合并|
21.Apriori算法的计算复杂度受()影响。
A支持度阈值
B项数
C事务数
D事务平均宽度
A支持度阈值|B项数|C事务数|D事务平均宽度|
22.层次聚类的方法是()
A聚合方法
B分拆方法
C组合方法
D比较方法
A聚合方法|B分拆方法|
23.多层感知机的学习过程包含()。
A信号的正向传播
B信号的反向传播
C误差的正向传播
D误差的反向传播
A信号的正向传播|D误差的反向传播|
24.K-means聚类中K值选取的方法是()。
A密度分类法
B手肘法
C大腿法
D随机选取
A密度分类法|B手肘法|
25.下面例子属于分类的是()
A检测图像中是否有人脸出现
B对客户按照贷款风险大小进行分类
C识别手写的数字
D估计商场客流量
A检测图像中是否有人脸出现|B对客户按照贷款风险大小进行分类|C识别手写的数字|
26.关联规则的评价度量主要有:
()。
A支持度
B置信度
C准确率
D错误率
A支持度|B置信度|
27.k近邻法的基本要素包括()。
A距离度量
Bk值的选择
C样本大小
D分类决策规则
A距离度量|Bk值的选择|D分类决策规则|
28.什么情况下结点不用划分()
A当前结点所包含的样本全属于同一类别
B当前属性集为空,或是所有样本在所有属性上取值相同
C当前结点包含的样本集为空
D还有子集不能被基本正确分类
A当前结点所包含的样本全属于同一类别|B当前属性集为空,或是所有样本在所有属性上取值相同|C当前结点包含的样本集为空|
29.系统日志收集的基本特征有()
A高可用性
B高可靠性
C可扩展性
D高效率
A高可用性|B高可靠性|C可扩展性|
30.下列选项是BFR的对象是()
A废弃集
B临时集
C压缩集
D留存集
A废弃集|C压缩集|D留存集|
31.对于多层感知机,()层拥有激活函数的功能神经元。
A输入层
B隐含层
C输出层
B隐含层|C输出层|
32.一元回归参数估计的参数求解方法有()。
A最大似然法
B距估计法
C最小二乘法
D欧式距离法
A最大似然法|B距估计法|C最小二乘法|
33.数据科学具有哪些性质()
A有效性
B可用性
C未预料
D可理解
A有效性|B可用性|C未预料|D可理解|
34.聚类的主要方法有()。
A划分聚类|B层次聚类|C密度聚类|
35.相关性的分类,按照相关的方向可以分为()。
A正相关
B负相关
C左相关
D右相关
A正相关|B负相关|
36.交叉表可以帮助人们发现变量之间的相互作用。
T对
F错
T对|
37.标准BP算法是在读取全部数据集后,对参数进行统一更新的算法。
F错|
38.关联规则可以被广泛地应用于通信、金融、交通、健康医疗和Web用户行为分析等领域。
39.当特征为离散型时,可以使用信息增益作为评价统计量。
40.给定一个数据集,如果存在某个超平面S能够将数据集的部分正实例点和负实例点正确的划分到超平面的两侧,则称该数据集是线性可分数据集。
41.不满足给定评价度量的关联规则是无趣的。
42.两个对象越相似,他们的相异度就越高。
43.决策树还可以表示给定特征条件下类的条件概率分布,这一概率分布定义在特征空间的一个划分上,将特征空间分为互不相交的单元或区域,并在每个单元定义一个类的概率分布就构成了一个条件概率分布
44.特征的信息增益越大,则其越不重要。
45.信息熵越小,样本结合的纯度越低
46.如果一个候选集至少有一个子集是非频繁的,根据支持度的反单调属性,这样的候选项集肯定是非频繁的。
47.EDA可以最大化数据分析者对数据集和数据集底层结构的洞察力,并且为分析者提供数据集中包含的各类信息。
48.当维度增加时,特征空间的体积增加得很快,使得可用的数据变得稠密。
49.多元线性回归模型中,标准化偏回归系数没有单位。
50.决策树分类时将该结点的实例强行分到条件概率大的那一类去
51.每个类的先验概率可以通过属于该类的训练记录所占的比例来估计。
52.K均值(K-Means)算法是密度聚类。
53.关联规则可以用枚举的方法产生。
54.获取数据为数据分析提供了素材和依据,这里的数据只包括直接获取的数据。
55.啤酒与尿布的故事是聚类分析的典型实例。
56.决策树的基本组成由结点和有向边组成,其中结点分为哪两种类型和代表含义是什么?
以及决策树的基本思想?
分类决策树模型是一种描述对实例进行分类的树形结构。
决策树由结点和有向边组成。
结点有两种类型:
内部节点和叶节点,内部节点表示一个特征或属性,叶节点表示一个类。
分类的时候,从根节点开始,当前节点设为根节点,当前节点必定是一种特征,根据实例的该特征的取值,向下移动,直到到达叶节点,将实例分到叶节点对应的类中。
57.单层感知机和多层感知机分别解决的是哪类问题?
【