南开大20秋学期《数据分析》在线作业.docx
《南开大20秋学期《数据分析》在线作业.docx》由会员分享,可在线阅读,更多相关《南开大20秋学期《数据分析》在线作业.docx(12页珍藏版)》请在冰豆网上搜索。
南开大20秋学期《数据分析》在线作业
1.()反映了学习方法对未知的测试数据集的预测能力,是学习中的重要概念。
A.训练误差
B.测试误差
C.统计误差
D.平均误差
参考答案:
B
2.支持向量机的MapReduce实现要进行几轮MapReduce?
()
A.1
B.2
C.3
D.自行规定
参考答案:
D
3.类的R型聚类是指()。
A.对样本个体进行聚类
B.对指标变量进行聚类
参考答案:
B
4.在估计PLSA生成模型的参数时,使用()。
A.极大似然估计
B.对数似然函数
C.特征独立假设
D.贝叶斯定理
参考答案:
A
5.在链接作弊的垃圾农场中,作弊者拥有并完全控制的网页称为()。
A.不可达网页
B.可达网页
C.自有网页
参考答案:
C
6.潜在语义分析创新地引入了()。
A.单词维度
B.文本维度
C.话题维度
参考答案:
C
7.非频繁模式()。
A.其置信度小于阈值
B.令人不感兴趣
C.包含负模式和负相关模式
D.对异常数据项敏感
参考答案:
D
8.置信度(confidence)是衡量兴趣度度量()的指标。
A.简洁性
B.确定性
C.实用性
D.新颖性
参考答案:
B
9.决策树中的叶结点表示()。
A.特征
B.类
C.属性
D.值域输出
参考答案:
B
10.数据产生方式变革中数据产生方式是主动的主要是来自哪个阶段?
()
A.运营式系统阶段
B.用户原创内容阶段
C.感知式系统阶段
参考答案:
B
11.文本中所有单词的出现情况表示了文本的()。
A.种类
B.特征
C.语义内容
D.语义结构
参考答案:
C
12.闵式距离参数是()时代表曼哈顿距离。
A.0
B.1
C.2
D.无穷
参考答案:
B
13.为了计算中介度,必须计算所有边上()的数目。
A.所有路径
B.最短路径
C.结点入度
D.节点出度
参考答案:
B
14.聚类属于()。
A.有监督学习
B.无监督学习
C.强化学习
D.对抗学习
参考答案:
B
15.评价分类器效果时,表示正确分类的样本数与总样本数之比的指标是()。
A.准确率
B.精确率
C.召回率
D.F1值
参考答案:
A
16.逻辑斯谛分布的分布函数范围在()。
A.(-∞,∞)
B.(0,1)
C.(-1/2,1/2)
D.(-1,1)
参考答案:
B
17.Apriori算法的加速过程依赖于以下哪个策略?
()
A.抽样
B.剪枝
C.缓冲
D.并行
参考答案:
B
18.向量空间模型中,将单词在文本中出现的数据用一个()表示。
A.单词-文本矩阵
B.单词-向量矩阵
C.距离矩阵
D.权重矩阵
参考答案:
A
19.潜在语义分析中,以()表示文本的语义内容。
A.话题
B.话题向量
C.语义向量
D.距离向量
参考答案:
B
20.KNN算法用MapReduce实现,要进行几轮MapReduce?
()
A.1
B.2
C.3
D.4
参考答案:
B
21.按社团形成机制分类,社团包括()。
A.明显的社团
B.预定义社团
C.自组织社团
D.隐含的社团
参考答案:
BC
22.决策树的生成过程是()。
A.递归地进行下去,直至所有训练据子集被基本正确分类,或者没有合适的特征为止,最后每个子集都被分到叶结点上,即都有了明确的类
B.如果这些子集已经能够被基本正确分类,那么构建叶结点,并将这些子集分到所对应的叶结点中去
C.构建根结点,将所有训练数据都放在根结点
D.选择一个最优特征,按照这一特征将训练数据集分割成子集,使得各个子集有一个在当前条件下最好的分类
E.如果还有子集不能被基本正确分类,那么就对这些子集选择新的最优特征,继续对其进行分割,构建相应的结点
参考答案:
ABCDE
23.回归分析方法中,按照输入变量个数分类,可分为()。
A.一元回归
B.多元回归
C.线性回归
D.非线性回归
参考答案:
AB
24.下列哪些任务适合构建分类模型?
()
A.银行业务中,客户申请贷款,根据客户的相关数据分析他是属于“诚信”类还是“失信”类
B.邮件系统可以根据email标题和内容区分出垃圾邮件
C.医学研究人员根据病理数据,合理辨识病情状况,采取合理治疗手段
D.房价预测
参考答案:
ABC
25.ID3算法流程为()。
A.从根结点开始,对结点计算所有可能的特征的信息增益,选择信息增益最大的特征作为结点的特征,由该特征的不同取值建立子结点
B.所有特征的信息增益均很小或没有特征可以选择
C.得到一个决策树
D.对子结点递归地调用,构建决策树
参考答案:
ABCD
26.大数据在电信中的应用有()。
A.基于用户、业务及流量分级的多维管控机制
B.精准的客户分析及营销
C.利用位置和轨迹信息服务社会
参考答案:
ABC
27.统计学习方法的组成:
()。
A.监督学习
B.无监督学习
C.强化学习
参考答案:
ABC
28.大数据在教育中的应用:
()。
A.网上公开课
B.慕课
C.智慧校园
D.翻转课堂
参考答案:
ABCD
29.下列属于朴素贝叶斯缺点的是()。
A.分类效果不稳定
B.不适合增量式训练
C.先验模型可能导致结果不佳
D.对缺失数据不太敏感
参考答案:
CD
30.基于分类对象的分类有()。
A.Q型聚类
B.凝聚方式
C.R型聚类
D.分解方式
参考答案:
BD
31.kNN算法中,选择较大的k值“学习”的估计误差会减小。
()
A.正确
B.错误
参考答案:
A
32.SVM是在特征空间上的间隔最大的线性分类器。
()
A.正确
B.错误
参考答案:
A
33.可信度是对关联规则的准确度的衡量。
()
A.正确
B.错误
参考答案:
A
34.要防止过拟合,进行最优的模型选择,即选择复杂度最适当的模型,以达到使测试误差最小的学习目的。
()
A.正确
B.错误
参考答案:
A
35.如果一个网页被很多网页所指向,那么该网页很可能是重要的。
()
A.正确
B.错误
参考答案:
A
36.FP-growth算法可以避免冗余的IO读写。
()
A.正确
B.错误
参考答案:
A
37.通过分析已知训练样本类别的数据集属性,通过训练建立相应分类模型,是监督学习。
()
A.正确
B.错误
参考答案:
A
38.大数据的速度快体现在数据产生速度快和要求分析处理速度快。
()
A.正确
B.错误
参考答案:
A
39.ID3算法的核心是在决策树叶结点上应用信息增益准则选择特征,递归地构建决策树。
()
A.正确
B.错误
参考答案:
B
40.数据采集,又称数据获取,是大数据生命周期的第一个环节,通过RFID射频识别技术、传感器、交互型社交网络以及移动互联网等方式获得的各种类型的结构化、半结构化及非结构化的海量数据。
()
A.正确
B.错误
参考答案:
A
41.TrustRank算法中,创建优质网页集合时,不会选择成员受限的域名。
()
A.正确
B.错误
参考答案:
B
42.聚类分析中,一个类是样本的一个子集。
()
A.正确
B.错误
参考答案:
A
43.决策树中为了防止过拟合现象可以对已生成的树自上而下剪枝。
()
A.正确
B.错误
参考答案:
B
44.k均值聚类是硬聚类。
()
A.正确
B.错误
参考答案:
A
45.关联规则可以用枚举的方法产生。
()
A.正确
B.错误
参考答案:
A
46.DAG中的父节点是唯一的。
()
A.正确
B.错误
参考答案:
B
47.PageRank算法是图数据上的无监督学习方法。
()
A.正确
B.错误
参考答案:
A
48.TF-IDF算法中,IDF指的是文档频率。
()
A.正确
B.错误
参考答案:
B
49.监督学习是从标注数据中学习预测模型的机器学习问题。
()
A.正确
B.错误
参考答案:
A
50.朴素贝叶斯等价于期望风险最小化。
()
A.正确
B.错误
参考答案:
A