南开20秋学期《数据分析》在线作业F335354002C44EEE99.docx
《南开20秋学期《数据分析》在线作业F335354002C44EEE99.docx》由会员分享,可在线阅读,更多相关《南开20秋学期《数据分析》在线作业F335354002C44EEE99.docx(10页珍藏版)》请在冰豆网上搜索。
![南开20秋学期《数据分析》在线作业F335354002C44EEE99.docx](https://file1.bdocx.com/fileroot1/2022-12/27/b7a245c1-2766-4f94-92a9-0fc8e35bf778/b7a245c1-2766-4f94-92a9-0fc8e35bf7781.gif)
南开20秋学期《数据分析》在线作业F335354002C44EEE99
20秋学期(1709、1803、1809、1903、1909、2003、2009)《数据分析》在线作业
()反映了学习方法对未知的测试数据集的预测能力,是学习中的重要概念
A:
训练误差
B:
测试误差
C:
统计误差
D:
平均误差
答案:
B
支持向量机的MapReduce实现要进行几轮MapReduce()
A:
1
B:
2
C:
3
D:
自行规定
答案:
D
类的R型聚类是指()
A:
对样本个体进行聚类
B:
对指标变量进行聚类。
答案:
B
在估计PLSA生成模型的参数时,使用()
A:
极大似然估计
B:
对数似然函数
C:
特征独立假设
D:
贝叶斯定理
答案:
A
在链接作弊的垃圾农场中,作弊者拥有并完全控制的网页称为()
A:
不可达网页
B:
可达网页
C:
自有网页
答案:
C
潜在语义分析创新地引入了()
A:
单词维度
B:
文本维度
C:
话题维度
答案:
C
非频繁模式()
A:
其置信度小于阈值
B:
令人不感兴趣
C:
包含负模式和负相关模式
D:
对异常数据项敏感
答案:
D
置信度(confidence)是衡量兴趣度度量()的指标
A:
简洁性
B:
确定性
C:
实用性
D:
新颖性
答案:
B
决策树中的叶结点表示()
A:
特征
B:
类
C:
属性
D:
值域输出
答案:
B
数据产生方式变革中数据产生方式是主动的主要是来自哪个阶段()。
A:
运营式系统阶段
B:
用户原创内容阶段
C:
感知式系统阶段
答案:
B
文本中所有单词的出现情况表示了文本的()
A:
种类
B:
特征
C:
语义内容
D:
语义结构
答案:
C
闵式距离参数是()时代表曼哈顿距离
A:
0
B:
1
C:
2
D:
无穷
答案:
B
为了计算中介度,必须计算所有边上()的数目。
A:
所有路径
B:
最短路径
C:
结点入度
D:
节点出度
答案:
B
聚类属于()
A:
有监督学习
B:
无监督学习
C:
强化学习
D:
对抗学习
答案:
B
评价分类器效果时,表示正确分类的样本数与总样本数之比的指标是()。
A:
准确率
B:
精确率
C:
召回率
D:
F1值
答案:
A
逻辑斯谛分布的分布函数范围在()
A:
(-∞,+∞)
B:
(0,1)
C:
(-1/2,1/2)
D:
(-1,1)
答案:
B
Apriori算法的加速过程依赖于以下哪个策略()
A:
抽样
B:
剪枝
C:
缓冲
D:
并行
答案:
B
向量空间模型中,将单词在文本中出现的数据用一个()表示
A:
单词-文本矩阵
B:
单词-向量矩阵
C:
距离矩阵
D:
权重矩阵
答案:
A
潜在语义分析中,以()表示文本的语义内容
A:
话题
B:
话题向量
C:
语义向量
D:
距离向量
答案:
B
KNN算法用MapReduce实现,要进行几轮MapReduce()
A:
1
B:
2
C:
3
D:
4
答案:
B
按社团形成机制分类,社团包括()
A:
明显的社团
B:
预定义社团
C:
自组织社团
D:
隐含的社团
答案:
B,C
决策树的生成过程是()
A:
递归地进行下去,直至所有训练据子集被基本正确分类,或者没有合适的特征为止,最后每个子集都被分到叶结点上,即都有了明确的类
B:
如果这些子集已经能够被基本正确分类,那么构建叶结点,并将这些子集分到所对应的叶结点中去
C:
构建根结点,将所有训练数据都放在根结点
D:
选择一个最优特征,按照这一特征将训练数据集分割成子集,使得各个子集有一个在当前条件下最好的分类
E:
如果还有子集不能被基本正确分类,那么就对这些子集选择新的最优特征,继续对其进行分割,构建相应的结点
答案:
A,B,C,D,E
回归分析方法中,按照输入变量个数分类,可分为
A:
一元回归
B:
多元回归
C:
线性回归
D:
非线性回归
答案:
A,B
下列哪些任务适合构建分类模型()
A:
银行业务中,客户申请贷款,根据客户的相关数据分析他是属于“诚信”类还是“失信”类
B:
邮件系统可以根据email标题和内容区分出垃圾邮件
C:
医学研究人员根据病理数据,合理辨识病情状况,采取合理治疗手段
D:
房价预测
答案:
A,B,C
ID3算法流程为()
A:
从根结点开始,对结点计算所有可能的特征的信息增益,选择信息增益最大的特征作为结点的特征,由该特征的不同取值建立子结点
B:
所有特征的信息增益均很小或没有特征可以选择
C:
得到一个决策树
D:
对子结点递归地调用,构建决策树
答案:
A,B,C,D
大数据在电信中的应用有
A:
基于用户、业务及流量分级的多维管控机制
B:
精准的客户分析及营销
C:
利用位置和轨迹信息服务社会
答案:
A,B,C
统计学习方法的组成
A:
监督学习
B:
无监督学习
C:
强化学习
答案:
A,B,C
大数据在教育中的应用
A:
网上公开课
B:
慕课
C:
智慧校园
D:
翻转课堂
答案:
A,B,C,D
下列属于朴素贝叶斯缺点的是()
A:
分类效果不稳定
B:
不适合增量式训练
C:
先验模型可能导致结果不佳
D:
对缺失数据不太敏感
答案:
C,D
基于分类对象的分类有()
A:
Q型聚类
B:
凝聚方式
C:
R型聚类
D:
分解方式
答案:
B,D
kNN算法中,选择较大的k值“学习”的估计误差会减小。
()
A:
对
B:
错
答案:
A
SVM是在特征空间上的间隔最大的线性分类器。
()
A:
对
B:
错
答案:
A
可信度是对关联规则的准确度的衡量。
A:
对
B:
错
答案:
A
要防止过拟合,进行最优的模型选择,即选择复杂度最适当的模型,以达到使测试误差最小的学习目的
A:
对
B:
错
答案:
A
如果一个网页被很多网页所指向,那么该网页很可能是重要的。
()
A:
对
B:
错
答案:
A
FP-growth算法可以避免冗余的IO读写
A:
对
B:
错
答案:
A
通过分析已知训练样本类别的数据集属性,通过训练建立相应分类模型,是监督学习。
()
A:
对
B:
错
答案:
A
大数据的速度快体现在数据产生速度快和要求分析处理速度快
A:
对
B:
错
答案:
A
ID3算法的核心是在决策树叶结点上应用信息增益准则选择特征,递归地构建决策树。
A:
对
B:
错
答案:
B
数据采集,又称数据获取,是大数据生命周期的第一个环节,通过RFID射频识别技术、传感器、交互型社交网络以及移动互联网等方式获得的各种类型的结构化、半结构化及非结构化的海量数据。
A:
对
B:
错
答案:
A
TrustRank算法中,创建优质网页集合时,不会选择成员受限的域名。
A:
对
B:
错
答案:
B
聚类分析中,一个类是样本的一个子集。
A:
对
B:
错
答案:
A
决策树中为了防止过拟合现象可以对已生成的树自上而下剪枝。
()
A:
对
B:
错
答案:
B
k均值聚类是硬聚类。
()
A:
对
B:
错
答案:
A
关联规则可以用枚举的方法产生。
A:
对
B:
错
答案:
A
DAG中的父节点是唯一的。
A:
对
B:
错
答案:
B
PageRank算法是图数据上的无监督学习方法。
()
A:
对
B:
错
答案:
A
TF-IDF算法中,IDF指的是文档频率
A:
对
B:
错
答案:
B
监督学习是从标注数据中学习预测模型的机器学习问题
A:
对
B:
错
答案:
A
朴素贝叶斯等价于期望风险最小化。
()
A:
对
B:
错
答案:
A