南开20秋学期《数据分析》在线作业F335354002C44EEE99.docx

资源描述

南开20秋学期《数据分析》在线作业F335354002C44EEE99.docx

《南开20秋学期《数据分析》在线作业F335354002C44EEE99.docx》由会员分享，可在线阅读，更多相关《南开20秋学期《数据分析》在线作业F335354002C44EEE99.docx（10页珍藏版）》请在冰豆网上搜索。

南开20秋学期《数据分析》在线作业F335354002C44EEE99.docx

南开20秋学期《数据分析》在线作业F335354002C44EEE99

20秋学期（1709、1803、1809、1903、1909、2003、2009）《数据分析》在线作业

（）反映了学习方法对未知的测试数据集的预测能力，是学习中的重要概念

训练误差

测试误差

统计误差

平均误差

答案：

支持向量机的MapReduce实现要进行几轮MapReduce（）

自行规定

答案：

类的R型聚类是指（）

对样本个体进行聚类

对指标变量进行聚类。

答案：

在估计PLSA生成模型的参数时，使用（）

极大似然估计

对数似然函数

特征独立假设

贝叶斯定理

答案：

在链接作弊的垃圾农场中，作弊者拥有并完全控制的网页称为（）

不可达网页

可达网页

自有网页

答案：

潜在语义分析创新地引入了（）

单词维度

文本维度

话题维度

答案：

非频繁模式（）

其置信度小于阈值

令人不感兴趣

包含负模式和负相关模式

对异常数据项敏感

答案：

置信度（confidence）是衡量兴趣度度量（）的指标

简洁性

确定性

实用性

新颖性

答案：

决策树中的叶结点表示（）

特征

类

属性

值域输出

答案：

数据产生方式变革中数据产生方式是主动的主要是来自哪个阶段（）。

运营式系统阶段

用户原创内容阶段

感知式系统阶段

答案：

文本中所有单词的出现情况表示了文本的（）

种类

特征

语义内容

语义结构

答案：

闵式距离参数是（）时代表曼哈顿距离

无穷

答案：

为了计算中介度，必须计算所有边上（）的数目。

所有路径

最短路径

结点入度

节点出度

答案：

聚类属于（）

有监督学习

无监督学习

强化学习

对抗学习

答案：

评价分类器效果时，表示正确分类的样本数与总样本数之比的指标是（）。

准确率

精确率

召回率

F1值

答案：

逻辑斯谛分布的分布函数范围在（）

（-∞，+∞）

（0,1）

（-1/2,1/2）

（-1,1）

答案：

Apriori算法的加速过程依赖于以下哪个策略（）

抽样

剪枝

缓冲

并行

答案：

向量空间模型中，将单词在文本中出现的数据用一个（）表示

单词-文本矩阵

单词-向量矩阵

距离矩阵

权重矩阵

答案：

潜在语义分析中，以（）表示文本的语义内容

话题

话题向量

语义向量

距离向量

答案：

KNN算法用MapReduce实现，要进行几轮MapReduce（）

答案：

按社团形成机制分类，社团包括（）

明显的社团

预定义社团

自组织社团

隐含的社团

答案：

B,C

决策树的生成过程是（）

递归地进行下去，直至所有训练据子集被基本正确分类，或者没有合适的特征为止，最后每个子集都被分到叶结点上，即都有了明确的类

如果这些子集已经能够被基本正确分类，那么构建叶结点，并将这些子集分到所对应的叶结点中去

构建根结点，将所有训练数据都放在根结点

选择一个最优特征，按照这一特征将训练数据集分割成子集，使得各个子集有一个在当前条件下最好的分类

如果还有子集不能被基本正确分类，那么就对这些子集选择新的最优特征，继续对其进行分割，构建相应的结点

答案：

A,B,C,D,E

回归分析方法中，按照输入变量个数分类，可分为

一元回归

多元回归

线性回归

非线性回归

答案：

A,B

下列哪些任务适合构建分类模型（）

银行业务中，客户申请贷款，根据客户的相关数据分析他是属于“诚信”类还是“失信”类

邮件系统可以根据email标题和内容区分出垃圾邮件

医学研究人员根据病理数据，合理辨识病情状况，采取合理治疗手段

房价预测

答案：

A,B,C

ID3算法流程为（）

从根结点开始，对结点计算所有可能的特征的信息增益，选择信息增益最大的特征作为结点的特征，由该特征的不同取值建立子结点

所有特征的信息增益均很小或没有特征可以选择

得到一个决策树

对子结点递归地调用，构建决策树

答案：

A,B,C,D

大数据在电信中的应用有

基于用户、业务及流量分级的多维管控机制

精准的客户分析及营销

利用位置和轨迹信息服务社会

答案：

A,B,C

统计学习方法的组成

监督学习

无监督学习

强化学习

答案：

A,B,C

大数据在教育中的应用

网上公开课

慕课

智慧校园

翻转课堂

答案：

A,B,C,D

下列属于朴素贝叶斯缺点的是（）

分类效果不稳定

不适合增量式训练

先验模型可能导致结果不佳

对缺失数据不太敏感

答案：

C,D

基于分类对象的分类有（）

Q型聚类

凝聚方式

R型聚类

分解方式

答案：

B,D

kNN算法中，选择较大的k值“学习”的估计误差会减小。

（）

对

错

答案：

SVM是在特征空间上的间隔最大的线性分类器。

（）

对

错

答案：

可信度是对关联规则的准确度的衡量。

对

错

答案：

要防止过拟合，进行最优的模型选择，即选择复杂度最适当的模型，以达到使测试误差最小的学习目的

对

错

答案：

如果一个网页被很多网页所指向，那么该网页很可能是重要的。

（）

对

错

答案：

FP-growth算法可以避免冗余的IO读写

对

错

答案：

通过分析已知训练样本类别的数据集属性，通过训练建立相应分类模型，是监督学习。

（）

对

错

答案：

大数据的速度快体现在数据产生速度快和要求分析处理速度快

对

错

答案：

ID3算法的核心是在决策树叶结点上应用信息增益准则选择特征，递归地构建决策树。

对

错

答案：

数据采集，又称数据获取，是大数据生命周期的第一个环节，通过RFID射频识别技术、传感器、交互型社交网络以及移动互联网等方式获得的各种类型的结构化、半结构化及非结构化的海量数据。

对

错

答案：

TrustRank算法中，创建优质网页集合时，不会选择成员受限的域名。

对

错

答案：

聚类分析中，一个类是样本的一个子集。

对

错

答案：

决策树中为了防止过拟合现象可以对已生成的树自上而下剪枝。

（）

对

错

答案：

k均值聚类是硬聚类。

（）

对

错

答案：

关联规则可以用枚举的方法产生。

对

错

答案：

DAG中的父节点是唯一的。

对

错

答案：

PageRank算法是图数据上的无监督学习方法。

（）

对

错

答案：

TF-IDF算法中，IDF指的是文档频率

对

错

答案：

监督学习是从标注数据中学习预测模型的机器学习问题

对

错

答案：

朴素贝叶斯等价于期望风险最小化。

（）

对

错

答案：

展开阅读全文