南开网考在线课程考试《数据分析》复习资料1144766066Word下载.docx

资源描述

南开网考在线课程考试《数据分析》复习资料1144766066Word下载.docx

《南开网考在线课程考试《数据分析》复习资料1144766066Word下载.docx》由会员分享，可在线阅读，更多相关《南开网考在线课程考试《数据分析》复习资料1144766066Word下载.docx（26页珍藏版）》请在冰豆网上搜索。

南开网考在线课程考试《数据分析》复习资料1144766066Word下载.docx

第7章文本分析

（1）文本分析模型

（2）文本话题分析

（3）潜在语义分析

（4）概率潜在语义分析

（5）潜在狄利克雷分配

第8章链接分析

（1）PageRank算法（上）

（2）PageRank算法（下）

（3）HITS算法

（4）链接作弊

第9章社交网络分析

（1）社交网络分析

（2）基于中介度的社团发现

（3）基于图划分的社团发现

第10章推荐系统

（1）推荐系统概述

（2）基于内容的推荐算法

（3）协同过滤推荐算法

一、客观部分：

（单项选择、多项选择）

（一）、单项选择

1以下全表统计量中，不能反映数据集中趋势的是（）

A.均值

B.中位数

C.众数

D.极差

★考核知识点：

基本统计量

参见讲稿章节：

2.2

附1.1.1：

（考核知识点解释）

根据反映出的数据特征可以将基本统计量分为两类：

1.反映数据集中趋势的和2.反应数据波动大小的。

反映数据集中趋势的度量包括均值、中位数和众数。

能够反应数据散布情况的数据波动大小度量包括极差和方差（标准差）。

2.（）是指智能系统在与环境的连续互动中学习最优行为策略的机器学习问题。

A.监督学习

B.无监督学习

C.强化学习

D.主动学习

★考核知识点:

统计学习方法分类

参考讲稿章节：

2.4

附1.1.2（考核知识点解释）：

统计学习或机器学习一般包括监督学习（supervisedlearning）、无监督学习（unsupervisedlearning）、强化学习（reinforcementlearning）。

有时还包括半监督学习（semi-supervised）、主动学习（activelearning）。

监督学习（supervisedlearning）是指从标注数据中学习预测模型的机器学习问题。

无监督学习（unsupervisedlearning）是指从无标注数据中学习预测模型的机器学习问题。

强化学习（reinforcementlearning）是指智能系统在与环境的连续互动中学习最优行为策略的机器学习问题。

半监督学习（semi-supervisedlearning）是指利用标注数据和未标注数据学习预测模型的机器学习问题。

主动学习（activelearning）是指机器不断主动给出实例让教师进行标注，然后利用标注数据学习预测模型的机器学习问题。

3.以下不属于统计学习方法三要素的是（）

A.模型

B.函数

C.策略

D.算法

统计学习方法三要素

2.5

附1.1.3：

统计学习方法都是由模型、策略和算法构成的，即统计学习方法由三要素构成可以简单地表示为方法=模型+策略+算法

4.以下关于Apriori算法描述错误的是（）

A.Apriori算法是一种经典的生成布尔型关联规则的频繁项集挖掘算法。

B.Apriori算法主要步骤包括发现所有的频繁项集、生成强关联规则。

C.Apriori算法只需要扫描两次数据库。

D.频繁项集的子集必为频繁项集，非频繁项集的超集一定是非频繁的。

Apriori算法

3.4

附1.1.4：

Apriori算法是一种经典的生成布尔型关联规则的频繁项集挖掘算法。

Apriori算法步骤：

步骤一：

生成频繁项集，既支持度不低于用于设定阈值的项集

步骤二:

利用频繁项集构造出满足用户最小置信度的关联规则

Apriori算法局限性：

需要多次扫描数据表、产生大量候选集

Apriori算法性质：

性质1：

频繁项集的子集必为频繁项集

性质2：

非频繁项集的超集一定是非频繁的

5.以下不能表达词在文本中的重要程度的是（）

A.布尔权重

B.词频权重

C.TF-IDF权重

D.向量余弦

文本分析模型

7.1

附1.1.5：

最简单、最常用的文本表示方法是利用向量空间模型（vectorspacemodel,VSM），也就是单词向量空间模型（wordvectorspacemodel）来描述文本。

常用的表示词在文本中的重要程度的方法有：

布尔权重、词频权重、TFIDF权重。

布尔权重是最简单的一种加权方式。

布尔权重方法只在一定程度描述了文本的性质，即包含不包含哪些词，并没有体现出文本的全部信息，如词出现次数不同，其对文本的影响也应当不同等问题。

词频（TermFrequency,TF）权重的基本思想是词出现次数不同应当在该特征的权重中有所反映。

TF-IDF是结合了TF（词频）和IDF（逆文本频率）对词在文本中的重要程度进行综合衡量。

文本之间的语义相似度可以用两个单词向量的的内积或标准化内积（余弦）表示。

（二）、多项选择

1.大数据的特征包括（）

A.体量大（Volume）

B.多样性（Variety）

C.速度快（Velocity）

D.价值高（Value）

大数据的特征

1.2

附1.2.1（考核知识点解释）：

目前在描述大数据特征时，一般是按照国际数据公司IDC所提的“4V”模型来刻画，即体量大（Volume）、多样性（Variety）、速度快（Velocity）、价值高（Value）。

1）.体量大（Volume）：

数据量大是大数据的基本属性。

数据规模的大小是用计算机存储容量的单位来计算的，数量的单位从TB级别跃升到PB级别、EB级别，甚至ZB级别。

2）.多样性（Variety）：

大数据除了体量大外，另一个最重要的特征就是数据类型的多样化。

即数据存在形式包括结构化数据、半结构化数据和非结构化数据。

3）速度快（Velocity）：

大数据环境中速度快有两层含义：

一是数据产生速度快；

二是要求数据分析处理速度快。

4）价值高（Value）：

大数据拥有大量有价值信息，通过提炼的信息，能够在更高的层面和视角，将在更大的范围帮助用户提高决策力，洞察未来创造出更大的价值和商机。

2.按照数据结构分类，数据可分为（）

A.结构化数据

B.半结构化数据

C.非结构化数据

D.无结构数据

按照数据结构分，大数据的数据类型

附1.2.2（考核知识点解释）：

在早期，数据类型主要是以结构化数据为主，即传统的关系型数据，主要存储在关系数据库中。

随着互联网应用的深入，特别是社交网络、电子商务、传感器、智能设备的飞速发展，数据也变得更加复杂，出现了网页、web日志、博客、微博、图片、音频、视频、地理位置信息、电子邮件、文档等原始、半结构化、非结构化数据。

其中，视频等非数据占很大比例，有数据表明，到2016年，全部互联网流量中，视频数据达到55％，大数据中90％都是非结构化数据。

并且，大数据不仅仅在形式上多元化，其信息来源、维度也表现出多样性。

3.根据数据分析深度，可将数据分析分为（）

A.关联性分析

B.预测性分析

C.规则性分析

D.描述性分析

根据数据分析深度，数据分析的类型

1.3

附1.2.3：

根据数据分析深度，可将数据分析分为3个层次：

描述性分析（DescriptiveAnalysis），预测性分析（PredictiveAnalysis）和规则性分析（PrescriptiveAnalysis）。

1描述性分析基于历史数据来描述发生的事件。

例如，利用回归分析从数据集中发现简单的趋势，并借助可视化技术来更好地表示数据特征。

2预测性分析用于预测未来事件发生的概率和演化趋势。

例如，预测性模型使用对数回归和线性回归等统计技术发现数据趋势并预测未来的输出结果。

3规则性分析用于解决决策制定和提高分析效率。

例如，利用仿真来分析复杂系统以了解系统行为并发现问题，并通过优化技术在给定约束条件下给出最优解决方案。

4.根据数据分析的实时性，可将数据分析分为（）

A.实时数据分析

D.离线数据分析

按照数据分析的实时性，数据分析的类型

附1.2.4：

按照数据分析的实时性，一般将数据分析分为实时数据分析和离线数据分析。

实时数据分析也称在线数据分析，能够实时处理用户的请求。

离线数据分析通过数据采集工具将日志数据导入专用分析平台进行分析，非实时处理数据。

5.下列哪些方法是分类算法（）

A.决策树

B.Apriori

C.逻辑斯谛回归

D.支持向量机

分类分析

4.1

附1.2.5（考核知识点解释）：

许多统计学习方法可以用于分类，包括k近邻法、感知机、朴素贝叶斯法、决策树、逻辑斯谛回归模型、支持向量机、随机森林等等。

6.k近邻模型的三个基本要素是（）

A.距离度量

B.模型参数估计

C.k值选择

D.分类决策规则

k近邻法

4.2

附1.2.6（考核知识点解释）：

k近邻法使用的模型实际上对应于对特征空间的划分．模型由三个基本要素一一一距离度量、k值的选择和分类决策规则决定．

7.基于相似系数的相似度度量方法包括（）

A.余弦相似度

B.汉明距离

C.Jaccard相似系数

D.皮尔森相关系数

相似度

5.1

附1.2.7：

通过计算相似系数来衡量相似性，常用的相似系数如下：

1.余弦相似度

2.汉明距离

3.Jaccard相似系数

4.皮尔森相关系数

8.聚合聚类需要预先确定以下（）要素

A.距离或相似度

B.合并规则

C.分裂规则

D.停止条件

层次聚类

5.4

附1.2.8：

聚合聚类需要预先确定下面三个要素：

（1）距离或相似度：

（2）合并规则；

（3）停止条件。

根据这些要素的不同组合，就可以构成不同的聚类方法。

距离或相似度可以是闵可夫斯基距离、马哈拉诺比斯距离、相关系数、夹角余弦。

合并规则一般是类间距离最小，类间距离可以是最短距离、最长距离、中心距离、平均距离。

停止条件可以是类的个数达到阈值（极端情况类的个数是1）、类的直径超过阈值。

9.对于不同的数据规模、不同的实时性要求、具有不同固有时空复杂性的问题，所用的大数据分析算法设计技术是不同的，大数据分析算法设计技术包括（）

A.随机算法

B.外存算法

C.并行算法

D.Anytime算法

大数据分析算法

6.1

附1.2.9（考核知识点解释）：

对于不同的数据规模、不同的实时性要求、具有不同固有时空复杂性的问题，所用的算法设计技术是不同的。

1）随机算法。

2）外存算法。

3）并行算法。

4）Anytime算法。

10.在垃圾农场中，整个Web分成（）

A.不可达网页

B.可达网页

C.导航网页

D.自有网页

链接作弊

8.4

附1.2.10（考核知识点解释）：

为提高某个或某些特定网页PageRank值而构建的一系列网页称为垃圾农场（spamfarm）或链接农场（linkfarm）。

右图中给出了垃圾农场的简单形式，按照作弊者的观点，整个Web分成三部分：

不可达网页、可达网页和自有网页。

1）不可达网页：

作弊者无法影响的网页，Web中大部分网页属于不可达网页

2）可达网页：

这些网页虽不受作弊者控制，但是作弊者可影响它们。

例如：

作弊者通常选择博客、报纸或论坛等网页作为可达网页。

虽然作弊者不能控制这类网页，但可通过留言等方式在可达网页中嵌入自有网页的网址。

3）自有网页：

作弊者拥有并完全控制的网页

垃圾农场由作弊者的自有网页和一些从可达网页指向他们的链接共同组成。

由于没有外部指入的链接，垃圾农场就不可能能被搜索引擎采集，因而毫无价值。

二、主观部分：

（一）、名词解释

1.统计学习

统计机器学习

2.3

附2.1.1（考核知识点解释）：

统计学习（statisticallearning）是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。

2.监督学习（supervisedlearning）

监督学习（supervisedlearning）

附2.1.2（考核知识点解释）：

3.无监督学习（unsupervisedlearning）

无监督学习（unsupervisedlearning）

附2.1.3（考核知识点解释）：

4.强化学习（reinforcementlearning）

强化学习（reinforcementlearning）

附2.1.4（考核知识点解释）：

5.主动学习（activelearning）

主动学习（activelearning）

附2.1.5（考核知识点解释）：

6.过拟合

模型评估与模型选择

2.6

附2.1.6（考核知识点解释）：

如果一味追求提高对训练数据的预测能力，所选模型的复杂度则往往会比真模型更高．这种现象称为过拟合（over-fitting）.

过拟合是指学习时选择的模型所包含的参数过多，以致于出现这一模型对己知数据预测得很好，但对未知数据预测得很差的现象。

7.正则化

正则化

2.7

附2.1.7（考核知识点解释）：

正则化是结构风险最小化的策略实现，是在经验风险上加一个正则化项（regularizer）或罚项（penaltyterm）。

8.S折交叉验证

交叉验证

附2.1.8（考核知识点解释）：

S折交叉验证（S-foldcrossvalidation）方法如下：

首先随机地将已给数据切分为S个互不相交的大小相同的子集；

然后利用S一1个子集的数据训练模型，利用余下的子集测试模型；

将这一过程对可能的S种可能（即划分后，把每个子集都当一次测试集其余训练集）重复进行；

最后选出S次评测中平均测试误差最小的模型．

9.回归分析

回归分析

3.2

附2.1.9（考核知识点解释）：

回归分析方法是在众多的相关变量中，根据实际问题考察其中一个或多个变量（因变量）与其余变量（自变量）的依赖关系。

10.相关分析