《大数据导论》复习资料.docx

资源描述

《大数据导论》复习资料.docx

《《大数据导论》复习资料.docx》由会员分享，可在线阅读，更多相关《《大数据导论》复习资料.docx（27页珍藏版）》请在冰豆网上搜索。

《大数据导论》复习资料.docx

《大数据导论》复习资料

大数据导论》课程期末复习资料

大数据导论》课程讲稿章节目录：

第1章大数据概述

（1）大数据的概念

（2）大数据的特征

（3）大数据的数据类型

（4）大数据的技术

（5）大数据的应用第2章大数据采集与预处理

（1）大数据采集

（2）大数据预处理概述

（3）数据清洗

（4）数据集成

（5）数据变换

（6）数据规约第3章大数据存储

（1）大数据存储概述

（2）数据存储介质

（3）存储系统结构

（4）云存储概述

（5）云存储技术

（6）新型数据存储系统

（7）数据仓库第4章大数据计算平台

（1）云计算概述

（2）云计算平台

（3）MapReduce平台

（4）Hadoop平台

（5）Spark平台

第5章大数据分析与挖掘

（1）大数据分析概述

（2）大数据分析的类型及架构（3）大数据挖掘

（4）大数据关联分析

（5）大数据分类

（6）大数据聚类（7）大数据分析工具第6章大数据可视化

（1）大数据可视化概述

（2）大数据可视化方法（3）大数据可视化工具第7章社交大数据

（1）社交大数据

（2）国内社交网络大数据的应用（3）国外社交网络大数据的应用第8章交通大数据

（1）交通大数据概述

（2）交通监测应用（3）预测人类移动行为应用第9章医疗大数据

（1）医疗大数据简介

（2）临床决策分析应用（3）医疗数据系统分析第10章大数据的挑战与发展趋势

（1）大数据发展面临的挑战

（2）大数据的发展趋势

、客观部分：

（单项选择、多项选择）

一）、单项选择

1.以下不是NoSQL数据库的是（）

A.MongoDB

B.HBase

C.Cassandra

D.DB2

★考核知识点:

NoSQL与NewSQL主流系统参考讲稿章节：

3.7

附1.1.1（考核知识点解释）：

目前市场上主要的NoSQL数据存储工具有：

BigTable、Dynamo、MongoDB、CouchDB、Hypertable

还存在一些其他的开源的NoSQL数据库，Neo4j、OracleBerkeleyDBCassandra等

另外，NewSQL数据库。

例如：

GoogleSpanne、rVoltDB、RethinkDB、TokuDB和MemSQL等。

Hbase、

Apache

Clustrix、

2以下不是目前主流开源分布式计算系统的是（）

A.Azure

B.Hadoop

C.Spark

D.Storm

★考核知识点：

主流开源分布式计算系统

参见讲稿章节：

4.2

附1.1.2：

（考核知识点解释）

由于Google没有开源Google分布式计算模型的技术实现，所以其他互联网公司只能根据Google三篇技术论文中的相关原理，搭建自己的分布式计算系统。

Yahoo的工程师DougCutting和MikeCafarella在2005年合作开发了分布式计算系统Hadoop。

后来，Hadoop被贡献给了Apache基金会，成为了Apache基金会的开源项目。

Hadoop采用MapReduce分布式计算框架，并根据GFS开发了HDFS分布式文件系统，根据BigTable开发了HBase数据存储系统。

尽管和Google内部使用的分布式计算系统原理相同，但是Hadoop在运算速度上依然达不到Google论文中的标准。

不过，Hadoop的开源特性使其成为分布式计算系统的事实上的国际标准。

Yahoo，Facebook，Amazon以及国内的XX、阿里巴巴等众多互联网公司都以Hadoop为基础搭建自己的分布式计算系统。

Spark也是Apache基金会的开源项目，它由加州大学伯克利分校的实验室开发，是另外一种重要的分布式计算系统。

它在Hadoop的基础上进行了一些架构上的改良。

Storm是Twitter主推的分布式计算系统，它由BackType团队开发，是Apache基金会的孵化项目。

它在Hadoop的基础上提供了实时运算的特性，可以实时地处理大数据流。

Hadoop,Spark和Storm是目前最重要的三大分布式计算系统，Hadoop常用于离线的、复杂的大数据处理，spark常用于离线的、快速的大数据处理，而storm常用于在线的、实时的大数据处理。

3.Apriori算法是一种（）算法

A.关联规则

B.聚类

C.分类

D.预测

★考核知识点：

大数据挖掘算法参见讲稿章节：

5.3-5.7

附1.1.2：

（考核知识点解释）

关联分析（AssociationanalysiS是从有噪声的、模糊的、随机的海量数据中，挖掘出隐藏的、事先不知道、但是有潜在关联的信息或知识的过程，或称关联规则学习（Associationrulelearning）。

Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法，算法有两个关键步骤：

一是发现所有的频繁项集；二是生成强关联规则。

FP（FrequentPattern）-growth算法基于Apriori构建，但采用了高级的数据结构减少扫描次数，大大加快了算法速度。

分类（Classification）任务是在给定数据基础上构建分类模型，根据分类模型确定目标对象属于哪个预定义的目标类别。

常用的分类算法有：

决策树、感知机、K近邻、朴素贝叶斯、贝叶斯网络、逻辑斯谛回归、支持向量机、遗传算法、人工神经网络等。

聚类分析（Clusteranalysi®简称聚类（Clustering）,是把数据对象划分成子集（类）的过程，每个子集称为一个簇（Cluster）,同一个簇中的数据之间存在最大相似性，不同簇之间的数据间存在最大的差异性。

K-MEANS（K-均值）算法

是一种划分聚类方法，以k为参数，将n个对象分为k个簇，以使簇（类）内具有较高的相似度，而簇间的相似度最低。

（二）、多项选择

1.大数据的特征包括（）

A.体量大（Volume）

B.多样性（Variety）

C速度快（Velocity）

D.价值高（Value）

★考核知识点:

大数据的特征

参考讲稿章节：

1.2

附1.2.1（考核知识点解释）：

目前在描述大数据特征时，一般是按照国际数据公司IDC所提的“4V模型

来刻画，即体量大（Volume）、多样性（Variety）、速度快（Velocity）、价值高（Value）。

1）.体量大（Volume）:

数据量大是大数据的基本属性。

数据规模的大小是用计算机存储容量的单位来计算的，数量的单位从TB级别跃升到PB级别、EB级别,甚至ZB级别。

2）.多样性（Variety）:

大数据除了体量大外，另一个最重要的特征就是数据类型的多样化。

即数据存在形式包括结构化数据、半结构化数据和非结构化数据。

3）速度快（Velocity）：

大数据环境中速度快有两层含义：

一是数据产生速度快；二是要求数据分析处理速度快。

4）价值高（Value）:

大数据拥有大量有价值信息，通过提炼的信息，能够在更高的层面和视角，将在更大的范围帮助用户提高决策力，洞察未来创造出更大的价值和商机。

2.按照数据结构分类，数据可分为（）

A.结构化数据

B.半结构化数据

C.非结构化数据

D.无结构数据

★考核知识点:

按照数据结构分，大数据的数据类型

参考讲稿章节：

1.3

附1.2.2（考核知识点解释）：

大数据不仅仅体现在数据量大，也体现在数据类型多。

按照数据结构分，数据可分为结构化数据、半结构化数据和非结构化数据。

在现有大数据的存储中，结构化数据仅有20%，其余80%则在存在于物联

网、电子商务、社交网络等领域的半结构化数据和非结构化数据。

据统计，全球结构化数据增长速度约为32%，半结构化数据和非结构化数据的增速高达63%。

（1）结构化数据：

结构化数据，通常存储在关系数据库中，并用二维表结构通过逻辑表达实现。

所有关系型数据库（如SQLServer、Oracle、MySQL、DB2等）中的数据全部为结构化数据。

生活中我们常见的结构化数据有企业计划系统（EnterpriseResourcePlannin，g

ERP）、医疗的医院信息系统（HospitalInformationSystem,HIS）、校园一卡通核心数据库

2）半结构化数据就是介于完全结构化数据和完全无结构化的数据之间的

数据

例如邮件、HTML、报表、具有定义模式的XML数据文件等。

典型应用场景如邮件系统、档案系统、教学资源库等。

半结构化数据的格式一般为纯文本数据，其数据格式较为规范，可以通过某种方式解析得到其中的每一项数据。

最常见的半结构化数据是日志数据，采用XML、JSON等格式的数据

（3）非结构化数据是指非纯文本类数据，没有标准格式，无法直接解析出相应的值。

非结构化数据无处不在，常风的包括Web网页.即时消息或者时间数据（如微博、微信、Twitter等数据）、富文本文档（RichTextFormat,RTF、富媒体文件（RichMedia）、实时多媒体数据（如各种视频，音频、图像文件）

3.根据产生主体的不同，大数据可以分为（）

A.产量企业应用产生的数据

B.大量个人用户产生的数据

C.由巨量机器产生的数据

D.科研数据

★考核知识点:

根据产生主体分，大数据的数据类型

参考讲稿章节：

1.3

附1.2.3（考核知识点解释）：

数据可根据产生主体的不同分为三类：

（1）由少量企业应用而产生的数据。

关系型数据库中的数据、数据仓库中的数据。

（2）大量个人用户产生的数据。

社交媒体，如微博、博客、QQ、微信、FacebookTwitter等产生的大量文字、图片、视频、音频数据）、企业应用的相关评论数据、电子商务在线交易、供应商交易的日志数据。

（3）由巨量机器产生的数据。

应用服务器日志（Web站点、游戏）、传感器数据（天气、水、智能电网）、图像和视频监控、RFID、二维码或者条形码扫描的数据。

4.根据作用方式不同，大数据可以分为（）

A.交互数据

B.社交数据

C.交易数据

D.个人数据

★考核知识点:

根据作用方式的不同，大数据的数据类型分类参考讲稿章节：

1.3

附1.2.4（考核知识点解释）：

数据还可根据作用方式的不同分为两类：

（1）交互数据：

指相互作用的社交网络产生的数据，包括人为生成的社交媒体交互和机器设备交互生成的新型数据。

（2）交易数据：

交易数据是指来自于电子商务和企业应用的数据。

包括EPR

（网络公关系统）、B2B（企业对企业）、B2C（企业对个人）、C2C（个人对个人）、020（线上线下）、团购等系统产生的数据。

这些数据存储在关系型数据库和数据仓库中，可以执行联机分析处理

（0LAP）和联机事务处理（OLTP）。

随着大数据的发展，此类数据的规模和复杂性一直在提高。

交互和交易这两类数据的有效融合是大数据发展的必然趋势，大数据应用要有效集成这两类数据，并在此基础上，实现对这些数据的处理和分析。

5.Google分布式计算模型不包括（）

A.GFS

B.BigTable

C.MapReduce

D.RDD

★考核知识点：

Google的分布式计算模型参见讲稿章节：

4.2、4.3附1.2.5：

（考核知识点解释）

2003年到2004年间，Google发表了MapReduceGFS（GoogleFileSystem和BigTable三篇技术论文，提出了一套全新的分布式计算理论。

MapReduce是分布式计算框架。

GFS是分布式文件系统。

BigTable是基于GoogleFileSystem的数据存储系统。

这三大组件组成Google的分布式计算模型。

在Google云计算平台的技术架构中，除了少量负责特定管理功能的节点（如

GFSmaste、分布式锁Chubby和Scheduler等），所有的节点都是同构的，即同时运行GFSchunkserve、BigTableServer和MapReduceJob等核心功能模块，与之相对应的则是数据存储、数据管理和编程模型三项关键技术。

6.根据数据分析深度，可将数据分析分为（）

A.关联性分析

B.预测性分析

C.规则性分析

D.描述性分析

★考核知识点：

根据数据分析深度，数据分析的类型参见讲稿章节：

5.2

附1.2.6：

（考核知识点解释）根据数据分析深度，可将数据分析分为3个层次：

描述性分析（DescriptiveAnalysis），预测性分析（PredictiveAnalysis）和规贝U性分析（PrescriptiveAnalysiS。

1描述性分析基于历史数据来描述发生的事件。

例如，利用回归分析从数据集中发现简单的趋势，并借助可视化技术来更好地表示数据特征。

2预测性分析用于预测未来事件发生的概率和演化趋势。

例如，预测性模型使用对数回归和线性回归等统计技术发现数据趋势并预测未来的输出结果。

3规贝性分析用于解决决策制定和提高分析效率。

例如，利用仿真来分析复杂系统以了解系统行为并发现问题，并通过优化技术在给定约束条件下给出最优解决方案。

7.根据数据分析的实时性，可将数据分析分为（。

A.实时数据分析

B.预测性分析

C.规贝性分析

D.离线数据分析★考核知识点：

按照数据分析的实时性，数据分析的类型

参见讲稿章节：

5.2

附1.2.7：

（考核知识点解释）按照数据分析的实时性，一般将数据分析分为实时数据分析和离线数据分析。

实时数据分析也称在线数据分析，能够实时处理用户的请求。

离线数据分析通过数据采集工具将日志数据导入专用分析平台进行分析，非实时处理数据。

二、主观部分：

（一）、名词解释

1.流处理

★考核知识点:

数据处理

参考讲稿章节：

1.5

附2.1.1（考核知识点解释）：

数据处理有两种范式，批处理和流处理。

批处理：

“静止数据”转变为“正使用数据”，先存储后处理（Store-then-Proces）s，先把信息存下来，稍后一次性地处理掉；对于批量数据，多采用批处理，批处理擅长全时智能，但速度慢，需要批处理加速。

流处理：

“动态数据”转变为“正使用数据”，直接处理（Straight-throughProcess,任务来一件做一件，信息来一点处理一点，有的直接过滤掉，有的存起来。

对于流数据,多采用流处理,获得实时智能,速度快。

2.磁盘阵列

★考核知识点:

磁盘阵列

参考讲稿章节：

3.2

附2.1.2（考核知识点解释）：

磁盘阵列（RedundantArraysofIndependentDisk,sRAID）,全称为“冗余的独立磁盘阵列”。

冗余是为了补救措施、保证可靠性而采取的一种方法,独立是指磁盘阵列不在主机内而是自成一个系统。

磁盘阵列是由很多价格较便宜的磁盘,组合成一个容量巨大的磁盘组,利用个别磁盘提供数据所产生加成效果提升整个磁盘系统效能。

RAID可以让很多磁盘驱动器同时传输数据,在逻辑上又是一个磁盘驱动器,故使用此技术可以达到单个磁盘几倍、几十倍甚至上百倍的速率。

在很多RAID模式中都有较为完备的相互校验/恢复功能，大大提高了系统容错度和稳定性。

3.云存储

★考核知识点:

云存储的定义

参考讲稿章节：

3.4

附2.1.3（考核知识点解释）：

云存储是在云计算（cloudcomputing）概念上延伸和发展出来的一个新的概念，是一种新兴的网络存储技术。

它是云计算的重要组成部分，也是云计算的重要应用之一。

云存储是指通过集群应用、网络技术或分布式文件系统等功能，将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作，共同对外提供数据存储和业务访问功能的一个系统。

4.NoSQL

★考核知识点:

NoSQL

参考讲稿章节：

3.7

附2.1.4（考核知识点解释）：

NoSQL（Not0nlySQL）泛指非关系型、分布式和不提供ACID的数据库设计模式，它不是单纯地反对关系型数据库，而是强调键值（Key-Value）存储数据库和文档数据库的优点。

5.数据仓库

★考核知识点:

数据仓库的定义

参考讲稿章节：

3.8

附2.1.5（考核知识点解释）：

WilliamH.Inmon在1992年出版BuildingtheDataWarehouse一书，第一次给出了数据仓库的清晰定义和操作性极强的指导意见，真正拉开了数据仓库得到大规模应用的序幕。

在该书中，将数据仓库定义为：

一个面向主题的（subjectoriented、集成的（integrate），相对稳定的（non-volatile）、反映历史变化（timevariant）的数据集合，用于支持管理决策。

6.云计算

★考核知识点：

云计算的定义

参见讲稿章节：

4.1

附2.1.6：

（考核知识点解释）

云计算（CloudComputing）是一种分布在大规模数据中心、能动态的提供各种服务器资源以满足科研、电子商务等领域需求的计算平台。

同时，云计算是分布式计算、并行计算和网络计算的发展，是虚拟化、效用计算、IaaS（基础设

施即服务）、PaaS（平台即服务）、SaaS（软件即服务）等概念混合演进并跃升的结果。

简单的说，云计算是基于互联网相关服务的增加、使用和交付模式，通过互联网来提供一般为虚拟化的动态易扩展资源。

狭义云计算指IT基础设施的交付和使用模式；广义云计算指服务的交付和使用模式。

两种云计算均通过网络以按需、易扩展的方式获得所需服务。

这种服务可以是IT和软件、互联网相关，也可是其他服务。

云计算的核心思想，是将大量用网络连接的计算资源统一管理和调度，构成一个计算资源池，向用户按需服务。

提供资源的网络被称为“云”。

“云”中的资源在使用者看来是可以无限扩展的，并且可以随时获取、按需使用、随时扩展、按使用付费。

7.RDD

★考核知识点：

RDD弹性分布式数据集

参见讲稿章节：

4.5

附2.1.7：

（考核知识点解释）

RDD弹性分布式数据集，简单来说，是一种自定义的可并行数据容器，可以存放任意类型的数据。

弹性是指有容错的机制，若一个RDD分片去失，Spark可以根据粗粒度的日志数据更新记录的信息（Spark中称为“血统”）重构它：

分布式指的是能对其进行并行的操作。

除了这两点，它还能通过persist或者cache函数被缓存在内存里或磁盘中，共享给其他计算机，可以避免Hadoop那样存取带来

的开销。

8.大数据分析

★考核知识点：

大数据分析的概念

参见讲稿章节：

5.1

附2.1.8：

（考核知识点解释）

大数据分析是大数据理念与方法的核心，是指对海量增长快速、内容真实、类型多样的数据进行分析，从中找出可以帮助决策的隐藏模式、未知的相关关系以及其他有用信息的过程。

9.数据挖掘

★考核知识点：

数据挖掘的概念

参见讲稿章节：

5.3

附2.1.9：

（考核知识点解释）

数据挖掘（DataMining，DM）简单来说就是在大量的数据中提取或挖掘信息，通过仔细分析来揭示数据之间有意义的联系、趋势和模式。

10.关联分析

★考核知识点：

关联分析的概念

参见讲稿章节：

5.4

附2.1.10：

（考核知识点解释）

11.分类分析

★考核知识点：

分类的概念

参见讲稿章节：

5.6

附2.1.11：

（考核知识点解释）

分类（Classification）任务是在给定数据基础上构建分类模型，根据分类模型确定目标对象属于哪个预定义的目标类别。

构建分类模型：

通过分析已知训练样本类别的数据集属性，通过训练建立相应分类模型，是监督学习（supervisedlearning过程，数据集被称为训练数据集。

使用模型分类：

评估模型的分类预测准确率，使用测试数据集进行评估；当准确率可以接受时，用分类模型对未知数据进行分类。

12.聚类分析

★考核知识点：

聚类分析的概念

参见讲稿章节：

5.7

附2.1.12：

（考核知识点解释）

聚类分析（Clusteranalysis简称聚类（Clustering）,是把数据对象划分成子集（类）的过程，每个子集称为一个簇（Cluster）,同一个簇中的数据之间存在最大相似性，不同簇之间的数据间存在最大的差异性。

（二）、简答

1.人类社会的数据产生方式经历了哪些阶段？

简述各阶段的特点。

★考核知识点:

数据产生方式变革、大数据的数据来源参见讲稿章节：

1.1

附2.2.1（考核知识点解释）：

人类历史上从未有哪个时代和今天一样产生如此海量的数据，人类社会的数据产生方式大致经历了3个阶段：

运营式系统、用户原创内容阶段、感知式系统阶段。

（1）运营式系统：

数据库的出现使得数据管理的复杂度大大降低，实际中数据库大都为运营系统所采用，作为运营系统的数据管理子系统，如超市的销售记录系统、银行的交易记录系统、医院病人的医疗记录等。

人类社会数据量第一次大的飞跃正是建立在运营式系统广泛使用数据库开始，这些数据规范、有秩序、强调数据的一致性，且这些数据的产生方式是被动的。

（2）用户原创内容阶段：

互联网的诞生促使人类社会数据量出现第二次大的飞跃，但真正的数据爆发产生于Web2.0时代，其重要标志就是用户原创内容。

以博客、微博为代表的新型社交网络的出现和快速发展，使得用户产生数据的意愿更加强烈；新型移动设备出现，易携带、全天候接入网络的移动设备使得人员在网上发现自己意见的途径更为便捷

数据结构复杂，无秩序，不强调数据的一致性或只强调弱一致性，这些数据的产生方式是主动的。

（3）感知式系统：

人类社会数据量第三次大的飞跃最终导致了大数据的产生，这次飞跃的根本原因在于感知式系统的广泛使用。

微小带着处理功能的传感器设备广泛布置于社会的各个角落，通过这些设备对整个社会的运转进行监控，这些设备会源源不断地产生新数据，这些数据的产生方式是自动的，数据呈现多源异构、分布广泛、动态演化等。

简单来说，数据产生经历了被动、主动和自动三个阶段，这些被动、主动和自动的数据共同构成了大数据的数据来源。

2.大数据处理的关键技术都有哪些？

并做简要描述。

★考核知识点:

大数据处理的关键技术（处理流程）参考讲稿章节：

1.4

附2.2.2（考核知识点解释）：

大数据处理的关键技术主要包括：

数据采集和预处理、数据存储、

展开阅读全文