大数据考试题课案.docx

资源描述

大数据考试题课案.docx

《大数据考试题课案.docx》由会员分享，可在线阅读，更多相关《大数据考试题课案.docx（16页珍藏版）》请在冰豆网上搜索。

大数据考试题课案.docx

大数据考试题课案

注：

考生属哪种类别请划“√”

（博士、在校硕士、工程硕士、师资硕士、同等学力、研究生班）

√

辽宁工程技术大学

研究生考试试卷

考试时间：

2015年7月14日

考试科目：

考生姓名：

评卷人：

考试分数：

注意事项

1、考前研究生将上述项目填写清楚

2、字迹要清楚，保持卷面清洁

3、试题、试卷一齐交监考老师

4、教师将试题、试卷、成绩单，一起送研究生学院；

专业课报所在院、系

大数据及存储技术课程考试题签

1、大数据的定义、特征及面临的主要问题。

答：

最先经历信息爆炸的学科，如天文学和基金学，创造出了“大数据”这个概念。

大数据并非一个确切的概念，尚未有一个确切、统一的定义。

目前关于大数据的几个主流定义有：

（1）研究机构Gartner的定义，大数据是指需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

（2）维基百科的定义，大数据是指利用常用软件工具来获取、管理和处理数据所耗时间超过可容忍时间的数据集。

（3）麦肯锡的定义，大数据是指无法在一定时间内用传统数据库软件工具对其内容进行采集、存储、管理和分析的数据集合。

（4）IDC的定义，大数据一般会涉及两种或两种以上的数据形式，它要收集超过100TB的数据，并且是高速、实时数据流；或者是从小数据开始，但数据每年会增长60%以上。

（5）大数据科学家JohnRauser提到了一个简单的定义，大数据就是超过了任何一个计算机处理能力的庞大数据量。

大数据有四个基本特征：

数据规模大（Volume），数据种类多（Variety），数据要求处理速度快（Velocity），数据价值密度低（Value），即所谓的四V特性。

这些特性使得大数据区别于传统的数据概念。

大数据的概念与“海量数据”不同，后者只强调数据的量，而大数据不仅用来描述大量的数据，还更进一步指出数据的复杂形式、数据的快速时间特性以及对数据的分析、处理等专业化处理，最终获得有价值信息的能力。

大数据面临的问题：

大数据已成为继物力和人力资源的另一重要资源，将在社会经济发展过程中发挥不可替代的作用；大数据及相关技术可转化为巨大的社会经济价值，被誉为“未来的新石油”。

大数据在金融、零售、电影等念和行业取得的成功仅是其价值体现的冰山一角。

然而，由于大数据的多源异构、复杂多样、变化快等特点，使得大数据时代的数据管理、数据分析以及信息安全面临着新的挑战。

大数据时代下的数据管理机制不同于传统方式。

大数据时代下，数据的增长速度远远超过存储空间的增长速度，现有的数据管理方法已不能适用于海量多源异构数据在多种存储设备之间频繁密集流动，不同的应用对于数据传输“时效性”和“完整性”的要求也不尽相同。

因此需要研发新型存储技术、传输交换机理，以满足大数据时代对数据的海量存储以及数据跨层、跨域、实时和完整的传输需求。

大数据的规模效应冲击着传统的数据分析方法。

传统的数据分析方法主要是针对规模较小的结构化数据，且已形成一套行之有效的分析体系。

大数据的出现将变革传统的思维方式。

大数据的精髓在于我们分析信息时的三个转变，这些转变将改变我们理解和组建社会的方法。

第一个转变就是，在大数据时代，我们可以分析更多的数据，有时候甚至处理和某个特别现象相关的所有数据，而不再是依赖于随机采样。

第二个转变就是，研究数据之多，以至于我们不再热衷于追求精确度。

第三个转变因前两个转变而成，即我们不再热衷于寻找因果关系，而是寻找事物之间的相关关系。

另外，由于大数据时代对数据分析实时性的要求，传统的数据分析方法不能直接移植于大数据时代，必须做相应的改变才能适用于大数据的分析与处理。

此外，大数据时代信息安全问题逐渐成为各国研究的热点。

大数据时代，数据的公开非常必要，政府可以用其分析和了解整个国民经济社会的运行情况，以便更好地指导社会的运行；企业可以分析和了解客户的行为特征，推出针对性的产品和服务，最大化其利益等。

但是，数据的公开和隐私保护是相互冲突的两个方面。

虽然大数据时代下隐私保护技术已取得重大成果，比如数据匿名方法和差分隐私保护技术等，但2013年十大信息泄密事件表明现在的隐私保护技术仍不能完全保证信息的安全。

如何在保证信息安全的前提下进行最大化的数据价值挖掘还有很长一段路要走。

另外，大数据时代下人才的缺失、大数据的可视化分析以及技术和商业模式的创新也都是我们面对和亟需解决的问题。

2、产生大数据主要有哪些行业或领域，指出一个行业或研究领域的

应用情况或研究进展。

答：

产生大数据主要涉及以下领域领域，包括商业智能软件、数据中心建设与维护、信息安全、IT咨询和方案实施、数据处理、分析环节以及综合处理、语音识别、视频识别等。

随着数据的进一步集中和数据量的增大，对海量数据进行安全防护变得更加困难，数据的分布式处理也加大了数据泄露的风险，信息安全正成为制约大数据技术发展的瓶颈。

一是大数据成为网络攻击的显著目标。

在网络空间，大数据是更容易被“发现”的大目标。

一方面，大数据意味着海量的数据，也意味着更复杂、更敏感的数据，这些数据会吸引更多的潜在攻击者。

另一方面，数据的大量汇集，使得黑客成功攻击一次就能获得更多数据，无形中降低了黑客的进攻成本，增加了“收益率”。

二是大数据加大隐私泄露风险。

大量数据的汇集不可避免地加大了用户隐私泄露的风险。

一方面，数据集中存储增加了泄露风险；而这些数据不被滥用，也成为人身安全的一部分；另一方面，一些敏感数据的所有权和使用权并没有明确界定，很多基于大数据的分析都未考虑到其中涉及的个体隐私问题。

三是大数据威胁现有的存储和安防措施。

大数据存储带来新的安全问题。

数据大集中的后果是复杂多样的数据存储在一起，很可能会出现将某些生产数据放在经营数据存储位置的情况，致使企业安全管理不合规。

大数据的大小也影响到安全控制措施能否正确运行。

安全防护手段的更新升级速度无法跟上数据量非线性增长的步伐，就会暴露大数据安全防护的漏洞。

四是大数据技术成为黑客的攻击手段。

在企业用数据挖掘和数据分析等大数据技术获取商业价值的同时，黑客也在利用这些大数据技术向企业发起攻击。

黑客会最大限度地收集更多有用信息，比如社交网络、邮件、微博、电子商务、电话和家庭住址等信息，大数据分析使黑客的攻击更加精准。

此外，大数据也为黑客发起攻击提供了更多机会。

黑客利用大数据发起僵尸网络攻击，可能会同时控制上百万台傀儡机并发起攻击。

五是大数据成为高级可持续攻击的载体。

传统的检测是基于单个时间点进行的基于威胁特征的实时匹配检测，而高级可持续攻击（APT）是一个实施过程，无法被实时检测。

此外，大数据的价值低密度性，使得安全分析工具很难聚焦在价值点上，黑客可以将攻击隐藏在大数据中，给安全服务提供商的分析制造很大困难。

黑客设置的任何一个会误导安全厂商目标信息提取和检索的攻击，都会导致安全监测偏离应有方向。

六是大数据技术为信息安全提供新支撑。

当然，大数据也为信息安全的发展提供了新机遇。

大数据正在为安全分析提供新的可能性，对于海量数据的分析有助于信息安全服务提供商更好地刻画网络异常行为，从而找出数据中的风险点。

对实时安全和商务数据结合在一起的数据进行预防性分析，可识别钓鱼攻击，防止诈骗和阻止黑客入侵。

网络攻击行为总会留下蛛丝马迹，这些痕迹都以数据的形式隐藏在大数据中，利用大数据技术整合计算和处理资源有助于更有针对性地应对信息安全威胁，有助于找到攻击的源头。

3、何谓科学研究的四个范式？

各自所处时代及研究方法。

答：

科学研究的四个范式如下：

（1）几千年前的科学，以记录和描述自然现象为主，称为“实验科学”，即第一范式，其典型案例如钻木取火；

（2）数百年前，科学家们开始利用模型归纳总结过去记录的现象，发展出“理论科学”，即第二范式，其典型案例如牛顿三定律、麦克斯韦方程组、相对论等；

（3）过去数十年，科学计算机的出现，诞生了“计算科学”，对复杂现象进行模拟仿真，推演出越来越多复杂的现象，其典型案例如模拟核试验、天气预报等；

（4）今天，以及未来科学的发展趋势是，随着数据量的高速增长，计算机将不仅仅能做模拟仿真，还能进行分析总结，得到理论。

也就是说，过去由牛顿、爱因斯坦等科学家从事的工作，未来可以由计算机来做。

JimGray将这种科学研究的方式，成为第四范式，即数据密集型科学。

4、图示大数据分析的基本流程，各步骤的主要工作。

答：

数据抽取与集成：

从中提取出关系和实体，经过关联和聚合之后采用统一定义的结构来存储这些数据。

在数据集成和提取是需要对数据进行清洗，保证数据质量。

数据分析：

是整个大数据处理流程的核心。

从异构数据源抽取和集成的数据构成数据分析的原始数据，根据不同应用需求从这些数据中选择全部或部分进行分析。

数据解释：

大数据处理的核心。

进行可视化、数据出处以及人机交互。

如果分析的结果正确但没有采用适当的解释方法，所得到的结果很可能让用户难以理解。

五、MapReduce模型的执行步骤，其核心思想及主要技术有哪些？

答：

MapReduce主要包括两个步骤：

Map和Reduce。

每一步都有key-value对作为输入和输出：

Map阶段的key-value对的格式是由输入的格式所决定的，则每行作为一个记录进程处理，其中key为此行的开头相对于文件的起始位置，value就是此行的字符文本Map阶段的输出的key-value对的格式必须同Reduce阶段的输入key-value对的格式相对应。

每个阶段都将一系列key-value对作为输入和输出，其中的键和值的类型为MapReduce用户指定。

用户同时指定两个函数：

map函数和reduce函数。

用户自定义的map函数，接受一个输入key-value对，然后产生一系列临时中间key-value对。

我们把所有具有相同中间key的临时key-value对聚合在一起,然后把它们传递给reduce函数。

用户自定义的reduce函数，接受一个中间key和相关的一个value集。

它合并这些value，形成一个比较小的value集。

通常，每次reduce调用只产生1个输出value。

以这种函数式编写的程序能自动的在大规模的普通机器上并行的执行。

MapReduce核心思想是对大数据并行处理，分而治之。

做一个计算，如果计算过程中如果数据传输消耗的资源大于计算消耗的资源，考虑在计算过程中，将算法（程序）移动到数据存放的服务器中，再进行计算。

其主要技术：

（1）数据划分和计算任务调度。

（2）数据/代码互定位。

（3）系统优化。

（4）出错检测和恢复。

六、试给出词频计算或密码统计的MapReduce计算过程及其实现函数。

答：

Map函数和Reduce函数是交给用户实现的，这两个函数定义了任务本身。

Map函数：

接受一个键值对（key-valuepair），产生一组中间键值对。

MapReduce框架会将Map函数产生的中间键值对里键相同的值传递给一个Reduce函数。

Reduce函数：

接受一个键，以及相关的一组值，将这组值进行合并产生一组规模更小的值（通常只有一个或零个值）。

统计词频的MapReduce函数的核心代码主要实现这两个函数。

map（Stringkey,Stringvalue）:

//key:

documentname

//value:

documentcontents

foreachwordwinvalue:

EmitIntermediate（w,"1"）;

reduce（Stringkey,Iteratorvalues）:

//key:

aword

//values:

alistofcounts

intresult=0;

foreachvinvalues:

result+=ParseInt（v）;

Emit（AsString（result））;

在统计词频的例子里，map函数接受的键是文件名，值是文件的内容，map逐个遍历单词，每遇到一个单词w，就产生一个中间键值对，这表示单词w咱又找到了一个；MapReduce将键相同（都是单词w）的键值对传给Reduce函数，这样Reduce函数接受的键就是单词w，值是一串"1"（最基本的实现是这样，但可以优化），个数等于键为w的键值对的个数，然后将这些"1"累加就得到单词w的出现次数。

最后这些单词的出现次数会被写到用户定义的位置，存储在底层的分布式存储系统。

七、指出并行数据库与MapReduce各自的优缺点及生态。

答：

（1）并行数据库是指那些在无共享的体系结构中进行数据操作的数据库系统。

这些系统大部分采用了关系数据模型并且支持SQL语句查询，但为了能够并行执行SQL的查询操作，系统中采用了两个关键技术：

关系表的水平划分和SQL查询的分区执行。

并行数据库系统的目标是高性能和高可用性，通过多个节点并行执行数据库任务，提高整个数据库系统的性能和可用性。

最近一些年不断涌现一些提高系统性能的新技术，如索引、压缩、实体化视图、结果缓存、I/O共享等，这些技术都比较成熟且经得起时间的考验。

与一些早期的系统如Teradata必须部署在专有硬件上不同，最近开发的系统如Aster、Vertica等可以部署在普通的商业机器上，这些数据库系统可以称得上准云系统。

并行数据库系统的主要缺点就是没有较好的弹性，而这种特性对中小型企业和初创企业是有利的。

人们在对并行数据库进行设计和优化的时候认为集群中节点的数量是固定的，若需要对集群进行扩展和收缩，则必须为数据转移过程制订周全的计划。

这种数据转移的代价是昂贵的，并且会导致系统在某段时间内不可访问，而这种较差的灵活性直接影响到并行数据库的弹性以及现用现付商业模式的实用性。

并行数据库的另一个问题就是系统的容错性较差，过去人们认为节点故障是个特例，并不经常出现，因此系统只提供事务级别的容错功能，如果在查询过程中节点发生故障，那么整个查询都要从头开始重新执行。

这种重启任务的策略使得并行数据库难以在拥有数以千个节点的集群上处理较长的查询，因为在这类集群中节点的故障经常发生。

基于这种分析，并行数据库只适合于资源需求相对固定的应用程序。

不管怎样，并行数据库的许多设计原则为其他海量数据系统的设计和优化提供了比较好的借鉴。

（2）MapReduce的优点，主要有两个方面：

其一，通过MapReduce这个分布式处理框架，不仅能用于处理大规模数据，而且能将很多繁琐的细节隐藏起来，比如，自动并行化、负载均衡和灾备管理等，这样将极大地简化程序员的开发工作;其二，MapReduce的伸缩性非常好，也就是说，每增加一台服务器，其就能将差不多的计算能力接入到集群中，而过去的大多数分布式处理框架，在伸缩性方面都与MapReduce相差甚远。

MapReduce最大的不足则在于，其不适应实时应用的需求，所以在Google最新的实时性很强的Caffeine搜索引擎中，MapReduce的主导地位已经被可用于实时处理Percolator系统所代替。

MapReduce最早应用于非结构化数据处理领域，如Google中创建倒排索引，计算pagerank等操作，也被广泛应用于文档处理应用中。

但近年来的发展趋势是逐渐由非结构化大数据处理转向类似结构化大数据仓库应用领域，如用户LOG日志分析处理等，以TPC-H负载为代表的表间连接操作优化技术也成为MapReduce重要的研究课题。

当前的产业界正在尝试将数据库与MapReduce进行集成。

Greenplum和AsterData采用的是在MPP并行数据库内置对MapReduce的支持，实现数据库和MapReduce的双引擎融合，同时通过MapReduce扩展数据库对分析软件的支持。

八、何谓NoSQL？

其三大理论基础是什么，各自简单说明。

答：

随着web2.0的快速发展，非关系型、分布式数据存储得到了快速的发展，它们不保证关系数据的ACID特性。

NoSQL概念在2009年被提了出来。

NoSQL最常见的解释是“non-relational”，“NotOnlySQL”即“不仅仅是SQL”也被很多人接受。

其三大理论为CAP理论、BASE思想和最终一致性。

CAP理论：

解释为一致性（consistency）：

一个数据系统如何处理读写操作的一致性问题。

分布式系统对于一致性的要求为当更新写入操作完成时，其余读取操作需要及时看到数据的更新。

当然有些系统对于一致性有更严格定义上的要求。

性能（availability）一个系统能够持续不间断使用的问题。

严格定义上的高性能可用性意味着一个系统从设计到实施都应该能够提供可持续的操作（如读写操作），无论是操作冲突，还是软硬件部分因为升级而导致失效。

分区容忍性（partitiontolerance）可以被理解为系统在提供持续性操作时分区处理的能力。

一旦开始将数据和逻辑分布在不同的节点上，就有形成分区的风险。

一些人认为分区容忍性也可以理解为一个系统灵活处理节点的增加和去除的能力。

BASE思想：

BASE思想实际上是CAP理论中AP的扩展。

它通过牺牲高一致性，保证高可用性和分区容忍性。

它同时也是ACID，即原子性、一致性、隔离性和持久性的意思。

BASE在英文中有基本的意思，也可以说实际上强调的就是能保证连续“基本”可用的一种模型。

BASE思想的组成有以下3个部分：

基本可用、软状态、最终一致性。

BASE模式指的是一个应用在任意时间首先应该能完成最基本化的工作，并不需要总是一致，但最终应该是一致的。

ACID和BASE应该被看作同一范畴内的互相补充品，而不是替代品。

最终一致性：

有两种方式看待一致性。

一种是从开发者/客户端的角度，如何观察数据更新；另一种是从服务器端，更新如何在系统中流动以及对于更新系统能提供什么样的保证。

客户端观察到的一致性指的是何时以及如何能观察到对存储系统中的数据对象所做的更新。

对于一致性的解释，根据强度的不同，分为强一致性和弱一致性两种。

最终一致性属于弱一致性的一种，即存储系统保证如果没有新的更新提交，最终所有的访问都将获得最后的更新。

如果没有故障发生，不一致性取决于通信时延、系统负载以及复制策略中涉及的副本数。

实现最终一致性最常见的系统是DNS。

根据name更新传播、配置模式以及时间控制的缓存，最终所有节点都会看到更新。

弱一致性的系统能够同时提供更多元化和针对性的操作方案。

九、保证分布式环境下NoSQL的扩展性、容错性和可靠性的技术有哪些？

答：

Cassandra故障恢复以及数据一致性、Cassandra的一致性哈希算法、HBase的失败因子和恢复方法、HDFS、MongoDB中的复制和故障恢复。

系统的可扩展性是推动NoSQL运动发展的的主要理由，包含了分布式系统协调，故障转移，资源管理和许多其他特性。

这么讲使得NoSQL听起来像是一个大筐，什么都能塞进去。

尽管NoSQL运动并没有给分布式数据处理带来根本性的技术变革，但是依然引发了铺天盖地的关于各种协议和算法的研究以及实践。

正是通过这些尝试逐渐总结出了一些行之有效的数据库构建方法。

在这篇文章里，我将针对NoSQL数据库的分布式特点进行一些系统化的描述。

接下来我们将研究一些分布式策略，比如故障检测中的复制，这些策略用黑体字标出，被分为三段：

（1）数据一致性。

NoSQL需要在分布式系统的一致性，容错性和性能，低延迟及高可用之间做出权衡，一般来说，数据一致性是一个必选项，所以这一节主要是关于数据复制和数据恢复。

（2）数据放置。

一个数据库产品应该能够应对不同的数据分布，集群拓扑和硬件配置。

在这一节我们将讨论如何分布以及调整数据分布才能够及时解决故障，提供持久化保证，高效查询和保证集群中的资源（如内存和硬盘空间）得到均衡使用。

（3）对等系统。

像leaderelection这样的技术已经被用于多个数据库产品以实现容错和数据强一致性。

然而，即使是分散的数据库（无中心）也要跟踪它们的全局状态，检测故障和拓扑变化。

这一节将介绍几种使系统保持一致状态的技术。

数据一致性

众所周知，分布式系统经常会遇到网络隔离或是延迟的情况，在这种情况下隔离的部分是不可用的，因此要保持高可用性而不牺牲一致性是不可能的。

这一事实通常被称作“CAP理论”。

然而，一致性在分布式系统中是一个非常昂贵的东西，所以经常需要在这上面做一些让步，不只是针对可用性，还有多种权衡。

为了研究这些权衡，我们注意到分布式系统的一致性问题是由数据隔离和复制引起的，所以我们将从研究复制的特点开始：

（1）可用性。

在网络隔离的情况下剩余部分仍然可以应对读写请求。

（2）读写延迟。

读写请求能够在短时间内处理。

（3）读写延展性。

读写的压力可由多个节点均衡分担。

（4）容错性。

对于读写请求的处理不依赖于任何一个特定节点。

（5）数据持久性。

特定条件下的节点故障不会造成数据丢失。

（6）一致性。

一致性比前面几个特性都要复杂得多，我们需要详细讨论一下几种不同的观点。

但是我们不会涉及过多的一致性理论和并发模型，因为这已经超出了本文的范畴，我只会使用一些简单特点构成的精简体系。

读写一致性。

从读写的观点来看，数据库的基本目标是使副本趋同的时间尽可能短（即更新传递到所有副本的时间），保证最终一致性。

除了这个较弱的保证，还有一些更强的一致性特点：

写后读一致性。

在数据项X上写操作的效果总是能够被后续的X上的读操作看见。

读后读一致性。

在一次对数据项X的读操作之后，后续对X的读操作应该返回与第一次的返回值相同或是更加新的值。

写一致性。

分区的数据库经常会发生写冲突。

数据库应当能处理这种冲突并保证多个写请求不会被不同的分区所处理。

这方面数据库提供了几种不同的一致性模型：

（1）原子写。

假如数据库提供了API，一次写操作只能是一个单独的原子性的赋值，避免写冲突的办法是找出每个数据的“最新版本”。

这使得所有的节点都能够在更新结束时获得同一版本，而与更新的顺序无关，网络故障和延迟经常造成各节点更新顺序不一致。

数据版本可以用时间戳或是用户指定的值来表示。

Cassandra用的就是这种方法。

（2）原子化的读-改-写。

应用有时候需要进行读—改—写序列操作而非单独的原子写操作。

假如有两个客户端读取了同一版本的数据，修改并且把修改后的数据写回，按照原子写模型，时间上比较靠后的那一次更新将会覆盖前一次。

这种行为在某些情况下是不正确的（例如，两个客户端往同一个列表值中添加新值）。

一十、阅读三篇大数据研究热点或者新技术相关论文，介绍各论文的主要内容（能结合自己的研究方向最好，不少于1000字）。

1、架构大数据：

挑战、现状与展望

主要对MapReduce进行介绍

MapReduce是2004年由Google提出的面向大数据集处理的编程模型，起初主要用作互联网数据的处理，例如文档抓取、倒排索引的建立等。

但由于其简单而强大的数据处理接口和对大规模并行执行、容错及负载均衡等实现细节的隐藏，该技术一经推出便迅速在机器学习、数据挖掘、数据分析等领域得到广泛应用。

MapReduce将数据处理任务抽象为一系列的Map（映射）Reduce（化简）操作对。

Map主要完成数据的过滤操作，Reduce主要完成数据的聚集操作。

输入输出数据均以格式存储。

用户在使用该编程模型时，只需按照自己熟悉的语言实现Map函数和Reduce函即可，MapReduce框架会自动对任务进行划分以做到并行执行。

下面将以基于MapReduce的开源实现Hadoop为主，对其主要特性进行介绍。

MapReduce是面向由数千台中低端计算机组成的大规模机群而设计的，其扩展能力得益于其shared-nothing结构、各个节点间的松藕合性和较强的软件级容错能力：

节点可以被任意地从机群中移除，而几乎不影响现有任务的执行.该技术被称为RAIN（Redundant/ReliableArrayofIndependent（andInexpensive）Nodes）。

展开阅读全文