大数据技术原理与应用林子雨版课后习题答案文档格式.docx-资源下载

大数据技术原理与应用林子雨版课后习题答案文档格式.docx

1、大数据在高频交易、社区情绪分析和信贷风险分析三大金融创新领域发挥重要作用。汽车行业利用大数据和物联网技术的五人驾驶汽车，在不远的未来将走进我们的日常生活互联网行业借助于大数据技术,可以分析客户行为，进行商品推荐和有针对性广告投放个人生活大数据还可以应用于个人生活,利用与每个人相关联的“个人大数据”，分析个人生活行为习惯,为其提供更加周全的个性化服务。9.举例说明大数据的关键技术批处理计算，流计算,图计算,查询分析计算10.大数据产业包含哪些关键技术。IT基础设施层、数据源层、数据管理层、数据分析层、数据平台层、数据应用层。11.定义并解释以下术语：云计算、物联网云计算:云计算就是实现了通过网

2、络提供可伸缩的、廉价的分布式计算机能力,用户只需要在具备网络接入条件的地方，就可以随时随地获得所需的各种T资源。物联网是物物相连的互联网，是互联网的延伸，它利用局部网络或互联网等通信技术把传感器、控制器、机器、人类和物等通过新的方式连在一起,形成人与物、物与物相连，实现信息化和远程管理控制。12.详细阐述大数据、云计算和物联网三者之间的区别与联系。大数据、云计算和物联网的区别大数据、云计算和物联网的联系大数据侧重于海量数据的存储、处理与分析，海量数据中发现价值,服务于生产和生活;云计算本质上皆在整合和优化各种资源并通过网络已服务的方法，廉价地提供给用户;物联网的发展目标是实现呜呜向量，应用创

3、新是物联网的核心从整体来看,大数据、云计算和物联网这三者是相辅相成的。大数据根植于云计算，大数据分析的很多技术都来自于云计算,云计算的分布式存储和管理系统提供了海量数据的存储和管理能力，没有这些云计算技术作为支撑,大数据分析就无从谈起。物联网的传感器源源不断的产生大量数据,构成了大数据的重要数据来源，物联网需要借助于云计算和大数据技术,实现物联网大数据的存储、分析和处理。第二章1.试述hadop和谷歌的mapredce、gf等技术之间的关系adop的核心是分布式文件系统HFS和MRue,HDFS是谷歌文件系统GFS的开源实现,Mpedces是针对谷歌Mapeduce的开源实现。2.试述adoo

4、具有哪些特性。高可靠性，高效性，高可扩展性,高容错性,成本低,运行在in平台，支持多种编程语言3.试述Hadoop在各个领域的应用情况。200年,雅虎在Sunnyale总部建立了M5一个包含了4000个处理器和1.5PB容量的Haoo集群系统；Faceo主要将Hadoo平台用于日志处理，推荐系统和数据仓库等方面;XX主要使用o于日志的存储和统计、网页数据的分析和挖掘、商业分析、在线数据反馈、网页聚类等。4.试述Hdoop的项目结构以及每个部分的具体功能。PiCkaHiveBaeMapedueZookeperCommonroCmmn是为adop其他子项目提供支持的常用工具，主要包括文件系统、PC

5、和串行化库Avro是为Hoo的子项目，用于数据序列化的系统,提供了丰富的数据结构类型、快速可压缩的二进制数据格式、存储持续性数据的文件集、远程调用的功能和简单的动态语言集成功能。HS是Hadoop项目的两个核心之一，它是针对谷歌文件系统的开源实现。HBse是一个提高可靠性、高性能、可伸缩、实时读写、分布式的列式数据库,一般采用DFS作为其底层数据存储。MaRuce是针对谷歌Mpeduce的开源实现，用于大规模数据集的并行运算。Zookeper是针对谷歌huby的一个开源实现，是高效和可靠的协同工作系统,提供分布式锁之类的基本服务,用于构建分布式应用，减轻分布式应用程序所承担的协调任务。Hie是

6、一个基于Hdop的数据仓库工具,可以用于对adop文件中的数据集进行数据整理、特殊查询和分布存储。Pg是一种数据流语言和运行环境，适合于使用Hadoop和Maeduc平台上查询大型半结构化数据集。qoop可以改进数据的互操作性,主要用来在大哦哦哦配合关系数据库之间交换数据。ukw是一个开源的、用于监控大型分布式系统的数据收集系统,可以将各种类型的数据收集成适合Hado处理的文件，并保存在HDS中供Haoop进行各种 MpReuce操作。第三章1试述分布式文件系统设计的需求。设计需求含义HDF的实现情况透明性具备访问透明性、位置透明性、性能、和伸缩透明性只能提供一定程度的访问透明性,完全支持位置

7、透明性、性能和伸缩透明性并发控制客户端对于文件的读写不应该影响其他客户端对同一个文件的读写机制非常简单，任何时候都只允许有一个程序写入某个文件文件复制一个文件可以拥有不同位置的多个副本HS采用了多副本机制硬件和操作系统的异构性可以在不同的操作系统和计算机上实现同样的客户端和服务端程序采用ava语言开发，具有很好的跨平台能力可伸缩性支持节点的动态加入或退出建立在大规模廉价机器上的分布式文件系统集群,具有很好的伸缩性容错保证文件服务在客户端或者服务端出现问题的时候能正常使用具有多副本机制和故障自动检测、恢复机制安全保证系统的安全性安全性较弱2分布式文件系统是如何实现较高水平扩展的?分布式文件系统在

8、物理结构上是由计算机集群中的多个节点构成的，这些节点分为两类,一类叫“主节点”（Masr ode）或者也被称为“名称结点”（NaeNde）,另一类叫“从节点”（Sla Node）或者也被称为“数据节点”（DtaNode）3试述DFS中的块和普通文件系统中的块的区别。在传统的文件系统中，为了提高磁盘读写效率,一般以数据块为单位，恶如不是以字节为单位。HDFS中的块,默认一个块大小为64MB，而DS中的文件会被拆分成多个块,每个块作为独立的单元进行存储。HFS在块的大小的设计上明显要大于普通文件系统。4试述HFS中的名称节点和数据节点的具体功能。名称节点负责管理分布式文件系统系统的命名空间,记录分

9、布式文件系统中的每个文件中各个块所在的数据节点的位置信息;数据节点是分布式文件系统HDFS的工作节点,负责数据的存储和读取,会根据客户端或者是名称节点的调度来进行数据的存储和检索,并向名称节点定期发送自己所存储的块的列表。adoop fs-s 显示指定的文件的详细信息haoop fs -at path将pah指定的文件的内容输出到标准输出hadoop fs kdir 创建path指定的文件夹haoop f -gt -inorcr -rc 复制指定的文件到本地文件系统cadst指定的文件或文件夹。-iorcc选项复制RC校验失败的文件。使用-rc选项复制文件以及CC信息。hadoops-ut d

10、st 从本地文件系统中复制loalsrc指定的单个或多个源文件到dt指定的目标文件系统中。也支持从标准输入（stdn）中读取输入写入目标文件系统。hadoo s-rmr 删除指定的文件夹及其的所有文件第四章1. 试述在Hadoop体系架构中HBase与其他组成部分的相互关系。 HBase利用Hadoop MapRedc来处理Bs中的海量数据，实现高性能计算；利用ookeper作为协同服务,实现稳定服务和失败恢复；使用DFS作为高可靠的底层存储,利用廉价集群提供海量数据存储能力； So为Hase的底层数据导入功能，Pig和Hive为HBase提供了高层语言支持,Base是igab的开源实现。2.

11、请阐述HBa和BigTle的底层技术的对应关系项目BigTableHBase文件存储系统GFSHDF海量数据处理MaReducHadop pReduce协同服务管理ChubyZeeper3. 请阐述Hse和传统关系数据库的区别区别传统关系数据库数据类型关系模型数据模型数据操作插入、删除、更新、查询、多表连接插入、查询、删除、清空,无法实现表与表之间关联存储模式基于行模式存储,元组或行会被连续地存储在磁盘也中基于列存储，每个列族都由几个文件保存,不同列族的文件是分离的数据索引针对不同列构建复杂的多个索引只有一个行键索引数据维护用最新的当前值去替换记录中原来的旧值更新操作不会删除数据旧的版本,而

12、是生成一个新的版本很难实现横向扩展，纵向扩展的空间也比较有限轻易地通过在集群中增加或者减少硬件数量来实现性能的伸缩4. HBse有哪些类型的访问接口？HBase提供了Natie Jva AI ，HBasell , hiftGatway , RS GaeWy, Pig , Hve 等访问接口。5. 请以实例说明Hse数据模型。InoNameMaorEail050uoMinatuoqq.cm00502LiuJunMathliuqq.c015ie Yuathiq.cmyou16.om行键单元格单元格有两个时间戳ts1和ts2每个时间戳对应一个数据版本6. 分别解释HBse中行键、列键和时间戳的概念（

13、1）行键是唯一的,在一个表里只出现一次,否则就是在更新同一行，行键可以是任意的字节数组。（2）列族需要在创建表的时候就定义好，数量也不宜过多。列族名必须由可打印字符组成,创建表的时候不需要定义好列。（3）时间戳，默认由系统指定，用户也可以显示设置。使用不同的时间戳来区分不同的版本。7. 请举个实例来阐述HBse的概念视图和物理视图的不同Bae数据概念视图时间戳列族ctents列族anchor“comcwww”5Anchor:ci.om=”CN”T3Anchor：my.lok.ca=”CNN”“.w”3ontent:tml”tm.”Tntet：htm=”tml.”T1Cnten：html”HBa

14、se数据物理视图列族nhor“co.n.www”Ancr:cnnsi.co=”CN”T4ncor:my.okc=”CN”列族contets“omc.www”Content：htl=”.”T2Conent:m=”htm.”Contt:hml=”.”在Base的概念视图中,一个表可以视为一个稀疏、多维的映射关系。在物理视图中，一个表会按照属于同一列族的数据保存在一起8. 试述HBase各功能组建及其作用（）库函数：链接到每个客户端；（2）一个Master主服务器：主服务器Mate主要负责表和Rgin的管理工作；（3）许多个eion服务器：gn服务器是HBase中最核心的模块，负责维护分配给自己的R

15、gi，并响应用户的读写请求9. 请阐述Bse的数据分区机制。 Hae采用分区存储，一个大的表会被分拆许多个egin,这些Region会被分发到不同的服务器上实现分布式存储。10. Hase中的分区是如何定位的。通过构建的映射表的每个条目包含两项内容，一个是Reione 标识符,另一个是gin服务器标识，这个条目就标识Rein和Rego服务器之间的对应关系，从而就可以知道某个Rgion被保存在哪个Rego服务器中。11. 试述Hae的三层结构中各层次的名称和作用。层次名称作用第一层Zookeeper文件记录了-ROT-表的位置信息第二层OT表记录了T.表的Region位置信息-RO-表只能有一个

16、Regi。通过ROOT-表，就可以访问MTA.表中的数据第三层MTA.表记录了用户数据表的Region位置信息,.MT.表可以有多个Rion，保存了ase中所有用户数据表的in位置信息12. 请阐述HBase的三层结构下，客户端是如何访问到数据的。首先访问Zooeeper，获取-OOT表的位置信息，然后访问-oot-表，获得.MATA.表的信息,接着访问.MAT.表，找到所需的Rgion具体位于哪个Regi服务器,最后才会到该Region服务器读取数据。13. 试述Hase系统基本架构以及每个组成部分的作用。（）客户端客户端包含访问HBase的接口,同时在缓存中维护着已经访问过的Regn位置信

17、息,用来加快后续数据访问过程（2）Zookeeer服务器ooeper可以帮助选举出一个Mr作为集群的总管，并保证在任何时刻总有唯一一个Master在运行，这就避免了Master的“单点失效”问题（3）Matr主服务器aster主要负责表和egin的管理工作:管理用户对表的增加、删除、修改、查询等操作;实现不同Rein服务器之间的负载均衡；在Ren分裂或合并后，负责重新调整Region的分布；对发生故障失效的egin服务器上的Regon进行迁移（）Regio服务器Region服务器是HBase中最核心的模块,负责维护分配给自己的Regio，并响应用户的读写请求14. 请阐述Regon服务器向HD

18、S文件系统中读写数据的基本原理Region服务器内部管理一系列Ren对象和一个Hg文件，其中，HLo是磁盘上面的记录文件，它记录着所有的更新操作。每个Region对象又是由多个to组成的,每个Store对象了表中的一个列族的存储。每个tore又包含了MeSto和若干个treFil,其中，Mmtor是在内存中的缓存。15. 试述Ho的工作原理每个Stor对应了表中的一个列族的存储。每个Stor包括一个enStore缓存和若干个SrFile文件。MenStre是排序的内存缓冲区,当用户写入数据时，系统首先把数据放入tore缓存,当emSor缓存满时，就会刷新到磁盘中的一个StreFile文件中,当

19、单个toreFile文件大小超过一定阈值时，就会触发文件分裂操作。16. 试述HLog的工作原理HBas系统为每个Rgion服务器配置了一个HLog文件，它是一种预写式日志（Wit Ahead Log）,用户更新数据必须首先写入日志后，才能写入MemStoe缓存，并且，直到Mmto缓存内容对应的日志已经写入磁盘，该缓存内容才能被刷写到磁盘。17. 在Hae中，每个Regi服务器维护一个HLog，而不是为每个Regin都单独维护一个HLog。请说明这种做法的优缺点。优点:多个Reion对象的更新操作所发生的日志修改,只需要不断把日志记录追加到单个日志文件中,不需要同时打开、写入到多个日志文件中。

20、缺点:如果一个eion服务器发生故障,为了恢复其上次的Rgon对象，需要将Regin服务器上的对象，需要将gon服务器上的Hog按照其所属的egon对象进行拆分，然后分发到其他Rgio服务器上执行恢复操作。18. 当一台Rein服务器意外终止时，Mter如何发现这种意外终止情况？为了恢复这台发生意外的Regin服务器上的Reion,Maer应该做出哪些处理（包括如何使用HLog进行恢复）? Zoeper会实时监测每个egion服务器的状态,当某个egion服务器发生故障时，Zookeeper会通知Master。Mst首先会处理该故障Reion服务器上面遗留的HLog文件,这个遗留的HLog文件

21、中包含了来自多个Reion对象的日志记录。系统会根据每条日志记录所属的Region对象对HLog数据进行拆分,分别放到相应i对象的目录下,然后，再将失效的Regon重新分配到可用的Reon服务器中，并把与该Rego对象相关的Hg日志记录也发送给相应的Reio服务器。Region服务器领取到分配给自己的egion对象以及与之相关的HLg日志记录以后，会重新做一遍日志记录中的各种操作，把日志记录中的数据写入到MemSor缓存中,然后,刷新到磁盘的StoreFl文件中，完成数据恢复。第五章1.如何准确理解oSL的含义?NoSQL是一种不同于关系数据库的数据库管理系统设计方式，是对非关系型数据库的一类

22、统称,它采用的数据模型并非传统关系数据库的关系模型，而是类似键/值、列族、文档等非关系模型。2.试述关系数据库在哪些方面无法满族Web20应用的需求。关系数据库已经无法满足Wb2.的需求。主要表现在以下几个方面:（）无法满足海量数据的管理需求（2）无法满足数据高并发的需求（3）无法满足高可扩展性和高可用性的需求3.请比较NSL数据库和关系数据库的优缺点。比较标准RDBMSNoSQL备注数据库原理完全支持部分支持DBMS有关系代数理论作为基础NoQL没有统一的理论基础数据规模大超大RDMS很难实现横向扩展,纵向扩展的空间也比较有限,性能会随着数据规模的增大而降低oSL可以很容易通过添加更多设备来

23、支持更大规模的数据数据库模式固定灵活RDBMS需要定义数据库模式，严格遵守数据定义和相关约束条件NoSQL不存在数据库模式,可以自由灵活定义并存储各种不同类型的数据查询效率快可以实现高效的简单查询，但是不具备高度结构化查询等特性，复杂查询的性能不尽人意RDBMS借助于索引机制可以实现快速查询（包括记录查询和范围查询）很多NoSQL数据库没有面向复杂查询的索引，虽然oSQL可以使用MapRedue来加速查询，但是,在复杂查询方面的性能仍然不如RDMS一致性强一致性弱一致性RDMS严格遵守事务ACID模型，可以保证事务强一致性很多NoSQL数据库放松了对事务AID四性的要求，而是遵守AS模型，只能

24、保证最终一致性数据完整性容易实现很难实现任何一个RDM都可以很容易实现数据完整性,比如通过主键或者非空约束来实现实体完整性，通过主键、外键来实现参照完整性,通过约束或者触发器来实现用户自定义完整性但是，在oSQL数据库却无法实现扩展性一般好RDBM很难实现横向扩展，纵向扩展的空间也比较有限NoSQL在设计之初就充分考虑了横向扩展的需求,可以很容易通过添加廉价设备实现扩展可用性很好RBMS在任何时候都以保证数据一致性为优先目标,其次才是优化系统性能,随着数据规模的增大，DBMS为了保证严格的一致性,只能提供相对较弱的可用性大多数oSQL都能提供较高的可用性标准化是否RBMS已经标准化（QL）NQ

25、L还没有行业标准，不同的NoSL数据库都有自己的查询语言，很难规范应用程序接口StoneBrker认为：NSQL缺乏统一查询语言，将会拖慢NoQ发展技术支持高低RDBMS经过几十年的发展,已经非常成熟,racl等大型厂商都可以提供很好的技术支持NoQ在技术支持方面仍然处于起步阶段,还不成熟,缺乏有力的技术支持可维护性复杂RDBMS需要专门的数据库管理员（D）维护oS数据库虽然没有DMS复杂，也难以维护试述NoSQL数据库的四大类型键值数据库、列族数据库、文档数据库和图数据库6试述键值数据库、列族数据库、文档数据库和图数据库的适用场合和优缺点。数据库适用场合优点缺点键值数据库通过键而是通过值来查的业务扩展性好，灵活性好,大量写操作时性能高无法存储结构化信息,条件查询效率较低列族数据库不需要ACID事务支持的情形查找速度快,可扩展性强,容易进行分布式扩展,复杂性低功能较少,大都不支持强事务一致性文档数据库只在相同的文档上添加事务性能好（高并发），灵活性高，复杂性低,数据结构灵活提供嵌入式文档功能,将经常查询的数据存储在同一个文档中既可以根据键来构建索引，也可以根据内容构建索引缺乏统一的查询语法图形数据库具有高度相互关联关系的数据灵活性高，支持复杂的图形算法，

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

大数据技术原理与应用 林子雨版 课后习题答案文档格式.docx