大数据技术与应用习题答案完整共9章.docx
《大数据技术与应用习题答案完整共9章.docx》由会员分享,可在线阅读,更多相关《大数据技术与应用习题答案完整共9章.docx(19页珍藏版)》请在冰豆网上搜索。
大数据技术与应用习题答案完整共9章
1)请阐述什么是大数据?
大数据(bigdata),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
2)大数据对当今世界有哪些影响?
大数据是一种新兴的产业,从提出概述至今不断在推动着世界经济的转型和进一步的发展。
如法国政府在2013年投入近1150万欧元,用于7个大数据市场研发项目。
目的在于通过发展创新性解决方案,并将其用于实践,来促进法国在大数据领域的发展。
法国政府在《数字化路线图》中列出了五项将大力支持的战略性高新技术,大数据就是其中一项。
综上所述,从各种各样的大数据中,快速获得有用的信息的能力,就是大数据技术。
这种技术已经对人们的产生和生活方式有了极大的影响,并且还在快速的发展中,不会停下来。
3)大数据有哪些框架?
按照对所处理的数据形式和得到结果的时效性分类,大数据处理框架可以分为三类:
批处理系统、流处理系统和混合处理系统。
4)企业应当如何应对大数据时代的挑战?
大数据在许多企业应用程序中的确扮演着相当重要的角色,大数据的应用对于企业带来的好处有以下几点:
(1)结合各种传统企业数据对大数据进行分析和提炼,带给企业更深入透彻的洞察力。
它可以带来更高的生产力,更大的创新和更强的竞争地位。
(2)正确的数据分析可以帮助企业做出明智的业务经营决策的工具。
这里所谈的数据包括来自企业业务系统的订单、库存、交易账目、客户和供应商资料及来自企业所处行业和竞争对手的数据,以及来自企业所处的其他外部环境中的各种数据。
而商业智能能够辅助的业务经营决策既可以是作业层的,也可以是管理层和策略层的决策。
(3)促进企业决策流程:
增进企业的资讯整合与资讯分析的能力,汇总公司内、外部的资料,整合成有效的决策资讯,让企业经理人大幅增进决策效率与改善决策品质,很大程度上影响了企业的经营和绩效。
5)大数据和云计算的联系和区别是什么?
如果将云计算与大数据进行一些比较,最明显的区分在两个方面:
第一,在概念上两者有所不同,云计算改变了IT,而大数据则改变了业务。
然而大数据必须有云作为基础架构,才能得以顺畅运营。
第二,大数据和云计算的目标受众不同,云计算是CIO等关心的技术层,是一个进阶的IT解决方案。
而大数据是CEO关注的、是业务层的产品,而大数据的决策者是业务层。
综上所述,大数据和云计算二者已经彼此渗透,密不可分,相互融合,在很多应用场合都可以看到二者的身影。
在未来二者会继续影响,更好的服务于人们的生活和学习。
大数据与云计算的联系
大数据与云计算机都较好的代表了IT界发展的趋势,二者相互联系,密不可分。
大数据的本质就是利用计算机集群来处理大批量的数据,大数据的技术关注点在于如何将数据分发给不同的计算机进行存储和处理。
6)请阐述结构化数据,非机构化数据的区别和联系。
(1)结构化数据常指存储关系在数据库中的数据,该数据遵循某种标准,如企业财务报表、医疗数据库信息、行政审批数据、学生档案数据等。
(2)非结构化数据常指不规则或不完整的数据,包括所有格式的办公文档、XML、HTML、各类报表、图片、图像以及咅频、视频信息等。
企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%。
相对于以往便于存储的以文本为主的结构化数据,越来越多的非结构化数据的产生给所有厂商都提出了挑战。
在网络中非结构化数据越来越成为数据的主要部分。
值得注意的是:
非结构化数据具有内部结构,但不通过预定义的数据模型或模式进行结构化。
它可能是文本的或非文本的,也可能是人为的或机器生成的。
它也可以存储在像NoSQL这样的非关系数据库中。
7)阐述大数据运营的特点。
大数据运营是指以企业海量数据的存储和分析挖掘应用为核心支持的、企业全员参与的,以精准、细分和精细化为特点的运营制度和战略。
大数据运营与大数据分析不同,它把着重点放在了运营上,而大数据仅仅是工具和途径。
相比于传统的数据挖掘和分析,运营所强调的是以业务为主线和出发点,大数据部门并不仅是在外部运行的所谓的“支持部门”,而更多的是和业务紧密联系在一起的“半业务部门”,共同推进业务目标的实现。
8)请简述如何使用XX指数。
(1)输入网址:
htt:
//,进入XX指数的首页,并注册为新用户。
(2)在搜索栏中输入搜索对象
(3)观察结果并记录
习题2
一、选择题
1.云计算按照提供的服务类型进行分类,包括IaaS、PaaS和()
A.SaaSB.DockerC.XenD.KVM
2.存储虚拟化通过对存储系统或存储服务的内部功能进行抽象、隐藏或隔离,从而实现()和存储的独立管理。
A.数据B.应用C.IOD.服务器
3.大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行()
A.数据信息B.专业化处理C.速度处理D.内容处理
二、简答题
1.简要描述云计算的体系结构。
2.云计算与大数据的关系如何?
谈谈你的理解。
一.选择题
ABB
二、简答题
1.简要描述云计算的体系结构。
云计算的体系结构由5部分组成,分别为应用层,平台层,资源层,用户访问层和管理层,云计算的本质是通过网络提供服务,所以其体系结构以服务为核心。
2.云计算与大数据的关系如何?
谈谈你的理解。
本质上,云计算与大数据的关系是静与动的关系:
云计算强调的是计算,这是动的概念;而数据则是计算的对象,是静的概念。
如果结合实际的应用,前者强调的是计算能力,或者看中的是存储能力。
但是这样说,并不意味着两个概念就如此泾渭分明。
大数据需要处理大数据的能力,其实就是强大的计算能力;另一方面,云计算的动也是相对而言,比如基础设施即服务中的存储设备提供的主要是数据存储能力,所以可谓是动中有静。
如果数据是财富,那么大数据就是宝藏,而云计算就是挖掘和利用宝藏的利器!
从技术上来看,大数据和云计算的关系就像一枚硬币的正反面一样密不可分。
大数据必然无法用单台的计算机进行处理,必须采用分布式架构。
它的特色在于对海量数据进行分布式数据挖掘,但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术等。
从应用角度上讲,云计算给大数据提供信息化的基础设施,更有效利用资源;从产业发展的角度上讲,运用云平台,每天可以处理大批量的数据,并对这些数据进行科学,快速,智能检索。
3.7习题
一、选择题
1.B2.C3.B4.D5.B6.C7.D8.D
二、填空题
1.在HDFS文件系统读取文件的过程中,客户端通过对输入流调用_read()方法开始读取数据;写入文件的过程中客户端通过对输出流调用___write()___方法开始写入数据。
2.HDFS全部文件的元数据是存储在NameNode节点的___硬盘______(硬盘/内存),为了解决这个瓶颈,HDFS产生了____HA_____机制。
三、简答题
1.举例说明Hadoop的体系结构。
Hadoop其实是由一系列的软件库组成的框架。
这些软件库也可称作功能模块,它们各自负责了Hadoop的一部分功能,其中最主要的是Common、HDFS和YARN。
Common提供远程调用RPC、序列化机制,HDFS负责数据的存储,YARN则负责统一资源调度和管理等。
2.HDFS中数据副本的存放策略是什么?
HDFS默认的副本系数是3,这适用于大多数情况。
副本存放策略是将第一个副本存放在本地机架的节点上,将第二个副本放在同一机架的另一个节点上,将第三个副本放在不同机架的节点上。
这种策略减少了机架间的数据传输,这就提高了写操作的效率。
3.NameNode和DataNode的功能分别是什么?
元数据节点NameNode是管理者,一个Hadoop集群只有一个NameNode节点,是一个通常在HDFS实例中的单独机器上运行的软件。
NameNode主要负责HDFS文件系统的管理工作,具体包括命名空间管理(namespace)和文件block管理。
NameNode决定是否将文件映射到DataNode的复制块上。
对于最常见的3个复制块,第一个复制块存储在同一个机架的不同节点上,最后一个复制块存储在不同机架的某个节点上。
NameNode是HDFS的大脑,它维护着整个文件系统的目录树,及目录树里所有的文件和目录,这些信息以两种文件存储在本地文件中:
一种是命名空间镜像,也称为文件系统镜像(filesystemimage,FSImage),即HDFS元数据的完整快照,每次NameNode启动时,默认会加载最新的命名空间镜像,另一种是命名空间镜像的编辑日志(editlog)。
第二名字节点SecondaryNameNode。
第二名字节点是用于定期合并命名空间镜像和命名空间镜像的编辑日志的辅助守护进程。
每个HDFS集群都有一个SecondaryNameNode,在生产环境下,一般SecondaryNameNode也会单独运行在一台服务器上。
4.根据自己的理解画出HDFS文件系统中文件读取的流程,并解释其中的各个步骤。
5.根据自己的理解画出HDFS文件系统中文件写入的流程,并解释其中的各个步骤。
1)请阐述数据采集有哪些方法?
(1)系统日志采集
许多公司的平台每天会产生大量的日志(一般为流式数据,如搜索引擎的pv,查询等),处理这些日志需要特定的日志系统。
因此日志采集系统的主要工作就是收集业务日志数据供离线和在线的分析系统使用。
这种大数据采集方式可以高效地收集、聚合和移动大量的日志数据,并且能提供可靠的容错性能。
高可用性、高可靠性和可扩展性是日志采集系统的基本特征。
目前常用的开源日志采集平台包含有:
ApacheFlume、Fluentd、Logstash、Chukwa、Scribe以及SplunkForwarder等。
这些采集平台大部分采用的是分布式架构,以满足大规模日志采集的需要。
具体的日志采集平台在下一节会介绍。
(2)网络数据采集
网络数据采集是指利用互联网搜索引擎技术实现有针对性、行业性、精准性的数据抓取,并按照一定规则和筛选标准进行数据归类,并形成数据库文件的一个过程。
目前网络数据采集采用的技术基本上是利用垂直搜索引擎技术的网络蜘蛛(或数据采集机器人)、分词系统、任务与索引系统等技术进行综合运用而完成,并且随着互联网技术的发展和网络海量信息的增长,对信息的获取与分拣会成为一种越来越大的需求。
目前常用的网页爬虫系统有ApacheNutch、Crawler4j、Scrapy等框架。
由于采用多个系统并行抓取数据,这种方式能充分利用机器的计算资源和存储能力,大大提高系统抓取数据的能力,同时大大降低了开发人员的开发速率,使得开发人员可以很快的完成一个数据系统的开发。
(3)数据库采集
数据库采集是将实时产生的数据以记录的形式直接写入到企业的数据库中,然后使用特定的数据处理系统进行进一步分析。
目前比较常见的数据库采集主要有MySQL、Oracle、Redis、Bennyunn以及MongoDB等。
这种方法通常在采集端部署大量数据库,并对如何在这些数据库之间进行负载均衡和分片进行深入的思考和设计。
2)数据采集平台有哪些?
Flume、Fluentd、Logstash、Chukwa、Scribe、Kafka
3)为什么要进行数据清洗?
数据的不断剧增是大数据时代的显著特征,大数据必须经过清洗、分析、建模、可视化才能体现其潜在的价值。
然而在众多数据中总是存在着许多“脏”数据,即不完整、不规范、不准确的数据,因此数据清洗就是指把“脏数据”彻底洗掉,包括检查数据一致性,处理无效值和缺失值等,从而提高数据质量。
在实际的工作中,数据清洗通常占开发过程的50%-70%左右的时间。
4)数据清洗有哪些流程?
(1)数据清洗-预处理
(2)数据清洗-缺省值清洗
(3)数据清洗-格式与内容清洗
(4)数据清洗-逻辑错误清洗
(5)数据清洗-多余的数据清洗
(6)数据清洗-关联性验证
5)什么是数据标准化?
数据的标准化,是通过一定的数学变换方式,将原始数据按照一定的比例进行转换,使之落入到一个小的特定区间内,例如0~1或-1~1的区间内,消除不同变量之间性质、量纲、数量级等特征属性的差异,将其转化为一个无量纲的相对数值。
因此标准化数值是使各指标的数值都处于同一个数量级别上,从而便于不同单位或数量级的指标能够进行综合分析和比较。
6)请阐述什么是数据仓库。
数据仓库是决策支持系统和联机分析应用数据源的结构化数据环境,它研究和解决从数据库中获取信息的问题,并为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。
7)实施ETL有哪些常见工具?
目前在市场上常见的ETL工具包含有:
(1)Talend
Talend是第一家针对的数据集成工具市场的ETL开源软件供应商。
Talend以它的技术和商业双重模式为ETL服务提供了一个全新的远景。
它打破了传统的独有封闭服务,提供了一个针对所有规模的公司的公开的,创新的,强大的灵活的软件解决方案。
(2)DataStage
DataStage是IBM公司的商业软件,是一种数据集成软件平台,能够帮助企业从散布在各个系统中的复杂异构信息获得更多价值。
DataStage 支持对数据结构从简单到高度复杂的大量数据进行收集、变换和分发操作。
并且Datastage全部的操作在同一个界面中,不用切换界面,能够看到数据的来源,整个job的情况。
(3)Kettle
Kettle中文名称叫水壶,是一款国外开源的ETL工具,纯java编写,可以在Windows、Linux、Unix上运行,数据抽取高效稳定。
Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。
(4)InformaticaPowerCenter
InformaticaPowerCenter是一款非常强大的ETL工具,支持各种数据源之间的数据抽取、转换、加载等数据传输,多用于大数据和商业智能等领域。
一般应用企业根据自己的业务数据构建数据仓库,在业务数据和数据仓库间进行ETL操作。
1)请阐述大数据存储的定义。
大数据存储通常是指将那些数量巨大、难于收集、处理、分析的数据集持久化到计算机中。
在进行大数据分析之前,首先的步骤就是要将海量的数据存储起来,以便今后的使用。
因此,大数据的存储是数据分析与应用的前提。
2)文件存储和对象存储有什么区别?
文件存储(NAS)相对块存储来说更能兼顾多个应用和更多用户访问,同时提供方便的数据共享手段。
对象存储是一种新的网络存储架构。
存储标准化组织SINA早在2004年就给出了对象存储的定义,但早期多出现在超大规模系统中,所以并不为大众所熟知,相关产品一直也不温不火。
一直到云计算和大数据的概念全民强推,才慢慢进入公众视野。
对象存储的优势是互联网或者公网,主要解决海量数据,海量并发访问的需求。
总体上讲,对象存储同时兼具SAN高级直接访问磁盘特点及NAS的分布式共享特点。
它的核心是将数据通路(数据读或写)和控制通路(元数据)分离,并且基于对象存储设备(OSD),构建存储系统,每个对象存储设备具备一定的职能,能够自动管理其上的数据分布。
3)什么是NoSQL,有什么特点?
NoSQL数据库又叫作非关系数据库,它是英文“NotOnlySQL”的简写,即“不仅仅是SQL”。
和数据库管理系统(RDBMS)相比,NoSQL不使用SQL作为查询语言,其存储也可以不需要固定的表模式,用户操作NoSQL时通常会避免使用RDBMS的JION操作。
NoSQL数据库一般都具备水平可扩展的特性,并且可以支持超大规模数据存储,灵活的数据模型也可以很好地支持Web2.0应用,此外还具有强大的横向扩展能力。
典型的NoSQL数据库包含以下几种:
键值数据库、列族数据库、文档数据库和图形数据库。
值得注意的是:
每种类型的数据库都能够解决传统关系数据库无法解决的问题。
4)什么是NewSQL,有什么特点?
NewSQL数据库是对各种新的可扩展/高性能数据库的简称,它是一种相对较新的形式,旨在使用现有的编程语言和以前不可用的技术来结合SQL和NoSQL中最好的部分。
这类数据库不仅具有NoSQL对海量数据的存储管理能力,还保持了传统数据库支持ACID和SQL等特性。
因此,NewSQL数据库也被定义为下一代数据库的发展方向。
作为一种相对较新的形式,NewSQL旨在使用现有的编程语言和以前不可用的技术来结合SQL和NoSQL中最好的部分,它的目标是将SQL的ACID保证与NoSQL的可扩展性和高性能相结合。
NewSQL数据库改变了数据的定义范围。
它不再是原始的数据类型,如整数、浮点,它的数据可能是整个文件。
此外,NewSQL数据库是非关系的、水平可扩展、分布式并且是开源的。
5)什么是云数据库?
云数据库是指被优化或部署到一个虚拟计算环境中的数据库,是在云计算的大背景下发展起来的一种新兴的共享基础架构的方法,它极大地增强了数据库的存储能力,消除了人员、硬件、软件的重复配置,让软、硬件升级变得更加容易。
因此,云数据库具有高可扩展性、高可用性、采用多租形式和支持资源有效分发等特点,可以实现按需付费和按需扩展。
6)什么是图形数据库?
图形数据库是一种非关系型数据库,它应用图形理论存储实体之间的关系信息。
不过值得注意的是:
图形数据库的基本含义是以“图”这种数据结构存储和查询数据,而不是存储图片的数据库。
(1)请阐述什么是大数据分析。
大数据分析的主要任务主要有:
第一类是预测任务,目标是根据某些属性的值,预测另外一些特定属性的值。
被预测的属性一般称为目标变量或因变量,被用来做预测的属性称为解释变量和自变量;第二类是描述任务,目标是导出概括数据中潜在联系的模式,包括相关、趋势、聚类、轨迹和异常等。
描述性任务通常是探查性的,常常需要后处理技术来验证和解释结果。
具体可分为分类、回归、关联分析、聚类分析、推荐系统、异常检测、链接分析等几种。
(2)大数据分析的类型有哪些?
大数据分析主要有描述性统计分析、探索性数据分析以及验证性数据分析等。
(3)举例两种数据挖掘的应用场景?
(1)电子邮件系统中垃圾邮件的判断
电子邮件系统判断一封Email是否属于垃圾邮件。
这应该属于文本挖掘的范畴,通常会采用朴素贝叶斯的方法进行判别。
它的主要原理就是,根据电子邮件中的词汇,是否经常出现在垃圾邮件中进行判断。
例如,如果一份电子邮件的正文中包含“推广”、“广告”、“促销”等词汇时,该邮件被判定为垃圾邮件的概率将会比较大。
(2)金融领域中金融产品的推广营销
针对商业银行中的零售客户进行细分,基于零售客户的特征变量(人口特征、资产特征、负债特征、结算特征),计算客户之间的距离。
然后,按照距离的远近,把相似的客户聚集为一类,从而有效地细分客户。
将全体客户划分为诸如:
理财偏好者、基金偏好者、活期偏好者、国债偏好者等。
其目的在于识别不同的客户群体,然后针对不同的客户群体,精准地进行产品设计和推送,从而节约营销成本,提高营销效率。
(4)简述数据挖掘的分类算法及应用。
K-Means算法也叫作k均值聚类算法,它是最著名的划分聚类算法,由于简洁和效率使得它成为所有聚类算法中最广泛使用的。
决策树算法是一种能解决分类或回归问题的机器学习算法,它是一种典型的分类方法,最早产生于上世纪60年代。
决策树算法首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析,因此在本质上决策树是通过一系列规则对数据进行分类的过程。
KNN算法也叫作K最近邻算法,是数据挖掘分类技术中最简单的方法之一。
所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。
遗传算法模拟了自然选择和遗传中发生的繁殖、交配和基因突变现象,是一种采用遗传结合、遗传交叉变异及自然选择等操作来生成实现规则的、基于进化理论的机器学习方法。
神经网络可以指向两种,一个是生物神经网络,一个是人工神经网络。
在这里专指人工神经网络。
它是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。
1)请阐述什么是数据可视化?
数据可视化,是关于数据视觉表现形式的科学技术研究,它为大数据分析提供了一种更加直观的挖掘、分析与展示当代手段,从而让大数据更有意义。
因此,大数据可视化是将各种数据用图形化的方式展示给人们,是人们理解数据,诠释数据的重要手段和途径。
从本质上讲,数据可视化是为了帮助用户通过认知数据,进而发现这些数据所反映的实质。
2)数据可视化的流程是什么?
数据可视化是一个系统的流程,该流程以数据为基础,以数据流为导向,还包括了数据采集、数据处理、可视化映射和用户感知等环节。
具体的可视化实现流程有很多
3)数据可视化有哪些实现图表?
在统计图表中每一种类型的图表中都可包含不同的数据可视化图形,如柱状图、饼图、气泡图、热力图、趋势图、直方图、雷达图、色块图、漏斗图、和弦图、仪表盘、面积图、折线图、密度图以及K线图等。
4)数据可视化的方法有哪些?
文本可视化、网络可视化与空间信息可视化
5)数据可视化有哪些应用?
金融行业面临诸多挑战。
通过引入数据可视化可以对企业各地日常业务动态实时掌控,客户数量和借贷金额等数据进行有效监管,帮助企业实现数据实时监控,加强对市场的监督和管理;通过对核心数据多维度的分析和对比,指导公司科学调整运营策略,制定发展方向,不断提高公司风控管理能力和竞争力。
数据可视化在工业生产中有着重要的应用,如可视化智能硬件的生产与使用。
可视化智能硬件通过软硬件结合的方式,让设备拥有智能化的功能,并对硬件采集上来的数据进行可视化的呈现。
因此在智能化之后,硬件就具备了大数据等附加价值。
随着可视化技术的不断发展,今后智能硬件从可穿戴设备延伸到智能电视、智能家居、智能汽车、医疗健康、智能玩具、智能机器人、智能交通、智能教育等各个不同的领域。
等
(1)数据安全的定义是什么?
数据的安全是计算机系统安全的核心部分之一,数据安全的定义一方面是指其自身的安全,包括采用现代加密技术对数据进行主动保护,另一方面是数据防护的安全,指的是采用现代信息存储手段对数据进行主动防护。
(2)数据安全的特点有哪些?
数据安全有下面几个方面的特点
(1)保密性
保密性指的是个人或者企事业单位的信息数据不能被其他未经许可的人员取得。
无论是
我们在计算机或者手机等移动设备中保存的信息数据都需要有相关的保密性设定,例如文件夹的访问权限,浏览器的浏览历史记录,手机中的通信录等数据都有保密性设定,防止非法用户的获取。
(2)完整性
完整性是指在信息数据传输和存储过程中,不被XX的篡改。
计算机的数据和传统
印刷或者书写的信息数据有很大的区别,其信息数据的篡改通过传统鉴别方法是很难识别的,在实际应用中通常是使用数字签名等方式进行完整性保护。
(3)可用性
可用性也称有效性,主要是指信息数据能够被授权的人员正常访问、使用。
例如可以在
系统正常运行过程中正确读取和保存信息,其主要是面向用户的一种安全性能,保障可以为用户提供可靠的服务。
(3)个人隐私信息包含哪些内容?
个人隐私指的是我们个人生活中不愿意被公开或者让其他人知晓的个人信息。
例如我们的手机号码、家庭住址、家庭成员相关信息、个人身份信息等内容。
个人隐私