大数据考点总结.docx
《大数据考点总结.docx》由会员分享,可在线阅读,更多相关《大数据考点总结.docx(5页珍藏版)》请在冰豆网上搜索。
![大数据考点总结.docx](https://file1.bdocx.com/fileroot1/2023-2/6/20abb284-b052-4deb-b93d-26f3ae9dfe74/20abb284-b052-4deb-b93d-26f3ae9dfe741.gif)
大数据考点总结
大数据考点总结
名词解释
1.Hadoop:
是一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构。
基于Java语言开发的,具有很好的跨平台特性,并且可以部署在廉价的计算机集群中。
核心是分布式文件系统HDFS(HadoopDistributedFileSystem)和MapReduce。
2.HDFS:
是Hadoop的一个分布式文件系统,它的主要设计理念为存储超大文件,最高效的访问模式是一次写入、多次读取,运行在普通廉价的服务器上。
3.Hbase:
是一个高可靠、高性能、面向列、可伸缩的分布式数据库,主要用来存储非结构化和半结构化的松散数据。
$hbaseshell
4.Spark:
AMP实验室于2009年开发,基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序
5.推荐系统:
是自动联系用户和物品的一种工具,通过研究用户的兴趣偏好,进行个性化计算,帮助用户从海量信息中去发掘自己潜在的需求
6.网络爬虫:
又称为网络蜘蛛,是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。
7.大数据:
一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库能力范围的数据集合(1.数据量大2.数据类型多3.处理速度快4价值密度低即Volume、Variety、Value、Velocity)
8.物联网:
物物相连的互联网,是互联网的延伸,它利用局部网络或互联网等通信技术把传感器、控制器、机器、人员和物等通过新的方式联在一起,形成人与物、物与物相联,实现信息化和远程管理控制
9.云计算:
通过整合和管理分布在网络各处的计算资源,提供可伸缩的、廉价的分布式计算能力,通过互联网以统一界面,向大量的用户提供服务的一种模式
10数据可视化:
将大型集中的数据以图形图像形式表示,并利用数据分析和开发工具发现其中未知信息的处理过程
简答题
1.hadoop有哪些组件以及功能?
答:
主要组件有分布式文件系统HDFS,为海量数据提供存储;分布式并行编程模型Mapreduce为用户提供强大的计算能力。
2.MapReduce的运行过程是什么样的?
答:
从分布式文件系统读入数据、执行Map任务输出中间结果、通过Shuffle阶段把中间结果分区排序整理后发送给Reduce任务、执行Reduce任务得到最终结果并写入分布式文件系统。
(执行map函数把一组键值对按照相关的规则映射成一组新的键值对,并交由归约函数处理)
3.Hbase的主要功能组件有哪些?
答:
(1)库函数:
链接到每个客户端
(2)一个Master主服务器(3)许多个Region服务器
4.Hbase与传统的数据库有什么区别?
答
(1)数据类型:
关系数据库采用关系模型,HBase则采用了更加简单的数据模型
(2)数据操作:
关系数据库中包含了丰富的操作,HBase操作只有简单的插入、查询、删除、清空等
(3)存储模式:
关系数据库是基于行模式存储的,HBase是基于列存储的。
(4)数据索引:
关系数据库通常可以针对不同列构建复杂的多个索引,以提高数据访问性能。
HBase只有一个索引——行键
(5)数据维护:
在关系数据库中,更新操作会用最新的当前值去替换记录中原来的旧值,旧值被覆盖后就不会存在。
而在HBase中执行更新操作时,并不会删除数据旧的版本
(6)可伸缩性:
关系数据库很难实现横向扩展,纵向扩展的空间也比较有限。
而hbase正好相反。
5.数据可视化思想及其作用?
答:
数据可视化技术的基本思想是将数据库中每一个数据项作为单个图元素表示,大量的数据集构成数据图像,同时将数据的各个属性值以多维数据的形式表示,可以从不同的维度观察数据,从而对数据进行更深入的观察和分析
作用:
1)观测、跟踪数据2)分析数据3)辅助理解数据4)增强数据吸引力
6.云计算,物联网,大数据之间联系
答:
区别:
大数据侧重于对海量数据的存储、处理和分析;云计算本质上通过网络以服务的方式将计算服务提供给用户;物联网的主要是实现物物相连。
联系:
云计算为大数据提供了技术基础,大数据为云计算提供了用武之地;
物联网是大数据的重要来源,大数据也为物联网数据分析提供支撑;
云计算为物联网提供海量的数据存储能力,物联网为云计算提供了广阔的应用空间。
7.关系型数据库和非关系型数据库区别?
答:
(1)关系数据库:
是建立在关系模型基础上的数据库,借助于集合代数等数学概念和方法来处理数据库中的数据
优势:
以完善的关系代数理论作为基础,有严格的标准,支持事务ACID四性,借助索引机制可以实现高效的查询,技术成熟,有专业公司的技术支持
劣势:
可扩展性较差,无法较好支持海量数据存储,数据模型过于死板、无法较好支持Web2.0应用,事务机制影响了系统的整体性能等
(2)NoSQL数据库:
是建立在非关系模型基础上的数据集
优势:
可以支持超大规模数据存储,灵活的数据模型可以很好地支持Web2.0应用,具有强大的横向扩展能力等
劣势:
缺乏数学理论基础,复杂查询性能不高,大都不能实现事务强一致性,很难实现数据完整性,技术尚不成熟,缺乏专业团队的技术支持,维护较困难等
8.spark由哪些组件构成?
答:
Spark的生态系统主要包含了SparkCore、历史数据交互查询SparkSQL、实时数据流数据处理SparkStreaming、历史数据的数据挖掘MLLib和图结构数据处理GraphX等组件
9.大数据给思维方式的改变?
答:
在数据基础上倾向全体数据而不是抽样数据,
在分析方法上注重相关分析而不是因果分析
在分析效果上更加追求效率而不是绝对精确
10.大数据在医疗,通信等行业的应用产生的影响以及具体带来什么改变?
医疗:
1.看病难或将成为一个传说
2.临床辅助的决策支持系统的应用:
这个系统可以为医生临床治疗提供决策依据,有助于确保医疗质量,可以使医生从耗时过长的简单咨询工作中解脱出来,从而提高治疗效率
3.医疗模式或将发生五大转变:
(1)是由疾病为中心转向以健康为中心
(2)是从以医院为基础转向以社会、家庭为基础(3)是从碎片化、非连续的服务转化成连续的、整合性的服务(4)是从被动诊治转变为主动预防(5)从为单个患者服务转变为群体服务。