高中信息技术学业水平综合复习第五章 数据处理与可视化表达解析版.docx
《高中信息技术学业水平综合复习第五章 数据处理与可视化表达解析版.docx》由会员分享,可在线阅读,更多相关《高中信息技术学业水平综合复习第五章 数据处理与可视化表达解析版.docx(12页珍藏版)》请在冰豆网上搜索。
高中信息技术学业水平综合复习第五章数据处理与可视化表达解析版
2022年高中信息技术学业水平综合复习
必修1数据与计算第五章数据处理和可视化表达
5.1认识大数据
5.1.1大数据
大数据是指无法在可承受的时间范围内用常规软件工具进行高效捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
5.1.2大数据的特征
(1)从互联网产生大数据的角度来看,大数据具有“4V”特征:
大量(Volume)、多样
(Variety)、低价值密度(Value)、高速(Velocity)。
第一,数据体量巨大。
从TB级别跃升到PB级别。
第二,数据类型繁多。
如网络日志、视频、图片、地理位置信息等。
第三,价值密度低。
以视频为例,在连续不间断的监控过程中,有用的数据可能仅仅一两秒。
第四,变化速度快。
数据来自世界各地的网络终端,且以秒为单位快速变化。
(2)从互联网思维的角度来看,大数据具有三个特征:
样本渐趋于总体,精确让位于模糊,相关性重于因果。
第一,在大数据时代强调数据要全量而不是抽样,即强调数据规模全量,而不是强调数量巨大。
大数据时代有了更好的数据采集手段,让获取全量数据成为可能。
第二,大数据时代研究的数据如此之多,追求的不是精确性,而是模糊性。
在大数据时代,只要掌握了大体的开展方向即可,适当忽略微观层面上的精确度,会让我们在宏观层面拥有更好的洞察力。
第三,大数据时代不是因果关系,而是相关关系。
在大数据时代,无须再紧盯事物之间的因果关系,而应该寻找事物之间的相关关系;相关关系也许不能准确地告诉我们某件事情为何会发生,但是会提醒我们这件事情正在发生。
(3)从大数据存储与计算的角度来看,大数据具有两个特征:
分布式存储和分布式并行计算。
第一,大数据存储在互联网不同的服务器与各客户终端。
第二,应用分布式并行计算处理互联网的大数据。
大数据对日常生活的影响
1.大数据使人们日常生活更为便捷:
方便支付;方便出行;方便购物与产品推介;方便看病与诊病。
2.大数据对人们日常生活产生的负面影响:
个人信息泄露;信息伤害与诈骗。
5.2数据的采集
5.2.1数据采集的基本方法
数据采集的基本方法包括:
1.系统日志采集法;2.网络数据采集法;3.其他数据采集法。
实例,如利用手环检测心率,主要是通过光感进行,采用绿色搭配感光光电二极管实时检测流经手腕血液的流量来获取心率信息。
当用户的心脏跳动时,会有更多的血液流过用户的手腕,绿光的吸收量也会越大;在心脏跳动间隙,血液流量减少,绿光的吸收也会减少。
2.改革开放以来,中国经济开展取得令人瞩目的成就,但是中国各省开展差异大。
如历年各省的国内生产总值(GDP)和人口数据,我们可以发现经济开展和人口数据的变化规律。
请采集有关数据,并进行数据分析,通过数据分析发现数据中的一些规律。
拓展:
Python网络数据采集程序使用的扩展库
(l)NumPy(NumericalPython)
是构建科学计算最基础的软件库;
(2)SciPy
是一个工程和科学软件库,包含线性代数、优化、集成和统计的模块;
(3)Pandas
是一个Python包,旨在通过标记(labeled)和关系(relational)数据进行工作;
(4)Matplotlib
是Python的一个2D绘图库。
在Python模块库中有大量模块可供使用,要想使用这些文件,就需要用import语句把指定模块导入当前程序中。
使用import语句导入模块的语法如下:
importmodule关键字模块名
fromimport语句也是导入模块的一种方法,是导入指定模块内的指定函数方法。
使用fromimport语句导入模块内指定方法的语法如下:
frommoduleimportname
关键字模块名关键字方法名
数据的存储和保护
1.数据的存储
一种是把数据存在本地内部,另一种是把数据存在第三方公共或私有的“云端”存储。
2.数据的保护
(1)数据平安保护技术。
安装杀毒软件和防火墙只能防范数据平安隐患,而采用拷贝、备份、复制、镜像、持续备份等技术进行数据保护才是更为彻底、有效的方法。
为了防止数据泄密,可采用对称式加密(加密、解密用同一密钥)和非对称式加密(加密、解密用两个不同的密钥)。
(2)数据的隐私保护。
解决方法有三个:
一是技术手段,常用的隐私保护有:
①数据收集时进行数据精度处理;②数据共享时进行访问控制;③数据发布时进行人工加扰;④数据分析时进行数据匿名处理等。
二是提高自身的保护意识。
三是要对数据使用者进行道德和法律上的约束。
5.3数据的分析
数据分析就是在一大批杂乱无章的数据中,运用数字化工具和技术,探索数据内在的结构和规律,构建数学模型,并进行可视化表达,通过验证将模型转化为知识,为诊断过去、预测未来发挥作用。
数据分析一般包括特征探索、关联分析、聚类与分类、建立模型和模型评价等。
5.3.1特征探索
特征探索的主要任务是对数据进行预处理,发现和处理缺失值、异常数据,绘制直方图,观察分析
数据的分布特征,求最大值、最小值、极差等描述性统计量。
5.3.2关联分析
关联分析就是分析并发现存在于大量数据之间的关联性或相关性,从而描述一个事物中某些属性同时出现的规律和模式。
5.3.3聚类分析
聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。
K-平均算法是一种经典的自下而上的聚类分析方法。
5.3.4数据分类
数据分类是数据分析处理中最基本的方法。
数据分类通常的做法是,基于样本数据先训练构建分类函数或者分类模型(也称为分类器),该分类器具有将待分类数据项映射到某一特点类别的功能。
贝叶斯分类技术在众多分类技术中占有重要地位。
5.4数据的可视化表达
数据的可视化可以把枯燥乏味的海量数据以丰富的视觉效果呈现数据所反映的本质问题,有效提升数据分析的效率。
数据可视化是指以图形、图像、地图、动画等生动、易于理解的方式展示数据和诠释数据之间的关系、趋势与规律等,以便更好地理解数据。
5.4-1数据可视化表达方式(见下页表5-5)数据可视化工具
Python语言因其开源和包容的特性,嵌入了大量数据可视化的工具,如绘图工具模块Matplotlib、Seaborn和Bokeh等。
11)Seaborn主要关注统计模型的可视化。
22)Bokeh也是一个很好的可视化库,可实现交互式可视化。
数据的可视化表达
表5-5数据分析类型及其对应的可视化呈现
数据分析类型可视化呈现类型"I分组柱形图堆叠柱形图拆线图柱线混合图
有关趋势的分析
第五章数据处理和可视化表达学业测试
一、单项选择题
3.从互联网产生大数据的角度,大数据具有的特征()A.4V特征:
大量(Volume)、多样(Variety)、低价值密度(Value)、高速(Velocity)
B.样本渐趋于总体,精确让位于模糊,相关性重于因果C.分布式存储,分布式并行计算
D.没有特征
【答案】:
A
【解析】:
见教材P102,从互联网产生大数的角度来看,大数据的4V特征。
4.以下可以用于分析数据趋势的是()A.饼图B.折线图C.动力热力图D.词云图
【答案】:
B
【解析】:
见教材P119页,有关趋势的分析为拆线图,饼图表示比例的分析,动态热力图是关于空间关系的,词云图是逻辑关系分析。
5.数据分析的方法不包括()oA.线性分析B.关联分析C.聚类分析D.数据分类
【答案】:
A
【解析】:
见教材Pill,数据分析一般包括特征探索、关联分析、聚类与分类、建立模型和模型评价,不含线性分析。
4,以下关于大数据的特征,说法正确的选项是()A.数据价值密度高B.数据类型少C.数据基本无变化D.数据体量巨大
【答案】:
D
【解析】:
见教材P102,从互联网产生大数的角度来看,大数据的4V特征是:
数据体量巨大、数据类型繁多、价值密度低、变化速度快。
6.数据特征探索的主要任务是对数据进行预处理,以下不属于该过程的是()A.数据清洗B.异常数据处理C.数据缺失处理D.数据分类处理
【答案]D
【解析】:
见教材P112,数据特征探索的预处理主要有数据清洗、发现缺失值、异常数据处理、求最大值和最小值、求极差、求组距、绘制价格直方图、绘制评论数直方图等。
不含D项。
7.海军军官通过对前人航海日志的分析,绘制了新的航海路线图,标明了大风与洋流可能发生的地点。
这表达了大数据分析理念中的()A.在数据基础上倾向于全体数据而不是抽样数据
B.在分析方法上更注重相关分析而不是因果分析C.在分析效果上更追究效率而不是绝对精确
D.在数据规模上强调相对数据而不是绝对数据
【答案】:
B
【解析】:
见教材P102,A项强调数据规模;B项对前人航海数据的分析,不是分析为什么走某条航线,不是分析为什么会发生洋流,而是强调数据的相互联系,注重数据的相关性分析,所以选B项;C项是讲分析数据的走势和开展方向,与题干不符;D项强调数据规模,题干中也未涉及。
8.大数据时代已经在悄悄地改变我们的日常生活,也使人们日常生活更为便捷,如移动支付、网络约车出行、网络购物、网络预约挂号等。
以下不属于大数据分析的是()A.特征探索B.关联分析C.聚类与分类D.建模分析
【答案]D
【解析】:
见教材P111,数据分析一般包括特征探索、关联分析、聚类与分类、建立模型和模型评价,不含线性分析。
不含D项。
9.电子警察采用拍照的方式来约束车辆的行为,其拍照的过程属于()A.数据分析B.数据采集C.数据分类D.数据可视化表达
【答案】:
B
【解析】:
拍照的过程属于数据的采集,选B项。
10某超市曾经研究销售数据,发现买商品A的人购买商品B的概率很大,这种属于数据的()
【解析】:
见教材P113,关联分析就是发现存在于大数据之间的关联性或相关性,即A与B的相关性,符合题意。
11.数据采集的基本方法包括()、网络数据采集法和其他数据采集法。
D.系统日志采集法
A.数据库采集法B.访问记录采集法C.数据目录采集法
【答案]D
【解析】:
数据采集的基本方法包括系统日志采集法、网络数据采集法、其他数据采集法,所以选D项。
12.以下关于聚类分析的说法,错误的选项是()A.可以从数据点集合中随机选择K个点作为初始的聚集中心
B对其他的每个数据点,以此判断其与K个中心点的距离,距离最近的说明它属于这项聚类C.聚类分析,必须先设定分类的标准,否那么无法准确分类
D.重新计算新的聚簇集合的平均值既中心点
【答案】:
C
【解析】:
见教材P115,
K-平均算法中包括ABD,而明确指出聚类分析不性事先给出一个分类标准。
【答案】:
A
【解析】:
见教材P115,
【解析】:
见教材P104页,网络爬虫从一个或假设干网页的URL开始。
14.大数据时代,数据应用的关键是()
A.数据收集
【答案]D
【解析】:
大数据时代,数据随时产生,随时收集并存储,要利用大数,必须分析出数据的相关性、发展方向等特征,才能对数据进行利用,所以数据分析是关键。
15.为了弘扬和传承中华民族勤俭节约的传统美德,引导同学们进一步深化节约粮食的意识和行为习惯,学生会开展了“我为食堂提建议”的活动。
请根据学生会开展该活动的几个步骤,排出最合理的顺序()
①根据数据分析结果,撰写数据分析报告,对食堂提出合理化建议
②学生会成员去学校食堂收集数据,并制作调查问卷的题目
③利用图表形式直观展示分析数据
④对问卷进行回收整理,将无效的问卷进行剔除
⑤学生会成员对就餐同学们进行问卷调查
⑥对调查数据和食堂