《大数据可视化》教学教案.docx
《《大数据可视化》教学教案.docx》由会员分享,可在线阅读,更多相关《《大数据可视化》教学教案.docx(19页珍藏版)》请在冰豆网上搜索。
《大数据可视化》教学教案
《大数据可视化》教学教案
讲授章节
第1讲数据可视化概述
授课时数
2
教学目的:
1.介绍数据可视化概念和发展历史
2.介绍可视化的二种类别
3.理解可视化作用,了解可视化的发展方向
教学内容(课程导入)
一可视化概念
1•数据定义
2.数据可视化的定义
3.数据可视化从数据中提取的信息:
•模式数据的规律
•关系数据之间的相关性
•异常问题数据
二数据可视化发展历史
数据可视化的起源可追溯到公兀2世纪,但是在之后的很长一段时间并没有特别大的发展。
数据可视化的主要进展都是在最近两个半世纪才出现,尤其是近四十年。
目前最热门的可视化形式可以追溯到17世纪,那时的地质探索、数学和历史的普及促进了早期的地图、图表和时间线的出现。
随着工艺技术的完善,到19世纪上半叶,人们已经掌握了整套统计数据可视化工具(包括柱状图、饼图、直方图、折线图、时间线、轮酬线等),关于社会、地理、医学和基金的统计数据越来越多。
到19世纪下半叶,系统构建可视化方法的条件日渐成熟,人类社会进入了统计图形学的黄金时期。
到了20世纪上半叶,政府、商业机构和科研部门开始大量使用可视化统计图形。
进入21世纪,新的可视化媒介互联网出现,这催生了许多新的可视化技术和功能。
三可视化的分类
根据所处理的数据对象的不同,数据可视化可分为科学可视化与信息可视化。
1.科学可视化
科学可视化是可视化领域发展最早、最成熟的一个学科,英应用领域包括物理、化学、气象气候、航空航天、医学、生物学等各个学科,涉及对这些学科中数据和模型的解释、操作与处理,旨在寻找其中的模式、特点、关系以及异常情况。
2.信息可视化
信息可视化的数据更贴近我们的生活与工作,包括地理信息可视化、时变数据可视化、层次数据可视化、网络数据可视化、非结构化数据可视化等我们常见的地图是地理信息数据,属于信息可视化的范畴。
3.可视分析学
可视分析学被左义为一门以可视交互界而为基础的分析推理科学,综合了图形学、数据挖掘和人机交互等技术。
四大数据可视化作用及发展方向
数据可视化的作用包括记录信息、分析推理、信息传播与协同等。
伴随大数据时代的来临,数据可视化日益受到关注,可视化技术也日益成熟。
然而,数据可视化依然存在许多问题,且面临着如下巨大的挑战。
•数据规模大
•数据质量问题
•数据快速动态变化
•面临复杂髙维数据
•多来源数据的类型和结构各异
未来主要有四个发展方向:
•可视化技术与数据挖掘技术的紧密结合。
•可视化技术与人机交互技术的紧密结合
•可视化技术广泛应用于大规模、髙维度、非结构化数据的处理与分析。
•处理数据能力的弹性变化。
本章节的教学重点、难点:
本章重点是数据及数据可视化概念,难点是可视化面临的挑战
教学方法、教学手段:
使用教具:
汁算机和投影仪
♦习题:
P25
讲授章节
第2讲数据可视化基础
授课时数
2
教学目的:
1.介绍数据可视化流程
2.能够了解可视化用到的数据存储工具
3.理解并可以简单运用可视化设计原则。
教学内容(讲授提纲)
一可视化流程
1.数据采集
在可视化设计过程中,一上要事先了解数据的来源、采集方法和数据属性,这样才能准确地反映要解决的问题。
2.数据处理和变换
可视化之前需要将原始数据转换成用户可以理解的模式和特征并显示岀来。
所以,数据
处理和变换是非常有必要的,它包括去噪、数据淸洗、提取特征等流程
3.可视化映射
可视化映射过程是整个流程的核心,其主要目的是让用户通过可视化结果去理解数据信息以及数据背后隐含的规律
4.用户感知
可视化映射后的结果只有通过用户感知才能转换成知识和灵感。
二可视化数据组织工具
数据良好的组织与管理是优秀数据可视化方案的前提条件。
在大数拯时代,只有选择适合的数据组织与管理方式,才能得到最好的可视化性能,才又可能实现实时数据的可视化展示。
有以下常见数据存储工具
•分布式文件系统
•文档存储
•列式存储
•键值存储
•图形数据库
•关系数据库
•内存数据库
三可视化设计原则
数据可视化的主要目的是准确地为用户展示和传达出数据所包含(隐藏)的信息,需要平衡信息与美感。
有如下原则指导设计:
•数据筛选原则
•数据到可视化的直观映射原则
•视图选择与交互设汁原则
•美学原则
•适当运用隐喻原则
•颜色与透明度选择原则
本章节的教学重点、难点
本讲重点是理解可视化的原则,难点是可视化数据组织工具教学方法、教学手段:
使用教具:
计算机和投影仪
作业、讨论题、思考题:
P33
讲授章节
第3讲时间数据可视化
授课时数
2
教学目的:
1.了解时间数据可视化的应用
2.了解连续型时间数据的特点及可视化的方法
3.了解离散型时间数据的特点及可视化的方法
教学内容(讲授提纲)
一时间数据可视化的应用
时间是一个非常重要的维度和属性。
历史数据的积累是大数据“大”的一个重要原因。
时间序列数据存在于各个领域,比如金融和商业交易记录,社会经济指标记录,气象观测数据,动植物种群数据等。
金融和商业记录包括股票交易价格以及交易量,各种商品的销售价格和销售量:
社会经济指标包括GDP(国民生产总值)、CPI(消费者物价指数)等指数。
这些带时间维度的数据中蕴含着大量的信息,是指导国家制泄政策、企业调整战略的重要依据。
表单属性:
二连续型时间数据
1.特点
连续型时间数据在任意两个时间点之间可以细分出无限多个数值,它是连续不断变化现
象的记录。
2.可视化方法
•阶梯图
•散点图
•拟合曲线
三离散型时间数据
1.特点
离散型时间数据又称不连续性时间数据,这类数据在任何两个时间点之间的个数是有限
的。
2.可视化方法
•散点图
•柱形图
•堆叠柱形图
本章节的教学重点、难点:
本讲重点是掌握时间数据的类型、可视化方法。
教学方法、教学手段:
使用教具:
汁算机和投影仪
作业、讨论题、思考题:
P41
讲授章节
第4讲比例数据可视化
授课时数
2
教学目的:
1.了解比例数据在大数据中的应用
2.掌握比例数据可视化的方法
3.了解时空比例数据可视化
教学内容(讲授提纲)
一比例数据在大数据中的应用
对于比例数据,进行可视化的目的,是为了寻找整体中的最大值、最小值、整体的分布构成以及各部分之间的相对关系。
二比例数据可视化方法
•饼图
•环形饼图
•比例中的堆叠
•矩形树图
三时空比例数据
现在的数据往往都带有时间维度的信息,时间属性的比例数据也是经常岀现的。
例如,每年都会对各项消费占居民总消费的比例进行统汁,每一的调查结果都会积累下来。
各种消费占比随着时间的变化情况是国家很关心的信息,这可以反映国民的生活是越来越好了还是越来越差了。
本章节的教学重点、难点:
本讲重点是比例数据中蕴藏的部分与整体的关系,学会比例数据的可视化方法,理解时空比例数据的表示方法。
教学方法、教学手段:
使用教具:
讣算机和投影仪
作业、讨论题、思考题:
P46
讲授章节
第5讲关系数据可视化
授课时数
2
教学III的:
1.了解关系数据的概念
2.掌握具有关联的数据的可视化方法
3.掌握数据分布性的可视化方法
教学内容(讲授提纲)
一了解关系数据的概念
大数据的一个重要价值是可以帮助我们找到变疑之间的联系,发掘事物背后的因果。
在进行大数据挖掘前的重要一步就是探索变量的相关关系,进而才能探索背后可能隐藏着的因果关系。
二数据的关联性
事物之间的关联性是比较容易被发现的,但是关联并不代表存在因果关系。
数据的关联性,苴核心就是指屋化的两个数据间的数理关系。
关联性强,是指当一个数值变化时,另一个数值也会随之相应地发生变化。
相反地,关联性弱,就是指当一个数值变化时另一个数值几乎没有发生变化。
关联性可以由以下图像看出。
•散点图
•散点图矩阵
•气泡图
三数据的分布性
分布性可以由以下图像看出。
•茎叶图
•直方图
•密度图
本章节的教学重点、难点:
重点掌握关系数据的概念以及关联性、分布性的可视化方法
教学方法、教学手段:
使用教具:
汁算机和投影仪
作业、讨论题、思考题:
P54
讲授章节
第6讲文本数据可视化
授课时数
4
教学目的:
1.了解文本数据可视化的用途、对文本信息需求的层级、文本数据的分类
2.了解文本数据的获取方法
3.掌握文本内容可视化方法
4.了解文本关系可视化方法
教学内容(讲授提纲)
一文本数据可视化应用、层级、分类
从人文研究到政府决策,从精准医疗到量化金融,从客户管理到市场营销,这些海量的文本作为最重要的信息载体之一,处处发挥着举足轻重的作用。
一般把对文本的理解需求分为三级:
词汇级(LexicalLevel)、语法级(SyntacticLevel)和语义级(SemanticLevel)«有不同的信息挖掘方法来支持对应层级信息的挖掘。
一般来说,词汇级使用各类分词算法,语法级使用一些句法分析算法,语义级则使用主题提取算法。
文本数据大致可分为三种:
单文本、文档集合和时序文本数据。
对应的文本可视化也可分为:
文本内容的可视化、文本关系的可视化、文本多层而信息的可视化。
文本内容可视化是对文本内的关键信息分析后的展示:
文本关系的可视化既可以对单个文本进行内部的关系展示,也可以对多个文本进行文本之间的关系展示;文本多特征信息的可视化,是结合文本的多个特征进行全方位的可视化展示。
二文本数据的获取
网络爬虫(WebCrawler)是指一类能够自动化访问网络并抓取某些信息的程序,有时候也被
称为“网络机器人”。
它们最早被应用于互联网搜索引擎及各种门户网站的开发中,现在也是大数据和数据分析领域中的重要角色。
爬虫可以按一眾逻借大批疑采集目标页而内容,并对数据做进一步的处理,人们借此能够更好更快的获得并使用他们感兴趣的信息,从而方便地完成很多有价值的工作
大部分编程语言都可以实现爬虫程序的编写,也有部分商业软件提供爬虫服务。
目前比较流行的就是用Python编写爬虫,有大量的第三方库可以使用,常见的有Request.urlib、Scrapy等。
苴中Scrapy库提供了比较完善的爬虫框架。
三文本内容可视化
一段文本的内容可以用高频词、短语、句子、主题等代表,但是文本可视化遇到的任务通常是对有海量文本的集合进行可视化分析,针对不同类型的文本集合,我们有不同的方法来进行可视化分析。
一个词语若在一个文本中出现频率较高,那么这个词语可能就是这个文本的关键词。
在实际应用当中还要考虑到这些词是否在其他文本中也经常出现,通常使用TF-IDF(TermFrequency-InverseDocumentFrequency)方法来计算词语对表达文本信息的重要程度。
标签云是一种常见的关键词可视化方法。
文档散使用词汇库中的结构关系来布局关键词,同时使用词语关系网中具有上下语义关系的词语来布局关键词,从而揭示文本内容。
时序文本具有时间性和顺序性,通常采用主题河流、文本流和故事流进行可视化。
文本分布可视化实际上是引入了词语在文本当中的位巻、句子长度等信息,这些信息常被制作成文本弧。
四文本关系可视化
文本关系包括文本内或者文本间的关系,以及文本集合之间的关系,文本关系可视化的目的就是呈现这些关系。
文本内的关系有词语的前后关系:
文本间的关系有网页之间的超链接关系,文本之间内容的相似性,文本之间的引用等;文本集合之间的关系是指文本集合内容的层次性等关系。
文本内关系可用词语树、短网络进行可视化
当对多个文档进行可视化展示时,可以引人向捲空间模型来汁算岀各个文档之间的相似性,单个文档被左义成单个特征向量,最终以投影等方式来呈现并文档之间的关系。
比如星系视图和
文档集抽样投影。
本章节的教学重点、难点:
本讲的重点及难点是掌握文本数据可视化的多种类型及对应方法教学方法、教学手段:
使用教具:
计算机和投影仪
作业、讨论题、思考题:
P66
讲授章节
第7讲复杂数据可视化
授课时数
2
教学目的:
1.理解复杂数据可视化的难点
2.了解高维多元数据的可视化方法;
3.了解非结构化数据的可视化方法
教学内容(讲授提纲)
一复杂数据可视化难点
对髙维多元数据进行分析的困难如下:
1.数据复杂度大大增加。
复杂数据包括非结构化数据和从多个数搦源采集、整合而成的异构数拯,传统单一的可视化方法无法支持对此类复杂数据的分析;
2.数据的量级大大增加。
复杂数据的量级已经超过了单机、外存模型甚至小型计算集群处理能力的上限,需要采用全新思路来解决大尺度的调整;
3.数据质量问题
在数据获取和处理过程中,不可避免地会产生数拯质量的问题,英中特别需要关注的是数据
的不确泄性;
4.数拯快速动态変化。
数据常以流式数据形成存在,对流式数据的实时分析与可视化技术还存在一泄问题:
二高维多元数据可视化方法
高维多元数据指每个数据对象有两个或两个以上独立或者相关属性的数据。
髙维
(Multidimensional)指数据具有多个独立属性,多元(Multivariate)指数据具有多个相关属性。
•空间映射法
包含散点图、表格透镜、平行坐标、降维等多种方法
•图标法
以雷达图为典型代表
三非结构化数据可视化
1.基于并行的大尺度数据髙分辨率可视化
复杂数据并不只有髙维度数据。
还包括异构数据等。
异构数据是指在同一个数据集中存在的如结构或者属性不同的数据。
存在多个不同种类节点和连接的网络被称为异构网络。
异构数拯通常可采用网络结构进行表达。
2.分而治之的大尺度数据分析与可视化
可视化领域以及计算机图形学有一种标准方法叫作分治(DivideandConquer)法,如二叉树、四叉树等空间管理结构等。
统计分析层的分而重组包括条件变量分割法、重复分割法
数摒挖掘层的分而治之使用分而后合的方法对数据进行分类。
大体分为三个步骤:
首先,输入数据或者文本信息,将输入数据等份成n份或者按规则划分;然后,对每份数据使用最适合的分类器进行分类,并将分类结果融合:
最后,通过一个强分类器汁算获取最终结果。
目前比较流行的Hadoop和Mapreduce等处理框架通常被用来处理非空间型数据,Mapreduce框架应用于科学计算的空间型数拯,这就意味着使用统一的分而治之的框架可以处理科学计算的空间型数据和非结构化数据。
本章节的教学重点、难点:
重点掌握髙维多元数据的概念和可视化的方法
难点是非结构化数据的可视化
教学方法、教学手段:
使用教具:
汁算机和投影仪
作业、讨论题、思考题:
P78
实验
讲授章节
Tableau数据可视化方法
授课时数
4
教学目的:
1.了解Tableau软件的基本特点
2.学会安装Tableau软件
3.掌握使用Tableau绘制基础图表的方法
4.学会使用Tableau创建仪表盘
5.了解TableauServer的安装与特点
6.了解TableauReader的安装与特点
教学内容(讲授提纲)
一Tableau的下载;
二Tableau的特点
•支持数据类型的任意性
•简单易用性
•智能仪表板与瞬时共享
三使用TableauDesktop绘制图表
四下载并探索TableauServer、TableauReader的功能特点
本章节的教学重点、难点:
重点在于使用Tableau软件进行简单的可视化
难点在于理解Tableau软件的功能特点
教学方法、教学手段:
学生实验
作业、讨论题、思考题:
讲授章节
DataV数据可视化方法
授课时数
4
教学目的:
1.掌握DataV的功能特点
2.掌握DataV可视化应用管理以及数据源管理
3.了解DataV的组件管理
4.掌握使用DataV提供的模板进行可视化的方法
教学内容(讲授提纲)
1DataV功能特点
•多种场景模板
•丰富的图标库与地理绘制支持
•支持多种数据源
•容易实现的图形化搭建工具
•灵活的发布方式
2在DataV中创建可视化应用
三在DataV中添加数据源
四尝试使用DataV组件包的功能
五使用DataV的模板创建可视化结果
本章节的教学重点、难点:
重点在于DataV可视化模板的使用
难点在于DataV数据源的管理以及DataV的功能特点
教学方法、教学手段:
学生实验
作业、讨论题、思考题:
讲授章节
ECharts数据可视化方法
授课时数
4
教学目的:
1.掌握Echarts的功能特点
2.熟悉Echarts的基础概念
3.掌握Echarts绘制简单可视化图表的方法
4.了解Echarts主题和扩展管理工具
教学内容(讲授提纲)
1ECharts的功能特点
•丰富的可视化类型
•多种数据格式无需转换直接使用
•千万数据的前端展现
•移动端优化
•支持多渲染方案与跨平台使用
•深度的交互式数据探索
•多维数据的支持以及丰富的视觉编码手段
•动态数据
•绚丽特效以及强大的三维可视化
2配置ECharts运行环境
从官网或者GitHub获取源码
三随机生成数据并使用Echarts进行可视化
根据人口增长模型随机生成一段时间的人口数据并进行可视化。
本章节的教学重点、难点:
重点是理解Echarts的功能特点
难点是掌握Echarst绘图语法
教学方法、教学手段:
学生实验
作业、讨论题、思考题:
讲授章节
FineBI数据可视化方法
授课时数
1
教学目的:
1.掌握FineBI的产品定位以及安装
2.使用FineBI设计自己的仪表盘。
教学内容(讲授提纲)
一FineBI的产品定位
FuieBI的产品怎位就是提供一种自助数据分析模式,帮助企业的业务人员和数据分析师,开展以问题导向的探索式分析,适当减少IT人员在其中的参与,从而减少跨部门沟通产生的时间等成本。
二安装FineBI并制作出仪表盘
本章节的教学重点、难点:
重点在于使用FineBI进行仪表盘的设计和制作
教学方法、教学手段:
学生实验
作业、讨论题、思考题:
讲授章节
R语言可视化方法
授课时数
1
教学目的:
1.掌握R语言功能特点
2.掌握R语言绘图基础语法
教学内容(讲授提纲)
一R语言功能特点
R是一套完整的数据处理、计算和制图软件系统。
其功能主要包括:
1R语言有强大的数据存储和处理系统,除了在R语言使用各种数学或统讣工具进行数据的处理,R语言本身也提供了强大的数据存储处理系统,在R语言中可以完成数据的初步存储与处理。
2.数组运算工具,R语言的向量、矩阵运算功能尤其强大。
3一完整连贯的统计分析工具,通过R语言可以使用绝大多数的经典或者最新的统计方法。
4•优秀的统讣制图功能,输出的图形可以直接保存为常用的JPG等图片格式,也可以直接保存为PDF格式,之所以特别强调,是因为如果存成PDF格式可以保存为矢量图。
5•基于R语言的可编程性,R也是一个简便而强大的编程语言,可操纵数据的输入和输岀,可实现分支、循环,用户可自定义功能。
二R语言绘图基础语法
文件预处理、数据淸洗、图像绘制相关语法
本章节的教学重点、难点:
重点在于R语言绘图语法的掌握
教学方法、教学手段:
学生实验
作业、讨论题、思考题:
讲授章节
Python可视化方法
授课时数
1
教学目的:
1.掌握Python语言功能特点
2.掌握Python绘图基础语法
教学内容(讲授提纲)
一Python功能特点
在数据分析领域,Python语言简单易用,第三方库强大,并提供了完整的数据分析框架,因此深受数据分析人员的青睐,Python已经当仁不让地成为数据分析人员的一把利器。
二使用Python绘制基础图像
NumPy、Pandas、Matplotlib的使用
本章节的教学重点、难点:
重点在于Python绘图语法的掌握
教学方法、教学手段:
学生实验
作业、讨论题、思考题:
讲授章节
Excel数据可视化方法
授课时数
1
教学目的:
1.掌握Excel功能特点
2.掌握Excel绘图基础
教学内容(讲授提纲)
一Excel功能特点
MicrosoftExcel是1985年Microsoft为使用Windows和AppleMacintosh操作系统的电脑编写的一款电子表格软件。
直观的界而、强大的数据整理和汁算能力、数据库管理能力、图形图表制作能力和网络化的数据共享能力,再加上成功的市场营销,使Excel成为最流行的个人计算机数据处理软件。
在1993年,作为MicrosoftOffice的组件发布了5.0版之后,Excel就开始成为所适用操作平台上的电子制表软件的霸主。
二使用Excel绘制基础图像
散点图、柱状图、雷达图、堆叠柱状图绘制:
数据面板制作。
本章节的教学重点、难点:
重点在于使用Excel绘制基础图像
教学方法、教学手段:
学生实验
作业、讨论题、思考题: