大数据分析教案.docx
《大数据分析教案.docx》由会员分享,可在线阅读,更多相关《大数据分析教案.docx(39页珍藏版)》请在冰豆网上搜索。
大数据分析教案
《大数据分析》课程教案(首页)
学院:
计算机系/学院
课程/项目名称
大数据分析
课程
总学时:
72学时
理论:
36学时
实验:
36学时
学分
4
课程
课程类别:
专业必修■专业必修□公共必修□公共选修
授课教师
授课专业
大数据技术与应用
授课班级
教学
目的和要求
通过本课程的学习,让学生接触并了解大数据分析的工作原理和使用方法,使学生具有Python大数据分析、设计和可视化开发的能力,具备Kettle大数据清洗和存储的基本技能,并具有较强的分析问题和解决问题的能力,为将来从事大数据相关领域的工作打下坚实的基础。
教学
重点、难点
教学重点:
了解大数据的基本原理;
熟悉Python语言,能够自行安装和使用Python扩展库;
掌握Python连接MySQL、能熟练利用游标操纵数据库;
掌握可视化的基本图表,能够设计可视化图表;
掌握数据存储的基本概念;
掌握数据清洗的基本概念;
掌握数据标准化的基本概念;
掌握数据编码的基本概念;
掌握数据清洗的基本概念
能够使用Pandas进行数据分析与清洗。
教学难点:
如何对Python爬虫技术进行较好的应用;
能熟练利用Kettle进行数据采集、抽取与转换;
掌握可视化的处理步骤;
熟练掌握Pandas数据分析的方法;
认识并掌握其它大数据开源工具。
教学
资源
多媒体课件
习题答案
其他教学资源:
《大数据分析》黄源等主编,清华大学出版社
教学
环境
多媒体教学,课堂教学与学生上机实践相结合
《大数据分析》课程教案
第1次课2学时
授课内容
认识大数据
教学目的
与要求
介绍大数据的定义与特征。
通过本课的学习,学生应该掌握如下知识:
1)大数据的定义
2)大数据的基本原理
3)大数据的特征
4)大数据的历程
重点
难点
1)大数据的特征
教学进程
安排
教学导入:
介绍介绍大数据发展与特征,举例说明大数据的重要作用,逐步引入到课程的介绍内容中来。
授课内容:
一、《大数据分析》课程介绍
介绍本门课程的学科地位、考核方式、学习内容安排、可以参考的学习资料。
二、讲授大数据的定义、原理与发展
1)讲授大数据的定义
2)讲授大数据的原理
3)讲授大数据的发展历程
4讲授大数据的特征
课后学习
任务布置
尝试在自己的电脑中,自己动手查找大数据的资料
主要
参考资料
《大数据分析》黄源等主编,清华大学出版社
《大数据分析》课程教案
第2次课2学时
授课内容
大数据的意义
教学目的
与要求
介绍大数据的定义与特征。
通过本课的学习,学生应该掌握如下知识:
1)大数据的战略
2)大数据战略的国家层面
3)大数据战略的企业层面
重点
难点
1)大数据的战略意义
教学进程
安排
授课内容:
一、讲授大数据的战略意义
1)讲授国家层面的意义
2)讲授企业层面的意义
3)讲授个人层面的意义
二、讲授大数据的产业链
课后学习
任务布置
尝试了解大数据的产业链。
主要
参考资料
《大数据分析》黄源等主编,清华大学出版社
《大数据分析》课程教案
第3次课2学时
授课内容
上机实验
(一)
教学目的
与要求
旨在介绍大数据的安装环境,学生能够实际上机动手安装。
通过本课的学习,学生应该掌握如下知识:
1)了解大数据的安装
2)掌握数据的分类
重点
难点
1)掌握在Windows中通过安装虚拟机安装Linux系统的方法。
2)能够识别不同的数据类型。
教学进程
安排
实验内容
1)确定数据的不同类型。
小明所在公司要对存储的各种类型的数据进行分类,请你帮助小明对下列数据集分类,指出其中的结构化数据,非机构化数据和半结构化数据。
2)编写XML与JSON程序并了解程序的不同。
3)为了更好的应用大数据技术,小明公司要安装Linux操作系统,请你帮助小明按照以下步骤帮他安装Linux系统。
课后学习
任务布置
课后自行在机器中安装虚拟机及装Linux系统。
主要
参考资料
《大数据分析》黄源等主编,清华大学出版社
《大数据分析》课程教案
第4次课2学时
授课内容
爬虫基础
(一)
教学目的
与要求
介绍爬虫基本概念、爬虫的地位与作用:
1)掌握爬虫的基本概念。
2)掌握爬虫的作用。
3)了解爬虫的运行机制。
4)掌握Python的安装与开发环境
重点
难点
1)爬虫的原理
2)Python的安装与开发环境
教学进程
安排
授课内容:
一、认识爬虫
二、爬虫的地位与作用
三、Python3介绍
四、Python3的安装与使用
五、Python3的开发环境
课后学习
任务布置
在机器上安装Python3,熟悉开发环境
主要
参考资料
《大数据分析》黄源等主编,清华大学出版社
《大数据分析》课程教案
第5次课2学时
授课内容
爬虫基础
(二)
教学目的
与要求
旨在介绍Python3的书写与运行。
通过本课的学习,学生应该掌握如下知识:
1)书写Python3程序
2)掌握Python3的书写风格
重点
难点
1)熟练书写并运行Python3程序
教学进程
安排
知识回顾:
如何安装Python3?
以Python3为例,采用边讲授边练习的方法,开展以下内容的授课。
授课内容:
一、如何书写并运行Python3程序
二、Python3程序的风格
Python的语句很特别,它没有像其他很多语言那样把要执行的语句用成对的{}花括号包起来,而是把语句向右边缩进了,这就是Python的风格,它是靠缩进语句来表示要执行的语句的。
三、Python3程序的注释
四、Python3程序的调试
课后学习
任务布置
书写并运行Python3
主要
参考资料
《大数据分析》黄源等主编,清华大学出版社
《大数据分析》课程教案
第6次课2学时
授课内容
爬虫基础(三)
教学目的
与要求
旨在介绍Python3的各种数据类型及转换方式。
要求学生应该熟练掌握如下知识的运用:
1)掌握Python3中的各种数据类型
2)掌握Python3中的各种数据类型的转换
重点
难点
1)各种数据类型的掌握
2)各种数据类型的相互转换
教学进程
安排
知识回顾:
回顾上节课讲授的Python3中的程序书写。
授课内容:
一、介绍一些Python常用的数据类型,包含整型、浮点型、布尔类型、字符串类型、列表类型、元组类型等各种不同的数据类型,同时介绍与数据类型相关的知识。
二、介绍几个跟数据类型紧密相关的函数:
int()、float()和str()。
int()的作用是将一个字符串或浮点数转换为一个整数。
float()的作用是将一个字符串或整数转换成一个浮点数,也即是转换为小数。
str()的作用是将一个数或任何其他类型转换成一个字符串。
课后学习
任务布置
书写实例将Python3中的各种数据类型进行转换,使用int()、float()和str()
主要
参考资料
《大数据分析》黄源等主编,清华大学出版社
《大数据分析》课程教案
第7次课2学时
授课内容
爬虫基础(四)
教学目的
与要求
爬虫主要是与网页打交道的,因此了解一些Python、Web前端与爬虫的相关知识是非常有必要的。
通过本课的学习,学生应该掌握如下知识:
1)掌握网页结构
2)掌握爬虫的实现方法
3)掌握Python3中爬虫模块
重点
难点
1)urllib模块的应用
2)Requests的应用
教学进程
安排
知识回顾:
如何Python3程序?
以Python3为例,采用边讲授边练习的方法,开展以下内容的授课。
授课内容:
一、了解网页结构
无论我们通过浏览器打开网站、访问网页,还是通过脚本对URL网址进行访问,本质上都是对HTTP服务器的请求,浏览器上所呈现的、控制台所显示的都是HTTP服务器对我们请求的响应。
二、掌握爬虫实现
三、掌握Python3中爬虫模块
urllib是URL和lib两个单词共同构成的,URL就是网页的地址,lib是library(库)的缩写。
Requests是用Python语言编写,基于urllib,采用Apache2Licensed开源协议的HTTP库。
它比urllib更加方便,可以节约开发者大量的工作,完全满足HTTP测试需求。
课后学习
任务布置
安装Requests库,并使用Requests库爬取网页内容
主要
参考资料
《大数据分析》黄源等主编,清华大学出版社
《大数据分析》课程教案
第8次课2学时
授课内容
爬虫基础(五)
教学目的
与要求
旨在介绍Python3的爬虫爬取网页内容。
要求学生应该熟练掌握如下知识的运用:
1)掌握爬虫的运行原理
2)掌握网页结构
3)掌握代码的书写与调试
重点
难点
1)网页结构
2)代码的实现
教学进程
安排
知识回顾:
回顾上节课讲授的爬虫库的内容。
授课内容:
一、根据学生-课程数据库中的数据,完成下列查询:
实现对酷狗音乐网页内容的爬取
1)分析网页结构
2)分析要抓取的内容
3)抓取过程分析
4)获取页面内容
代码见书
课后学习
任务布置
复习和巩固爬虫爬取网页内容的各种方法
主要
参考资料
《大数据分析》黄源等主编,清华大学出版社
《大数据分析》课程教案
第9次课2学时
授课内容
上机实验
(二)
教学目的
与要求
旨在通过本实验考查学生对网络爬虫的掌握情况。
要求学生应该熟练掌握如下知识的运用:
1)使用Requests库来编写爬虫。
2)使用爬虫程序爬取网页壁纸
重点
难点
1)PL/SQL的有效字符集的类型
2)PL/SQL程序块的组成
教学进程
安排
实验:
(1)使用Requests库来编写爬虫爬取XX网页的数据,代码如下:
>>>importrequests
>>>r=requests.get("")
>>>r.status_code
200
>>>r.encoding='utf-8'
>>>r.text
二、分析爬虫目标,本实训目标网址是
爬取出的图片将保存在该Python程序所存储保存的文件包中。
课后学习
任务布置
爬取网站上的页面内容并保存。
主要
参考资料
《大数据分析》黄源等主编,清华大学出版社
《大数据分析》课程教案
第10次课2学时
授课内容
Scrapy爬虫
(一)
教学目的
与要求
旨在简要主要介绍Scrapy爬虫的原理与工作过程,要求学生应该掌握如下知识:
1)了解Scrapy爬虫
2)掌握Scrapy爬虫的安装
3)掌握Scrapy爬虫的架构
4)掌握Scrapy爬虫的工作过程
重点
难点
1)Scrapy爬虫的安装
2)Scrapy爬虫的架构
教学进程
安排
知识回顾:
回顾上节课讲授的Python3中的爬虫应用。
本节课进行以下内容的授课。
授课内容:
一、讲授Scrapy爬虫
Scrapy是一个使用Python语言编写的开源网络爬虫框架,是一个高级的Python爬虫框架。
二、讲授在Windows7中安装Scrapy框架
在安装Scrapy框架之前,必须依次安装twiste包、whl包、lxml包、zope.interface包、pywin32包和pyOpenSSL包。
并在上述包全部安装完成后,运行命令:
pipinstallscrapy来安装Scrapy框架。
三、讲授Scrapy框架原理
Scrapy框架由ScrapyEngine、Scheduler、Downloader、Spiders、ItemPipeline、Downloadermiddlewares以及Spidermiddlewares等几部分组成
四、讲授Scrapy框架的工作流程
课后学习
任务布置
在本机上安装Scrapy框架。
主要
参考资料
《大数据分析》黄源等主编,清华大学出版社
《大数据分析》课程教案
第11次课2学时
授课内容
Scrapy爬虫
(二)
教学目的
与要求
旨在简要介绍Scrapy爬虫的对象与Spider开发流程,要求学生应该掌握如下知识:
1)掌握Request对象
2)掌握Response对象
3)掌握Select对象
3)掌握Spider开发流程
重点
难点
1)Scrapy爬虫的对象的应用
2)Spider的开发流程
教学进程
安排
知识回顾:
回顾上节课讲授的Scrapy爬虫的基础
本节课进行以下内容的授课。
授课内容:
一、讲授Request对象和Response对象
Scrapy中的Request对象和Response对象通常用于爬取网站,通常,Request对象在爬虫程序中生成并传递到系统,直到它们到达下载程序,后者执行请求并返回一个Response对象,该对象返回到发出请求的爬虫程序。
二、讲授Select对象
Scrapy的数组组织结构是Selector,它使用xpath选择器在Response中提取数据。
在使用Selector对象的时候要先使用xpath或者css选择器选中页面中要提取的数据,然后进行提取。
3)三、讲授Spider开发流程
对于大多数用户来讲,Spider是Scrapy框架中最核心的组件,Scrapy爬虫开发时通常是紧紧围绕Spider而展开的。
课后学习
任务布置
打开并查看Scrapy爬虫源代码,了解Spider的开发流程。
主要
参考资料
《大数据分析》黄源等主编,清华大学出版社
《大数据分析》课程教案
第12次课2学时
授课内容
上机实验(三)
教学目的
与要求
旨在通过本实验考查学生对Scrapy爬虫框架的掌握情况。
要求学生应该熟练掌握如下知识的运用:
1)掌握Scrapy爬虫的基本框架与工作过程。
2)掌握Scrapy爬虫的运用与代码的书写。
重点
难点
1)Scrapy爬虫的运用与代码的书写
教学进程
安排
知识回顾:
回顾上节课讲授的Scrapy爬虫的基本基本知识。
本节课引导学生进行以下内容的实验练习。
实验内容:
一、创建Scrapy项目并查看结构
二、创建一个最简单的Spider爬虫
三、编写代码并运行爬虫
四、使用Scrapy框架编写爬虫访问网页
代码见书
课后学习
任务布置
应用Scrapy爬虫爬取网页,通过修改代码来运行
主要
参考资料
《大数据分析》黄源等主编,清华大学出版社
《大数据分析》课程教案
第13次课2学时
授课内容
数据库分析
(一)
教学目的
与要求
主要介绍数据库设计原理与基本方法、MySql的基本使用方式。
要求学生应该掌握如下知识:
1掌握数据库模型
2)掌握MySql的安装
3)掌握MySql的基本操作
重点
难点
1)MySql的基本操作
教学进程
安排
本节课进行以下内容的授课。
授课内容:
一、讲授数据库基本概念
二、讲授数据库结构模型
数据库系统在总体结构上一般都体现为三级模式,分别是:
模式、外模式和内模式。
三、讲授MySql的安装与使用
MySql数据库的基本操作主要分为操作MySql数据库和操作MySql数据表
(1)创建数据库:
createdatabase数据库名
(2)查看数据库:
showdatabases
(3)选择指定数据库:
use数据库名
(4)删除数据库:
dropdatabase数据库名
MySql数据表的基本操作主要有以下几种:
(1)创建数据表:
createtable数据表名
(2)查看数据表:
showtables
(3)查看数据表结构:
describe数据表名
(4)往数据表中添加记录:
insertinto数据表名values
(5)修改数据表中记录:
update数据表名
课后学习
任务布置
创建数据库、创建数据表并往表中插入记录。
主要
参考资料
《大数据分析》黄源等主编,清华大学出版社
《大数据分析》课程教案
第14次课2学时
授课内容
数据库分析
(二)
教学目的
与要求
旨在简要介绍Python中想要连接与操作MySql数据库,要求学生应该掌握如下知识:
1)Python中连接MySql数据库的基本原理。
2)Python中连接与操作MySql数据库的基本方法。
重点
难点
1)Python中操作MySql数据库的基本方法
教学进程
安排
知识回顾:
回顾之前讲授的MySql数据库的基本操作方式。
本节课引导学生进行以下内容的实验练习。
授课内容:
:
一.如何使用Python连接MySql数据库
在Python中想要连接MySql数据库需要一个驱动,用于和数据库的交互。
在Python3中可以使用pymysql库来实现这一功能。
pymysql库是一个纯Python库,可以直接安装使用
二.Python操作MySql数据库:
1)创建MySql数据库和创建数据表并使用Python查询表中记录
想要使用Python连接MySql,可在命令importpymysql后输入以下命令:
db=pymysql.connect(host="",user="",passwd="",db="",charset="")
在该命令中db代表数据库,pymysql.connect表示使用pymysql库来连接MySql数据库
(1)建立连接
(2)获取游标
(3)查询记录
(4)返回结果
(5)打印数据
课后学习
任务布置
使用Python往user数据表中插入新的记录
主要
参考资料
《大数据分析》黄源等主编,清华大学出版社
《大数据分析》课程教案
第15次课2学时
授课内容
上机实验(四)
教学目的
与要求
旨在通过本实验考查学生对Python中连接操作MySql数据库的掌握情况。
要求学生应该熟练掌握如下知识的运用:
1)Python连接MySql数据库。
2)Python操作MySql数据库。
3)查询语句的书写与应用。
重点
难点
1)Python连接MySql数据库,建立数据表并查询结果
教学进程
安排
知识回顾:
回顾上节课讲授Python中想要连接与操作MySql数据库的基本知识。
本节课引导学生进行以下内容的实验练习。
实验内容:
一、新建school数据库
二、新建student数据表
三、查看student数据表信息
四、使用Scrapy框架编写爬虫访问网页
五、查看student数据表结构
六、往student数据表中添加多条数据
七、将表中score的每个数据值加10
八、输出并显示修改后的数据表数据值
代码见书
课后学习
任务布置
新建数据库,并建立数据表,使用Python进行数据库管理。
主要
参考资料
《大数据分析》黄源等主编,清华大学出版社
《大数据分析》课程教案
第16次课2学时
授课内容
数据可视化
(一)
教学目的
与要求
旨在简要介绍数据可视化的基本概念与方法的使用方法,要求学生应该掌握如下知识:
1)掌握数据可视化的概念
2)了解数据可视化的发展
3)了解数据可视的方法与应用
4)了解数据可视化的图表
重点
难点
1)数据可视化的方法
2)数据可视化的应用
教学进程
安排
授课内容:
一、讲授数据可视化的概念
1)数据可视化系统并不是为了展示用户的已知的数据之间的规律,而是为了帮助用户通过认知数据,有新的发现,发现这些数据所反映的实质。
课堂练习题:
二、讲授数据可视化的发展
三、讲授数据可视化的方法与应用
1)数据可视化技术包含的概念
2)数据可视化的组成
3)数据可视化的标准
4)数据可视化的应用
四、数据可视化的各种图表介绍
课后学习
任务布置
了解数据可视化的作品,了解数据可视化的发展历程
主要
参考资料
《大数据分析》黄源等主编,清华大学出版社
《大数据分析》课程教案
第17次课2学时
授课内容
数据可视化
(二)
教学目的
与要求
旨在简要介绍数据可视化的实现,要求学生应该掌握如下知识:
1)认识numpy基础
2)认识matplotlib库
3)掌握matplotlib库的实现
重点
难点
1)numpy中的数学基础
2)matplotlib库的实现
教学进程
安排
知识回顾:
回顾之前讲授的数据可视化的基本概念。
本节课引导学生进行以下内容的实验练习。
授课内容:
一、讲授数据可视化的numpy库
1、numpy是Python做数据处理的底层库,是高性能科学计算和数据分析的基础,比如著名的Python机器学习库SKlearn就需要numPy的支持。
掌握numPy的基础数据处理能力是利用Python做数据运算及机器学习的基础。
2、在Windows中进入cmd命令后,直接运行pipinstallnumpy即可完成,安装完成后输入importnumpy,如果没报错则表示成功。
二、讲授数据可视化的matplotlib库
1、matplotlib是一个 Python 的2D绘图库,它以各种硬拷贝格式和跨平台的交互式环境生成出版质量级别的图形
2、matplotlib库装与运行。
在Windows中进入cmd后,直接输入命令python-mpipinstall--usermatplotlib-2.1.0-cp36-cp36m-win32.whl来执行matplotlib程序的安装。
课后学习
任务布置
安装numPy库和matplotlib库
主要
参考资料
《大数据分析》黄源等主编,清华大学出版社
《大数据分析》课程教案
第18次课2学时
授课内容
上机实验(五)
教学目的
与要求
旨在通过上机实验练习 matplotlib中的可视化应用,通过本课的学习,学生应该掌握如下知识:
1)掌握matplotlib库的导入
2)掌握matplotlib库的可视化方法
3)掌握matplotlib库的可视化实现
重点
难点
1)matplotlib库的可视化方法
教学进程
安排
知识回顾:
回顾上一节课的主要内容,包括matplotlib基础
实验内容:
一、使用matpotlib.pyplot绘图
二掌握matpotlib.pyplot绘图函数
三、用numpy库和matplotlib库绘制图形