《数据清洗》电子教案.docx

上传人:b****2 文档编号:2205957 上传时间:2022-10-27 格式:DOCX 页数:30 大小:20.88KB
下载 相关 举报
《数据清洗》电子教案.docx_第1页
第1页 / 共30页
《数据清洗》电子教案.docx_第2页
第2页 / 共30页
《数据清洗》电子教案.docx_第3页
第3页 / 共30页
《数据清洗》电子教案.docx_第4页
第4页 / 共30页
《数据清洗》电子教案.docx_第5页
第5页 / 共30页
点击查看更多>>
下载资源
资源描述

《数据清洗》电子教案.docx

《《数据清洗》电子教案.docx》由会员分享,可在线阅读,更多相关《《数据清洗》电子教案.docx(30页珍藏版)》请在冰豆网上搜索。

《数据清洗》电子教案.docx

《数据清洗》电子教案

《数据清洗》课程教案

学院:

计算机系/学院

课程/项目名称

数据清洗

课程

总学时:

72学时

理论:

36学时

实验:

36学时

学分

3

课程

课程类别:

专业必修■专业必修□公共必修□公共选修

授课教师

***

授课专业

大数据技术与应用

授课班级

教学

目的和要求

本课程的主要目的是培养学生的数据清洗的理论分析与应用实践的综合能力。

通过本课程的教学,使学生掌握数据清洗的一般方法和实现技术,能使用编程或者开源软件解决数据清洗相关的问题。

教学

重点、难点

教学重点:

认识数据清洗

文件格式

Web数据抽取

网络爬虫

Kettle数据清洗

数据迁移

文本数据处理

Python数据清洗

DataCleaner数据清洗与分析

教学难点:

掌握数据清洗基本过程、处理步骤和方法;

掌握Web数据抽取与网络爬虫;

熟练Kettle数据清洗方法;

掌握数据Python数据清洗。

教学

资源

多媒体课件

习题答案

微课视频

试题库

其他教学资源:

《数据清洗》黄源主编,清华大学出版社

教学

环境

多媒体教学,课堂教学与学生上机实践相结合

案例实现

《数据清洗》课程教案

第1次课2学时

授课内容

数据清洗概论1

教学目的

与要求

通过本课的学习,学生应该掌握如下知识:

1)数据清洗的概念

2)数据清洗的对象

3)数据清洗的原理

4)数据清洗的方法

重点

难点

1)数据清洗的方法

教学进程

安排

教学导入:

介绍数据清洗与的重要性,举例说明数据清洗典型案例,逐步引入到课程的介绍内容中来。

引入课程思政,说明在使用数据时应当在法律范围内。

授课内容:

一、《数据清洗与》课程介绍

介绍本门课程的学科地位、考核方式、学习内容安排、可以参考的学习资料。

二、讲授数据清洗的定义、原理与发展

1)讲授数据清洗的含义和内容

2)讲授数据清洗的对象

3)讲授数据清洗的原理

4)讲授数据清洗主要的方法

课后学习

任务布置

查阅数据清洗用途的相关资料与案例

主要

参考资料

《数据清洗》黄源主编,清华大学出版社

 

《数据清洗》课程教案

第2次课2学时

授课内容

数据清洗基础2

教学目的

与要求

介绍数据清洗的评估和数据集。

通过本课的学习,学生应该掌握如下知识:

1)数据清洗的评估内容;

2)数据清洗的数据集介绍

重点

难点

数据清洗的各种数据集

教学进程

安排

授课内容:

一、数据清洗的评估技术

二、数据清洗的评估任务

三、数据清洗的数据集

 

课后学习

任务布置

下载数据集

主要

参考资料

《数据清洗》黄源主编,清华大学出版社

《数据清洗》课程教案

第3次课2学时

授课内容

数据清洗基础3

教学目的

与要求

介绍数据质量与数据仓库。

通过本课的学习,学生应该掌握如下知识:

1)数据质量的特点

2)数据仓库的特点

3)主数据与元数据

重点

难点

主数据与元数据

教学进程

安排

授课内容:

一、数据质量的概述

二、数据仓库的特点

三、ETL

四、主数据与元数据

课后学习

任务布置

熟悉ETL

主要

参考资料

《数据清洗》黄源主编,清华大学出版社

 

《数据清洗》课程教案

第4次课2学时

授课内容

数据清洗基础4

教学目的

与要求

通过本课的学习,学生应该掌握如下知识:

1)数据清洗的统计基础知识

2)数据清洗的环境与工具

重点

难点

数据清洗的工具安装

教学进程

安排

授课内容:

一、数据清洗的统计基础知识

二、数据清洗的环境

三、数据清洗的工具

 

课后学习

任务布置

安装数据清洗工具

主要

参考资料

《数据清洗》黄源主编,清华大学出版社

《数据清洗》课程教案

第5次课2学时

授课内容

文件格式

教学目的

与要求

介绍文件格式的定义,掌握常见的文件格式,会查看和标记

重点

难点

1)XML格式的查看和编辑

2)JSON格式查看和编辑

教学进程

安排

授课内容:

一、文件格式基础知识

二、常见文件格式的介绍

三、XML格式和JSON格式查看和编辑

课后学习

任务布置

示例练习,熟练掌握XML格式和JSON格式的编写和运行

主要

参考资料

《数据清洗》黄源主编,清华大学出版社

《数据清洗》课程教案

第6次课2学时

授课内容

Kettle文件格式的转换1

教学目的

与要求

通过本课的学习,学生应该掌握如下知识:

1)熟悉Kettle使用方法

2)熟悉Kettle中不同文件格式的转换方式

重点

难点

熟悉Kettle中文件格式的转换方式

教学进程

安排

授课内容:

一、Kettle基础

1)Kettle简介

2)Kettle打开和运行

二、Kettle实例

1)文本文件转换

2)CSV文件转换

3)XML文件转换

4)JSON文件转换

课后学习

任务布置

示例练习,运行Kettle转换各种文件格式

主要

参考资料

《数据清洗》黄源主编,清华大学出版社

《数据清洗》课程教案

第7次课2学时

授课内容

Kettle文件格式的转换2

教学目的

与要求

通过本课的学习,学生应该掌握如下知识:

1)熟悉Kettle使用方法

2)熟悉Kettle中不同文件格式的转换方式

重点

难点

熟悉Kettle中文件格式的转换方式

教学进程

安排

授课内容:

一、Kettle基础

1)Kettle简介

2)Kettle打开和运行

二、Kettle实例

1)Excel文件转换

2)生成记录组件转换

3)使用Kettle读取XML文档

4)将XML文档转换为JSON文档

课后学习

任务布置

熟悉不同文件的转换方法、案例实现

主要

参考资料

《数据清洗》黄源主编,清华大学出版社

《数据清洗》课程教案

第8次课2学时

授课内容

数据抽取1

教学目的

与要求

介绍数据抽取定义和方法,要求学生应该熟练掌握如下知识的运用:

1)了解数据抽取的概念

2)掌握Web数据抽取的原理

3)掌握使用Kettle实现Web数据抽取的原理

重点

难点

1)Web数据抽取的原理

教学进程

安排

授课内容:

一、数据抽取概念

二、Web数据抽取定义与原理

三、使用Kettle实现Web数据抽取的原理

 

课后学习

任务布置

示例练习,数据抽取的Kettle实现

主要

参考资料

《数据清洗》黄源主编,清华大学出版社

《数据清洗》课程教案

第9次课2学时

授课内容

数据抽取2

教学目的

与要求

介绍数使用Kettle实现Web数据抽取的案例与过程。

要求学生应该熟练掌握如下知识的运用:

1)HTTPclient抽取数据

2)Web服务查询抽取数据

3)掌握从Web中抽取数据的基本方式及原理

重点

难点

1)从Web中抽取各种数据

教学进程

安排

授课内容:

一、Kettle实现Web数据抽取的流程

二、HTTPclient抽取数据

三、Web服务查询抽取数据

 

课后学习

任务布置

使用WebService抽取天气数据并显示,实训部分

主要

参考资料

《数据清洗》黄源主编,清华大学出版社

《数据清洗》课程教案

第10次课2学时

授课内容

网络爬虫1

教学目的

与要求

通过本课的学习,学生应该掌握如下知识:

1)HTML概述

2)网页结构

3)网络爬虫原理

4)robots协议

重点

难点

1)网页结构

教学进程

安排

讲授内容

一、HTML概述

1)HTML概念

2)HTML5实现

二、网页结构

1)网页结构识别

2)网页元素识别

三、网络爬虫原理

1)网络爬虫协议

2)robots协议

课后学习

任务布置

熟悉网页结构

主要

参考资料

《数据清洗》黄源主编,清华大学出版社

《数据清洗》课程教案

第11次课2学时

授课内容

网络爬虫2

教学目的

与要求

利用Python实现网络爬虫,通过本课的学习,学生应该掌握如下知识:

1)urllib模块

2)Requests库

 

重点

难点

1)Requests库

教学进程

安排

 

授课内容:

一、urllib模块认识和应用

二、Requests库认识和应用

 

课后学习

任务布置

熟练掌握利用urllib模块和Requests库实现爬虫的案例实现

主要

参考资料

《数据清洗》黄源主编,清华大学出版社

《数据清洗》课程教案

第12次课2学时

授课内容

网络爬虫3

教学目的

与要求

介绍BeautifulSoup库和爬虫实例。

要求学生应该熟练掌握如下知识的运用:

1)掌握BeautifulSoup库原理和实现

2)爬虫实例的书写和运行

重点

难点

1)BeautifulSoup库原理

2)爬虫实例运行

教学进程

安排

授课内容:

一、BeautifulSoup库概述

1)BeautifulSoup库原理

2)BeautifulSoup库运行

二、爬虫实例

1)爬虫实例分析

2)爬虫实例运行

 

课后学习

任务布置

熟悉爬虫实例

主要

参考资料

《数据清洗》黄源主编,清华大学出版社

《数据清洗》课程教案

第13次课2学时

授课内容

网络爬虫综合实验

教学目的

与要求

掌握如下知识:

1)对各种库的应用

2)编写程序实现爬取网页

 

重点

难点

1)编写程序实现爬取网页

教学进程

安排

 

实验内容:

一、爬取天涯页面

二、爬取网易云音乐

 

课后学习

任务布置

编写爬虫爬取网页

主要

参考资料

《数据清洗》黄源主编,清华大学出版社

《数据清洗》课程教案

第14次课2学时

授课内容

Kettle数据清洗1

教学目的

与要求

了解Kettle数据清洗。

要求学生应该熟练掌握如下知识的运用:

1)掌握Kettle数据清洗步骤

2)使用Kettle实现数据清洗

重点

难点

1)使用Kettle实现数据清洗

教学进程

安排

 

授课内容:

一、Kettle数据清洗步骤

二、使用Kettle实现数据清洗

1)值映射

2)数据排序

3)数据去重

 

课后学习

任务布置

熟悉Kettle实现数据清洗的基本方法和流程

主要

参考资料

《数据清洗》黄源主编,清华大学出版社

《数据清洗》课程教案

第15次课2学时

授课内容

Kettle数据清洗2

教学目的

与要求

了解Kettle数据清洗。

要求学生应该熟练掌握如下知识的运用:

1)掌握Kettle数据清洗步骤

2)使用Kettle实现数据清洗

重点

难点

1)使用Kettle实现数据清洗

教学进程

安排

授课内容:

一、使用Kettle实现数据清洗

1)使用kettle清洗超出范围的数据

2)使用kettle过滤记录

3)使用kettle生成多个随机数并相加

 

课后学习

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 人文社科 > 法律资料

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1