课程教案大数据工具应用微课视频版钟雪灵清华大学出版社.docx
《课程教案大数据工具应用微课视频版钟雪灵清华大学出版社.docx》由会员分享,可在线阅读,更多相关《课程教案大数据工具应用微课视频版钟雪灵清华大学出版社.docx(17页珍藏版)》请在冰豆网上搜索。
![课程教案大数据工具应用微课视频版钟雪灵清华大学出版社.docx](https://file1.bdocx.com/fileroot1/2022-10/25/de2bd61a-7021-47ff-abb7-17321007c0a8/de2bd61a-7021-47ff-abb7-17321007c0a81.gif)
课程教案大数据工具应用微课视频版钟雪灵清华大学出版社
《大数据工具应用》课程教案
一、课程简介
课程类别:
职业选修课
授课对象:
本科层次各专业
学时与学分:
34学时,2学分
使用教材:
《大数据工具应用》(微课视频版),钟雪灵,郭艺辉主编.清华大学出版社.高等学校大数据管理与应用专业规划教材.ISBN9787302559641.2020,08.
参考教材:
[1]袁梅宇.数据挖掘与机器学习Weka应用技术与实践(第二版).北京:
清华大学出版社,2016.
[2]喻梅,于健.数据分析与数据挖掘.北京:
清华大学出版社,2018.
[3]雷明.机器学习:
原理、算法与应用.北京:
清华大学出版社,2019.
[4]朱洁,罗华霖.大数据架构详解:
从数据获取到深度学习.北京:
电子工业出版社,2016.
[5]刘红阁,王淑娟,温融冰.人人都是数据分析师:
Tableau应用实战(第2版).北京:
人民邮电出版社,2019.
[6]王国平.Tableau数据可视化:
从入门到精通.北京:
清华大学出版社,2017.
[7]周苏,王文.大数据可视化.北京:
清华大学出版社,2019.
[8]美智讯.Tableau商业分析:
从新手到高手.北京:
电子工业出版社,2018.
[9]MalekipirbazariM,AksakalliV.Riskassessmentinsociallendingviarandomforests[J].ExpertSystemswithApplication,2015,42(10):
4621-4631.
二、教学目的与教学要求:
移动互联网、云计算、大数据、人工智能、物联网等先进信息技术层出不穷,不断渗透至社会的各个领域,产生了许多新的应用场景,深刻地改变着人们的社交方式、生活方式和工作方式。
数字时代要求有新的教育,新工科、新医科、新农科、新文科的概念应运而生。
本课程讲授新兴的信息技术,围绕大数据的基础知识和工具应用进行课程建设和开发。
课程包括七章,涵盖数据获取、数据挖掘、数据呈现和数据思维等四部分内容。
课程立足应用入门,强调工具操作,突出案例教学。
学习本课程,学生将能拓展所学专业的知识边界,获得一定的大数据知识与技能,建立数据思维。
第1次课2学时
本次教学重点:
大数据的特点、数据获取、数据存储
本次教学难点:
大数据的结构、数据管理、数据分析
本次教学内容:
第一章大数据概述
1.1大数据应用概况
1.1.1大数据的定义
1.1.2大数据的特点
1.1.3大数据的结构
1.1.4相关技术
1.1.5现状与趋势
1.2大数据处理步骤
1.2.1数据获取
1.2.2数据存储
1.2.3数据管理
1.2.4数据分析
1.3应用案例
1.3.1商品推荐服务
1.3.2公共信息服务
1.3.3数据呈现服务
教学组织:
1、采用混合式教学法。
线上讲授演示与线下集中辅导答疑相结合。
2、采用模拟教学法。
切合知识点,运用模拟软件的操作演示,拓宽学生的思维空间,增加学生的学习兴趣,提高学生的能力。
3、采用演示法。
通过相关图片及视频资料,获得生动的表象,激起学生的感性认识,促进其对知识点比较全面、深刻地理解和掌握。
第2次课2学时
本次课教学重点:
格式转换与数据清洗整理、网页数据获取
本次课教学难点:
八爪鱼模板采集任务、自定义采集模式
本次课教学内容:
第二章数据获取
2.1格式转换与数据清洗整理
2.2网页数据获取
2.2.1八爪鱼采集原理与安装
2.2.2模板采集任务
2.2.3自定义采集模式
教学组织:
1、采用混合式教学法。
线上讲授演示与线下集中辅导答疑相结合。
2、采用模拟教学法。
切合知识点,运用模拟软件的操作演示,拓宽学生的思维空间,增加学生的学习兴趣,提高学生的能力。
3、采用演示法。
通过相关图片及视频资料,获得生动的表象,激起学生的感性认识,促进其对知识点比较全面、深刻地理解和掌握。
本次课实践教学设计:
1、完成iris.csv和dataset.txt文件到excel文件的转换。
2、对学生资料.xlsx文件做以下处理:
根据旧准考证号加上班级序号名称来生成新的追考证号码。
规则是:
旧号码的前6位+0+班级号+旧号码后3位。
3、使用最新版本的八爪鱼软件的“简易采集”模式,对“新浪财经”的股票推荐信息进行采集。
采集网址为:
4、
5、使用最新版本的八爪鱼软件的“自定义采集-向导模式”,对京东网站的某项商品搜索结果进行采集。
并将结果保存为excel文件。
6、完成bank-data.xlsx文件到arff文件的转换。
7、对weather.numeric.arff数据集中的数值型属性“温度(temperature)”离散成低温(cool),中温(mild),高温(hot)三个等级。
8、生成weather.nominal.arff数据集的决策树。
9、对CPU.arff数据集使用M5P分类器进行线性回归。
10、使用SimpleKMeans聚类器对weather.numeric.arff数据集进行聚类,选择2个簇和欧氏距离,其他参数保持默认值,忽略play属性。
11、使用EM聚类器对weather.numeric.arff数据集进行聚类,选择2个簇,其他参数保持默认值,忽略play属性。
第3次课2学时
本次课教学重点:
Weka数据分析入门、数据预处理、J48决策树分类器
本次课教学难点:
数据预处理、J48决策树分类器
本次课教学内容:
第三章数据分析入门
3.1Weka简介与数据预处理
3.1.1软件下载
3.1.2文件与数据格式
3.1.3Weka程序界面
3.1.4数据预处理
3.2数据分类
3.2.1J48决策树分类器
教学组织:
1、采用混合式教学法。
线上讲授演示与线下集中辅导答疑相结合。
2、采用模拟教学法。
切合知识点,运用模拟软件的操作演示,拓宽学生的思维空间,增加学生的学习兴趣,提高学生的能力。
3、采用演示法。
通过相关图片及视频资料,获得生动的表象,激起学生的感性认识,促进其对知识点比较全面、深刻地理解和掌握。
第4次课2学时
本次课教学重点:
LinearRegression分类器、数据聚类
本次课教学难点:
M5P分类器、EM聚类器
本次课教学内容:
第三章数据分析入门
3.1Weka简介与数据预处理
3.2.2LinearRegression分类器
3.2.3M5P分类器
3.3数据聚类
3.3.1SimpleKMeans聚类器
3.3.2EM聚类器
3.3.3DBSCAN聚类器
教学组织:
1、采用混合式教学法。
线上讲授演示与线下集中辅导答疑相结合。
2、采用模拟教学法。
切合知识点,运用模拟软件的操作演示,拓宽学生的思维空间,增加学生的学习兴趣,提高学生的能力。
3、采用演示法。
通过相关图片及视频资料,获得生动的表象,激起学生的感性认识,促进其对知识点比较全面、深刻地理解和掌握。
本次课实践教学设计:
1、对glass.arff文件中的玻璃数据应用排序技术,确定基于信息增益的四个最重要的属性是什么?
2、使用上述玻璃数据集,运行基于相关性的CfsSubsetEval评估器,使用BestFirst搜索方法;然后运行J48作为基学习器的包装方法,再次使用BestFirst搜索方法。
检查输出的属性子集,这两种方法都选择出来的有哪些属性?
它们与题1中使用信息增益所生成的排序输出有何关系?
3、使用cpu.arff数据集,切换到Visualize标签页,实现如下结果:
打开某一个放大散点图,横坐标(即X坐标)设置为CACH属性,纵坐标(即Y坐标)设置为class属性,同时使用Rectangle选项来选择实例,使得图中只显示CACH范围大概在15~70之间并且class范围大概在100~400之间的所有实例,其它实例不显示。
请把该结果图截图显示在实验结果中。
第5次课2学时
本次课教学重点:
关联规则相关概念、Apriori算法、属性选择
本次课教学难点:
Apriori关联规则挖掘
本次课教学内容:
第三章数据分析入门
3.4数据关联
3.4.1关联规则相关概念
3.4.2Apriori算法介绍
3.4.3Apriori关联规则挖掘
3.5选择属性
3.5.1属性选择概述
3.5.2Weka中Selectattributes标签页
教学组织:
1、采用混合式教学法。
线上讲授演示与线下集中辅导答疑相结合。
2、采用模拟教学法。
切合知识点,运用模拟软件的操作演示,拓宽学生的思维空间,增加学生的学习兴趣,提高学生的能力。
3、采用演示法。
通过相关图片及视频资料,获得生动的表象,激起学生的感性认识,促进其对知识点比较全面、深刻地理解和掌握。
第6次课2学时
本次课教学重点:
选择属性、Weka中选择属性操作、数据可视化
本次课教学难点:
数值型类别属性可视化
本次课教学内容:
第三章数据分析入门
3.5选择属性
3.5.3选择属性模式介绍
3.5.4Weka中选择属性操作示例
3.6数据可视化
3.6.1Visualize标签页
3.6.2数值型类别属性可视化
教学组织:
1、采用混合式教学法。
线上讲授演示与线下集中辅导答疑相结合。
2、采用模拟教学法。
切合知识点,运用模拟软件的操作演示,拓宽学生的思维空间,增加学生的学习兴趣,提高学生的能力。
3、采用演示法。
通过相关图片及视频资料,获得生动的表象,激起学生的感性认识,促进其对知识点比较全面、深刻地理解和掌握。
作业布置:
1、在Weka软件探索者界面中,利用Visualize标签页通过更改各个参数来进行数据集的可视化属性设置后,需要单击以下()按钮,所有更改才会生效。
A.SelectAttribute
B.SubSample
C.Update
D.Fastscrolling
2、Ranker方法既可以用于单个属性评估器,又可以用于属性子集评估器。
A.对B.错
3、利用weka软件进行数据可视化时,用户可以选择类别属性对数据点着色,如果类别属性是标称型,则显示为彩色条。
A.对B.错
第7次课2学时
本次课教学重点:
贝叶斯公式、贝叶斯网络、创建贝叶斯网络
本次课教学难点:
使用贝叶斯网络进行推理
本次课教学内容:
第四章数据分析进阶
4.1贝叶斯网络
4.1.1贝叶斯公式简介
4.1.2贝叶斯网络简介
4.1.3创建贝叶斯网络
4.1.4使用贝叶斯网络进行推理
教学组织:
1、采用混合式教学法。
线上讲授演示与线下集中辅导答疑相结合。
2、采用模拟教学法。
切合知识点,运用模拟软件的操作演示,拓宽学生的思维空间,增加学生的学习兴趣,提高学生的能力。
3、采用演示法。
通过相关图片及视频资料,获得生动的表象,激起学生的感性认识,促进其对知识点比较全面、深刻地理解和掌握。
本次课实践教学设计:
完成下图所示的贝叶斯网络,应用weka工具进行分析。
第8次课2学时
本次课教学重点:
神经网络介绍、Weka神经网络选项设置、编辑神