Python数据分析挖掘与可视化教学大纲.docx
《Python数据分析挖掘与可视化教学大纲.docx》由会员分享,可在线阅读,更多相关《Python数据分析挖掘与可视化教学大纲.docx(10页珍藏版)》请在冰豆网上搜索。
Python数据分析挖掘与可视化教学大纲
一、课程概况
课程名称:
Python数据分析、挖掘与可视化课程编号:
课程性质:
限制性选修考核方式:
考查
建议学时:
48+16
前导课程:
线性代数、高等数学
适用专业:
计算机科学与技术、数据科学、统计、金融、管理等理工科和商科专业
二、教学目的和要求
通过本课程的学习,使得学生能够理解Python的编程模式,熟练运用Python内置函数与运算符、列表、元组、字典、集合等基本数据类型以及相关列表推导式、切片、序列解包等语法来解决实际问题,熟练掌握Python分支结构、循环结构、函数设计以及类的设计与使用,掌握numpy数组运算和矩阵运算、pandas基本数据结构以及数据分析与处理、机器学习基本算法原理以及sklearn实现、matplotlib数据可视化与科学计算可视化。
能够根据问题性质和特点选择合适的机器学习算法,能够根据数据特点选择合适的可视化方式。
三、教学内容以及重点、难点
第1章Python开发环境搭建与编码规范
1.1Python开发环境搭建与使用
教学内容:
在Python官方网站下载安装包并安装,下载并安装Anaconda3,IDLE、JupyterNotebook、Spyder简单使用,使用pip和conda命令安装扩展库。
重点、难点:
系统环境变量path的设置,安装扩展库。
1.2Python编码规范
教学内容:
缩进对业务逻辑的影响,变量命名规则。
重点、难点:
缩进的作用。
1.3标准库、扩展库对象的导入与使用
教学内容:
导入标准库与扩展库对象的几种形式及其区别,导入标准库和扩展库的顺序。
重点、难点:
导入标准库与扩展库对象的几种形式及其区别。
第2章数据类型、运算符与内置函数
2.1常用内置数据类型
教学内容:
整数、实数、复数、列表、元组、字典、集合、字符串等常用数据类型。
重点、难点:
数字大小没有限制,实数计算会有误差,字典的键和集合中的元素不允许重复并且必须为不可变类型的数据,包含一个元素的元组必须有逗号。
2.2运算符与表达式
教学内容:
算术运算符、关系运算符、成员测试运算符、集合运算符、逻辑运算符。
重点、难点:
关系运算符可以连用,关系运算符、成员测试运算符和逻辑运算符具有惰性求值的特点,列表、元组、字符串比较大小时逐个比较其中的元素大小直至得出确定的结论,关系运算符作用于集合时表示集合的包含关系而不关心元素大小。
2.3常用内置函数
教学内容:
类型转换、最大值、最小值、元素数量、求和、排序、逆序、基本输入输出、range()、zip()、map()、reduce()、filter()。
重点、难点:
内置函数max()、min()、sorted()的key参数可以用来指定排序规则,range()函数限定的是左闭右开区间,函数式编程模式。
2.4综合应用与例题解析
第3章列表、元组、字典、集合与字符串
3.1列表与列表推导式
教学内容:
创建列表、使用下标访问列表中的元素、列表常用方法、列表推导式、切片操作。
重点、难点:
列表、元组、字符串的下标可以是负数,列表推导式,切片限定的是左闭右开区间。
3.2元组与生成器表达式
教学内容:
元组与列表的区别、生成器表达式、序列解包。
重点、难点:
生成器表达式具有惰性求值特点,并且其中的元素只能使用一次,序列解包要求等号两侧值的数量和变量的数量必须相等。
3.3字典
教学内容:
字典元素访问、字典元素修改、添加与删除。
重点、难点:
字典的键可以作为下标,字典的get()方法,使用字典的键作为下标的赋值语句的两种含义。
3.4集合
教学内容:
集合概述、集合常用方法。
重点、难点:
集合常用方法。
3.5字符串常用方法
教学内容:
encode()、format()、index()、rindex()、count()、replace()、maketrans()、translate()、ljust()、rjust()、center()、split()、rsplit()、join()、lower()、upper()、capitalize()、title()、swapcase()、startswith()、endswith()、strip()、rstrip()、lstrip()。
重点、难点:
字符串方法返回新的字符串或字节串,不对原字符串进行修改。
3.6综合应用与例题解析
第4章选择结构、循环结构、函数定义与使用
4.1选择结构
教学内容:
条件表达式、单分支选择结构、双分支选择结构、嵌套的分支结构。
重点、难点:
条件表达式与True、False的等价关系,嵌套选择结构的代码缩进。
4.2循环结构
教学内容:
for循环、while循环、break与continue语句。
重点、难点:
带else的for循环和while循环执行逻辑以及break语句的作用。
4.3函数定义与使用
教学内容:
函数定义基本语法、lambda表达式、递归函数、生成器函数、位置参数、默认值参数、关键参数、可变长度参数、变量作用域。
重点、难点:
lambda表达式功能与适用场合,默认值参数,可变长度参数的两种形式,变量作用域。
4.4综合应用与例题解析
第5章文件操作
5.1文件操作基础
教学内容:
内置函数open()、文件对象常用方法、上下文管理语句with。
重点、难点:
读写文件时会自动移动文件指针,读写文本文件时一定要注意编码格式。
5.2JSON文件操作
教学内容:
json模块的函数。
重点、难点:
separators参数的作用。
5.3CSV文件操作
教学内容:
csv模块的用法。
重点、难点:
编码格式的影响,
5.4Word、Excel、PowerPoint文件操作实战
教学内容:
Word、Excel、PowerPoint文件的内容读取。
重点、难点:
python-docx、openpyxl、python-pptx扩展库的安装及其用法。
第6章numpy数组与矩阵运算
6.1numpy数组及其运算
教学内容:
创建数组、测试两个数组的对应元素是否足够接近、修改数组中的元素值、数组与标量的运算、数组与数组的运算、数组排序、数组的内积运算、访问数组中的元素、数组对函数运算的支持、改变数组形状、数组布尔运算、分段函数、数组堆叠与合并。
重点、难点:
数组与标量的运算,相同形状的数组之间的运算,函数对数组的运算,数组布尔运算,分段函数。
6.2矩阵生成与常用操作
教学内容:
生成矩阵、矩阵转置、查看矩阵特征、矩阵乘法、计算相关系数矩阵、计算方差、协方差、标准差。
重点、难点:
矩阵与数组的区别。
6.3计算特征值与特征向量
教学内容:
矩阵特征值与特征向量的含义,eig()函数。
重点、难点:
矩阵特征值与特征向量的含义。
6.4计算逆矩阵
教学内容:
逆矩阵的计算,inv()函数。
重点、难点:
不是所有矩阵都有逆矩阵。
6.5求解线性方程组
教学内容:
solve()函数。
6.6计算向量和矩阵的范数
教学内容:
范数的定义与含义,form()函数。
重点、难点:
向量范数与矩阵范数的区别。
6.7奇异值分解
教学内容:
奇异值的定义,奇异值分解,svd()函数。
重点、难点:
奇异值的定义,奇异值分解的意义。
6.8函数向量化
教学内容:
普通函数向量化。
第7章pandas数据分析实战
7.1pandas常用数据类型
教学内容:
一维数组与常用操作、时间序列与常用操作、二维数组DataFrame。
重点、难点:
时间序列与常用操作。
7.2DataFrame数据处理与分析实战
教学内容:
读取Excel文件中的数据、筛选符合特定条件的数据、查看数据特征和统计信息、按不同标准对数据排序、使用分组与聚合对员工业绩进行汇总、处理超市交易数据中的异常值、处理超市交易数据中的缺失值、处理超市交易数据中的重复值、使用数据差分查看员工业绩波动情况、使用透视表与交叉表查看业绩汇总数据、使用重采样技术按时间段查看员工业绩、多索引相关技术与操作、使用标准差与协方差分析员工业绩、使用pandas的属性接口实现高级功能、绘制各员工在不同柜台业绩平均值的柱状图、查看DataFrame的内存占用情况、数据拆分与合并。
重点、难点:
sort_index()、sort_values()、groupby()、fillna()、diff()、pivot()、crosstab()、resample()等函数或方法的用法,聚合函数的作用,属性接口。
第8章sklearn机器学习实战
8.1机器学习基本概念
教学内容:
样本、特征、特征向量、目标、偏差、方差、拟合、过拟合、数据泄露、有监督学习、半监督学习、无监督学习、分类器、聚类器、离群点检测器、预测器、损失函数、泛化、正则化等基本概念。
8.2机器学习库sklearn简介
教学内容:
扩展库sklearn常用模块与对象,如何选择合适的模型和算法。
8.3线性回归算法原理与应用
教学内容:
线性回归模型原理、sklearn中线性回归模型的简单应用、岭回归原理与sklearn实现、套索回归Lasso基本原理与sklearn实现、弹性网络基本原理与sklearn实现、使用线性回归模型预测儿童身高。
重点、难点:
岭回归、套索回归、弹性网络的区别,正则化的作用。
8.4逻辑回归算法原理与应用
教学内容:
逻辑回归算法原理与sklearn实现、使用逻辑回归算法预测考试能否及格。
重点、难点:
逻辑回归算法算法与sklearn实现。
8.5朴素贝叶斯算法原理与应用
教学内容:
朴素贝叶斯算法基本概念、朴素贝叶斯算法分类原理与sklearn实现、使用朴素贝叶斯算法对中文邮件进行分类。
重点、难点:
朴素贝叶斯算法分类原理与sklearn实现,中文分词,特征向量的构造。
8.6决策树与随机森林算法应用
教学内容:
决策树算法基本概念、原理与sklearn实现、随机森林算法原理与sklearn实现、使用决策树算法判断学员的Python水平。
重点、难点:
决策树与随机森林算法基本原理。
8.7支持向量机算法原理与应用
教学内容:
支持向量机算法基本原理与sklearn实现、使用支持向量机对手写数字图像进行分类。
重点、难点:
支持向量机算法基本原理及参数含义,图像文件内容的读取。
8.8KNN算法原理与应用
教学内容:
KNN算法基本原理与sklearn实现、使用KNN算法判断交通工具类型。
重点、难点:
KNN算法基本原理。
8.9KMeans聚类算法原理与应用
教学内容:
KMeans聚类算法基本原理与sklearn实现、使用KMeans算法压缩图像颜色。
重点、难点:
KMeans聚类算法基本原理。
8.10分层聚类算法原理与应用
教学内容:
分层聚类算法原理与应用。
8.11DBSCAN算法原理与应用
教学内容:
核心样本、边界样本、噪声样本、密度可达等基本概念,DBSCAN算法原理与应用。
重点、难点:
DBSCAN算法原理。
8.12使用协同过滤算法进行电影推荐
教学内容:
协同过滤算法原理,电影推荐。
重点、难点:
协同过滤算法。
8.13关联规则分析原理与应用
教学内容:
关联规则分析原理与基本概念、使用关联规则分析演员关系。
重点、难点:
关联规则分析原理。
8.14数据降维
教学内容:
数据降维的作用,主成分分析基本原理。
重点、难点:
主成分分析原理。
8.15交叉验证与网格搜索
教学内容:
使用交叉验证评估模型泛化能力、使用网格搜索确定模型最佳参数。
重点、难点:
cross_val_score()函数与GridSearchCV类的用法。
第9章matplotlib数据可视化实战
9.1数据可视化库matp