R语言商务数据分析实战教学大纲.docx
《R语言商务数据分析实战教学大纲.docx》由会员分享,可在线阅读,更多相关《R语言商务数据分析实战教学大纲.docx(20页珍藏版)》请在冰豆网上搜索。
R语言商务数据分析实战教学大纲
《R语言商务数据分析实战》教学大纲
课程名称:
R语言商务数据分析实战
课程类别:
必修
适用专业:
大数据技术类相关专业
总学时:
80学时(其中理论45学时,实验35学时)
总学分:
5.0学分
一、课程的性质
大数据时代已经到来,在商业、经济及其他领域中基于数据和分析去发现问题并做出科学、客观的决策越来越重要。
数据分析技术将帮助企业用户在合理时间内获取、管理、处理以及整理海量数据,为企业经营决策提供积极的帮助。
有实践经验的数据分析人才已经成为了各企业争夺的热门。
为了推动我国大数据,云计算,人工智能行业的发展,满足日益增长的数据分析人才需求,特开设R语言商务数据分析实战课程。
二、课程的任务
通过本课程的学习,使学生学会分析案例的流程,使用R语言实现流程的每一个步骤,包括数据合并、数据清洗、数据变换、模型构建、模型评价等,掌握Apriori算法、K-Means算法、灰色预测算法、SVR算法、GBM算法、协同过滤算法的应用,以及ARIMA模型和LDA模型的应用。
将理论与实践相结合,为将来从事数据分析挖掘研究、工作奠定基础。
三、课程学时分配
序号
教学内容
理论学时
实验学时
其它
1
第1章R语言数据分析概述
2
2
第2章商品零售购物篮分析
3
2
3
第3章航空公司客户价值分析
4
3
4
第4章财政收入预测分析
4
3
5
第5章金融服务机构资金流量预测
5
3
6
第6章P2P信用贷款风险控制
5
4
7
第7章电子商务网站智能推荐服务
6
5
8
第8章电商产品评论数据情感分析
6
5
9
第9章餐饮企业综合分析
10
10
总计
45
35
四、教学内容及学时安排
1.理论教学
序号
章节名称
主要内容
教学目标
学时
1
R语言数据分析概述
1.掌握数据分析的概念
2.掌握数据分析的流程
3.了解数据分析的应用场景
4.了解数据分析的常用工具
5.了解R语言在数据分析中的优势
6.了解R语言数据分析中常用的Packages
1.掌握数据分析的概念、流程与应用场景
2.了解R语言数据分析中常用的Packages
2
2
商品零售购物篮分析
1.分析零售企业商品销售现状
2.了解某商品零售企业的基本数据情况
3.熟悉购物篮分析的基本流程与步骤
4.使用统计学知识分析热销商品
5.使用商品结构图分析售出商品的结构
6.了解Apriori算法的基本原理与使用方法
7.构建零售商品的Apriori模型
8.根据模型结果提出商品销售策略
1.熟悉购物篮分析的实现流程与步骤
2.掌握Apriori算法的基本原理与使用方法
3.分析商品销售状况与商品结构合理性
4.分析零售商品间的关联关系
3
3
航空公司客户价值分析
1.了解航空公司现状与客户价值分析
2.熟悉航空公司客户价值分析的步骤与流程
3.处理数据的缺失值与异常值
4.结合RFM模型构建关键特征
5.标准化构建关键特征后的数据
6.了解K-Means算法基本原理
7.使用K-Means算法对航空客户进行分群
8.根据分群结果制定营销策略
1.熟悉航空公司客户价值分析的步骤与流程
2.了解RFM模型的基本原理,以及K-Means算法的基本原理
3.构建航空客户价值分析的关键特征
4.比较不同类别客户的客户价值,制定相应的营销策略
4
4
财政收入预测分析
1.分析财政收入预测背景
2.了解财政收入预测的方法
3.熟悉财政收入预测的步骤与流程
4.了解相关性分析
5.分析计算结果
6.了解Lasso回归方法
7.分析Lasso回归结果
8.了解灰色预测算法
9.了解SVR算法
10.分析预测结果
1.熟悉财政收入预测的步骤和流程
2.掌握相关性分析方法与应用
3.掌握使用Lasso模型选取特征的方法
4.掌握灰色预测的原理与应用
5.掌握SVR算法的基本原理与应用
4
5
金融服务机构资金流量预测
1.分析金融服务机构现状与数据的基本情况
2.认识资金流量预测
3.熟悉金融服务机构资金流量预测的步骤与流程
4.对数据进行平稳性检验和处理
5.了解纯随机性检验的原理
6.对通过平稳性检验的数据进行纯随机性检验
7.了解ARIMA模型的原理
8.了解定阶的方式,并识别模型的阶数
9.建立ARIMA模型,并计算误差与得分
1.熟悉金融服务机构资金流量预测的步骤与流程
2.掌握数据平稳性检验和处理方法,以及纯随机性检验
3.使用ARIMA模型对资金流量进行预测
5
6
P2P信用贷款风险控制
1.分析P2P信贷行业所面临的现状与困扰
2.了解某P2P信贷平台现阶段数据情况
3.熟悉P2P信贷用户逾期预测的基本流程与步骤
4.分析用户信息完善程度、用户信息修改情况、区域经济发展情况、借款月份情况分别与逾期率之间的关系
5.使用第三方平台信息构建特征
6.对登录信息表和更新信息表进行长宽表转换
7.处理类别型特征,插补数值型特征缺失值与筛选冗余特征
8.了解GBM算法的基本原理,优缺点,使用场景与R语言函数
9.使用ROC曲线评价构建完成的GBM模型
10.分析构建的GBM模型的计算结果
1.熟悉用户逾期预测的步骤与流程
2.掌握结构化数据探索,并提取其中有效信息的方法与步骤
3.掌握常见数据预处理方法
4.熟悉GBM模型构建与参数调节方法
5.找出影响用户逾期还款的关键因素
6.使用GBM算法预测用户逾期还款的概率
5
7
电子商务网站智能推荐服务
1.了解智能推荐服务的应用场景
2.了解某法律网站现状与数据的基本情况
3.掌握分析目标以及智能推荐的步骤与流程
4.对原始数据按条件查询,并提取数据
5.分析原始数据用户点击的网页类型,得到统计分析结果
6.根据原始数据用户浏览网页次数的情况进行统计分析
7.通过原始数据用户在浏览页面时的情况得到网页排名的统计分析
8.清除数据探索分析过程中发现与目标无关的数据
9.识别翻页的网址,并对其进行还原,然后对用户访问的页面进行去重操作
10.将数据探索过程中类型归错的数据进行手动网址分类,对处理后的数据进行特征选取
11.基于物品的协同过滤算法,计算出物品之间的相似度
12.根据物品的相似度和用户的历史行为给用户生成推荐列表
13.对模型进行评价,判断推荐系统的好坏
1.熟悉网站智能推荐的步骤与流程
2.掌握简单的统计分析方法,运用于网页流量的统计
3.对某网站数据进行预处理,包括数据去重、数据变换和特征选取
4.使用协同过滤算法对某网站进行智能推荐
6
8
电商产品评论数据情感分析
1.了解电商企业现状
2.熟悉电商评论数据情感分析的步骤与基本流程
3.了解网络上发布内容的技术和Web文档中提取信息的技术,以获取网络数据
4.掌握获取评论数据的方法
5.去除评论数据的数字、字母
6.对评论数据进行去重
7.对评论数据进行分词处理
8.根据停用词库去除评论文本中的停用词
9.绘制词云图,查看分词效果
10.基于情感词表进行情感词匹配
11.对情感词的倾向进行修正
12.对情感分析结果进行检验
13.了解主题模型,以及LDA模型原理与参数估计方法
14.掌握寻找最优主题数的方法
15.建立相应的LDA模型
16.输入正面情感与负面情感评论求解LDA模型,并分析结果
1.熟悉电商产品评论数据实现情感分析的步骤与流程
2.了解如何使用R语言对互联网信息进行爬取
3.掌握文本分析的预处理方法
4.对预处理后的评论数据进行情感分析
5.使用LDA模型对正、负面评论数据进行主题分析
6
9
餐饮企业综合分析
1.了解餐饮企业的数据情况
2.明确餐饮企业数据分析的流程
3.使用分组聚合和透视表这两种方法统计每日用餐人数与销售额
4.计算一个月内的菜品热销度,并对热销度进行Min-Max标准化处理
5.计算每个菜品的毛利率
6.绘制原序列的时序图,查看序列周期性
7.检验原序列的平稳性和纯随机性
8.使用BIC图进行定阶
9.构建ARIMA模型,并分析预测结果
10.根据订单详情表,构建客户ID和菜品名称的二元矩阵
11.基于物品的协同过滤算法,计算菜品与菜品之间的相似度,并结合客户的历史行为给目标客户生成推荐列表
12.基于用户的协同过滤算法,计算客户与客户之间的相似度,并结合客户对菜品的兴趣给目标客户生成推荐列表
13.对推荐结果进行评价
14.根据特征选取后的数据,构建购物篮数据,然后构建二元矩阵,及关联规则模型
15.根据关联规则模型的置信度,统计得到的热销度和毛利率,及菜品详情表的主推度,计算推荐的综合评分
16.对原始数据进行处理,提取餐饮客户的3个特征数据
17.使用K-Means聚类算法对客户进行分群
18.结合业务对每个客户群进行客户价值分析
19.合并客户信息表和订单表,构建相关客户流失特征
20.划分训练集和测试集,构建决策树模型
21.分析决策树模型的结果
1.熟悉餐饮企业数据分析的步骤与流程
2.了解简单的统计分析的应用
3.使用ARIMA预测销售额
4.使用协同过滤算法对菜品进行智能推荐
5.使用Apriori算法对菜品进行关联分析
6.使用K-Means算法进行客户分群
7.使用决策树算法进行客户流失预测
10
学时合计
45
2.实验教学
序号
实验项目名称
实验要求
学时
1
商品零售购物篮分析
统计每种商品的频数、占比;对商品归类,统计每种类别的频数,并类别内部商品的分布;使用apriori函数进行关联分析
2
2
航空公司客户价值分析
使用删除法对缺失值与异常值进行处理;构建LRFMC五个特征,并进行标准化处理;用K-Means聚类算法对客户数据进行客户分群,聚成五类
3
3
财政收入预测分析
分析财政收入数据各特征的相关性;使用Lasso回归选取财政收入预测的关键特征;分别使用灰色预测和SVR构建财政收入预测模型;评价SVR模型
3
4
金融服务机构资金流量预测
对数据进行平稳性检验和处理;对处理后的平稳序列进行纯随机性检验;对处理后的平稳序列进行模型定阶;对模型进行残差检验,并评估模型;拟合相对最优模型
3
5
P2P信用贷款风险控制
画图分别展示用户信息完善程度、用户信息修改情况、区域经济发展情况、借款月份情况分别与逾期率的分布;分别求取每位用户对应编号的最大值、最小值、中位数、标准差;对登录信息表与更新信息表进行长宽表转换;针对类别型特征进行字符串处理和哑变量处理;处理数值型数据的缺失值;筛选冗余特征;构建GBM模型,并绘制特征重要性图;评价GBM模型
4
6
电子商务网站智能推荐服务
使用RMySQL包中的dbConnect连接数据库;统计101、107和199等网页类型;统计用户在网页的点击次数;分析网页排名;删除不符合规则的网页;还原翻页网址;划分正确的网页类型;将处理后的数据转换成0-1二元型数据;构建智能推荐模型;评价智能推荐模型
5
7
电商产品评论数据情感分析
获取评论页面页面网页源码;解析JSON数据;循环爬取评论数据;去重完全重复的评