数据分析学习笔记Word格式.docx
《数据分析学习笔记Word格式.docx》由会员分享,可在线阅读,更多相关《数据分析学习笔记Word格式.docx(13页珍藏版)》请在冰豆网上搜索。
(3)探索数据
1.趋势分析
2.相互影响分析
3.变量选择(重要性排序)
4.特征进行变形
5.Detectpatterns
(4)建立模型
模型种类:
关联、回归、分类、聚类、预测、异常检测
(5)评估模型
(6)部署模型
2.数据的可视化(hist、pie、box相互混合)
3.数据的预处理
(1)数据清洗
1.缺失值处理
i.删除法
ii.插补法(平均值插补、中值插补、回归插补(线性)、线性插值、回归插值(非线性))
2.噪声过滤
i.回归法:
用一个函数拟合数据来光滑数据
ii.均值平滑法:
对于具有序列特征的变量用临近的若干数据的均值来替代原始数据的方法
iii.离群点分析:
通过聚类等方法来检测离群点,并将其删除,从而实现去噪的方法
iv.小波去噪
(2)数据集成
(3)数据规约(浓缩)
i.属性选择
ii.样本选择
(4)数据变换(归一化、标准化)
4.数据的探索(有效方法:
数据可视化)
(1)分布情况探索(hist、pie、box)
(2)分布中心分析(median(中心值)、mode(频率最高)、max、mean(均值))
(3)数据的伸展性分析(极差:
判断用不用归一化)(方差小:
说明波动小)
(4)数据的形状分析(偏度)
(5)关联分析(plotmatrix)
(6)数据的分组分析(均值、最大值、最小值、异常值)
5.假设检验(卡方检验、T检验)
6.数据回归
(二)数据挖掘算法:
回归算法、关联算法、聚类算法、分类、预测、异常诊断
1.回归算法:
一元回归、多元回归、逐步回归、Logistic回归
(1)一元线性:
LinearModel
(2)一元非线性回归:
fitnlm
(3)一元多项式回归:
polyfit
(4)多元线性回归:
regress(要先判断因素是否和因变量线性相关)
(5)逐步回归:
stepwise
(6)Logistic模型(结果只有0-1,可以用于银行信用评估)fitglm
2.关联算法:
Apriori算法(购物篮分析、商品关联、啤酒尿布)、FP-Growth算法、相关系数法
3.聚类
(1)K-meams算法(kmeans)(万能聚类)
(2)层次聚类(Clusterdata)(层次结构图)(例子:
股票分池)
(3)神经网络(train)
(4)模糊C均值聚类算法(计算隶属度、类似模糊数学)(fcm)
(5)高斯混合聚类(gmdistribution.fit)
(6)聚类过程中类别个数的确定方法
1.阈值法
2.轮廓图法
4.分类:
最近邻(KNN)、贝叶斯、神经网络、逻辑斯蒂(Logistic)、判断分析、支持向量机(SVM)、决策树
(1)K-近邻(ClassificationKNN,fit)
(2)贝叶斯分类、朴素贝叶斯分类(求分类概率)(NaiveBayes.fit)
(3)神经网络
(4)Logistic分类(glm.)
(5)判别分析(DiscriminantAnalysis简称DA)(ClassificationDiscriminant.fit)
(6)支持向量机(SVM)(超平面,解决多维问题)(svmtrain)
(7)决策树(ClassificationTree.fit)
(8)分类的评价:
正确率、ROC曲线(越快收敛到1越好)
5.预测算法
(1)灰色预测(递推)(特点:
对数据样本数量要求不高)
(2)马尔科夫(关键:
状态转移矩阵)
6.异常诊断(outlier离群点的诊断)
(三)高级算法和分类学习机