ImageVerifierCode 换一换
格式:DOCX , 页数:13 ,大小:5.20MB ,
资源ID:3191006      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/3191006.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(数据分析学习笔记.docx)为本站会员(b****6)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

数据分析学习笔记.docx

1、数据分析学习笔记大数据挖掘:系统方法与实例分析steven.zhuo-健豪学习笔记(一) 数据挖掘基础1. MATLAB数据挖掘的过程(1) 定义目标(2) 准备数据(3) 探索数据1. 趋势分析2. 相互影响分析3. 变量选择(重要性排序)4. 特征进行变形5. Detectpatterns(4) 建立模型模型种类:关联、回归、分类、聚类、预测、异常检测(5) 评估模型(6) 部署模型2. 数据的可视化(hist、pie、box相互混合)3. 数据的预处理(1) 数据清洗1. 缺失值处理i. 删除法ii. 插补法(平均值插补、中值插补、回归插补(线性)、线性插值、回归插值(非线性)2. 噪声

2、过滤i. 回归法:用一个函数拟合数据来光滑数据ii. 均值平滑法:对于具有序列特征的变量用临近的若干数据的均值来替代原始数据的方法iii. 离群点分析:通过聚类等方法来检测离群点,并将其删除,从而实现去噪的方法iv. 小波去噪(2) 数据集成(3) 数据规约(浓缩)i. 属性选择ii. 样本选择(4) 数据变换(归一化、标准化)4. 数据的探索(有效方法:数据可视化)(1) 分布情况探索(hist、pie、box)(2) 分布中心分析(median(中心值)、mode(频率最高)、max、mean(均值)(3) 数据的伸展性分析(极差:判断用不用归一化)(方差小:说明波动小)(4) 数据的形状

3、分析(偏度)(5) 关联分析(plotmatrix)(6) 数据的分组分析(均值、最大值、最小值、异常值)5. 假设检验(卡方检验、T检验)6. 数据回归(二) 数据挖掘算法:回归算法、关联算法、聚类算法、分类、预测、异常诊断1. 回归算法:一元回归、多元回归、逐步回归、Logistic回归(1) 一元线性:LinearModel(2) 一元非线性回归:fitnlm(3) 一元多项式回归:polyfit(4) 多元线性回归:regress(要先判断因素是否和因变量线性相关)(5) 逐步回归:stepwise(6) Logistic模型(结果只有0-1,可以用于银行信用评估)fitglm2. 关

4、联算法:Apriori算法(购物篮分析、商品关联、啤酒尿布)、FP-Growth算法、相关系数法3. 聚类(1) K-meams算法(kmeans)(万能聚类)(2) 层次聚类(Clusterdata)(层次结构图)(例子:股票分池)(3) 神经网络(train)(4) 模糊C均值聚类算法(计算隶属度、类似模糊数学)(fcm)(5) 高斯混合聚类(gmdistribution.fit)(6) 聚类过程中类别个数的确定方法1. 阈值法2. 轮廓图法4. 分类:最近邻(KNN)、贝叶斯、神经网络、逻辑斯蒂(Logistic)、判断分析、支持向量机(SVM)、决策树(1) K-近邻(Classifi

5、cationKNN,fit)(2) 贝叶斯分类、朴素贝叶斯分类(求分类概率)(NaiveBayes.fit)(3) 神经网络(4) Logistic分类(glm.)(5) 判别分析(Discriminant Analysis 简称DA)(ClassificationDiscriminant.fit)(6) 支持向量机(SVM) (超平面,解决多维问题) (svmtrain)(7) 决策树(ClassificationTree.fit)(8) 分类的评价:正确率、ROC曲线(越快收敛到1越好)5. 预测算法(1) 灰色预测(递推)(特点:对数据样本数量要求不高)(2) 马尔科夫(关键:状态转移矩阵)6. 异常诊断(outlier离群点的诊断)(三) 高级算法和分类学习机

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1