数据分析与R语言_004资料下载.pdf

上传人:b****1 文档编号:16120515 上传时间:2022-11-20 格式:PDF 页数:22 大小:716.16KB
下载 相关 举报
数据分析与R语言_004资料下载.pdf_第1页
第1页 / 共22页
数据分析与R语言_004资料下载.pdf_第2页
第2页 / 共22页
数据分析与R语言_004资料下载.pdf_第3页
第3页 / 共22页
数据分析与R语言_004资料下载.pdf_第4页
第4页 / 共22页
数据分析与R语言_004资料下载.pdf_第5页
第5页 / 共22页
点击查看更多>>
下载资源
资源描述

数据分析与R语言_004资料下载.pdf

《数据分析与R语言_004资料下载.pdf》由会员分享,可在线阅读,更多相关《数据分析与R语言_004资料下载.pdf(22页珍藏版)》请在冰豆网上搜索。

数据分析与R语言_004资料下载.pdf

生物物种预测:

天气预报决策:

yesorno分类的传统模型分类(判别分析)与聚类有什么差别?

2DATAGURU专业数据分析网站2012.6.28常见分类模型与算法线性判别法距离判别法贝叶斯分类器决策树支持向量机(SVM)神经网络3DATAGURU专业数据分析网站2012.6.28线性判别法(Fisher)例子:

天气预报数据G=c(1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,2,2)x1=c(-1.9,-6.9,5.2,5.0,7.3,6.8,0.9,-12.5,1.5,3.8,0.2,-0.1,0.4,2.7,2.1,-4.6,-1.7,-2.6,2.6,-2.8)x2=c(3.2,0.4,2.0,2.5,0.0,12.7,-5.4,-2.5,1.3,6.8,6.2,7.5,14.6,8.3,0.8,4.3,10.9,13.1,12.8,10.0)a=data.frame(G,x1,x2)plot(x1,x2)text(x1,x2,G,adj=-0.5)4DATAGURU专业数据分析网站2012.6.28线性判别法的原理用一条直线来划分学习集(这条直线一定存在吗?

)然后根据待测点在直线的哪一边决定它的分类5DATAGURU专业数据分析网站2012.6.28MASS包与线性判别函数lda()library(MASS)ld=lda(Gx1+x2)ld6DATAGURU专业数据分析网站2012.6.28分类判断z=predict(ld)newG=z$classnewG111111211112222122222Levels:

12cbind=(G,z$x,newG)y=cbind(G,z$x,newG)y7DATAGURU专业数据分析网站2012.6.28距离判别法原理:

计算待测点与各类的距离,取最短者为其所属分类马氏距离(薛毅书p445,为什么不用欧氏距离?

),计算函数mahalanobis()8DATAGURU专业数据分析网站2012.6.28算法情形一(薛毅书p445)9DATAGURU专业数据分析网站2012.6.28算法情形二(薛毅书p447)例子(薛毅书p449)10DATAGURU专业数据分析网站2012.6.28贝叶斯分类器原理(薛毅书p455)11DATAGURU专业数据分析网站2012.6.28结果对于总体协方差矩阵相同的情形12DATAGURU专业数据分析网站2012.6.28结果对于总体协方差矩阵不同的情形13DATAGURU专业数据分析网站2012.6.28程序与例子薛毅书P457利用贝叶斯分类器判断垃圾邮件14DATAGURU专业数据分析网站2012.6.28多分类的情况多分类下的距离判别法(薛毅书p452)多分类下的贝叶斯(薛毅书p460)15DATAGURU专业数据分析网站2012.6.28决策树decisiontree什么是决策树输入:

学习集输出:

分类规则(决策树)16DATAGURU专业数据分析网站2012.6.28例子用SNS社区中不真实账号检测的例子说明如何使用ID3算法构造决策树。

为了简单起见,我们假设训练集合包含10个元素。

其中s、m和l分别表示小、中和大。

17DATAGURU专业数据分析网站2012.6.28信息增益设L、F、H和R表示日志密度、好友密度、是否使用真实头像和账号是否真实,下面计算各属性的信息增益。

18DATAGURU专业数据分析网站2012.6.28根据信息增益选择分裂属性因此日志密度的信息增益是0.276。

用同样方法得到H和F的信息增益分别为0.033和0.553。

因为F具有最大的信息增益,所以第一次分裂选择F为分裂属性,分裂后的结果如下图表示:

19DATAGURU专业数据分析网站2012.6.28递归+分而治之在上图的基础上,再递归使用这个方法计算子节点的分裂属性,最终就可以得到整个决策树。

这个方法称为ID3算法,还有其它的算法也可以产生决策树对于特征属性为连续值,可以如此使用ID3算法:

先将D中元素按照特征属性排序,则每两个相邻元素的中间点可以看做潜在分裂点,从第一个潜在分裂点开始,分裂D并计算两个集合的期望信息,具有最小期望信息的点称为这个属性的最佳分裂点,其信息期望作为此属性的信息期望。

20DATAGURU专业数据分析网站2012.6.28R语言实现决策树:

rpart扩展包以鸢尾花数据集作为算例说明iris.rp=rpart(Species.,data=iris,method=class)plot(iris.rp,uniform=T,branch=0,margin=0.1,main=“ClassificationTreenIrisSpeciesbyPetalandSepalLength)text(iris.rp,use.n=T,fancy=T,col=blue)21Rule1:

ifPetal.Length=2.45&

Petal.Width=2.45&

Petal.Width=1.75,thenitisvirginica(0/1/45)Rule3:

ifPetal.Length2.45,thenitissetosa(50/0/0)DATAGURU专业数据分析网站FAQ时间22

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > PPT模板 > 其它模板

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1