ImageVerifierCode 换一换
格式:DOCX , 页数:15 ,大小:67.93KB ,
资源ID:6243798      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/6243798.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(实验报告 判别分析多元统计.docx)为本站会员(b****5)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

实验报告 判别分析多元统计.docx

1、实验报告 判别分析多元统计实验报告5判别分析(设计性实验)(Discriminant analysis)实验原理:判别分析是判别样品所属类型的一种统计方法。判别分析是在已知研究对象分成若干类型(或组别)并已取得各种类型的一批已知样品的观测数目,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分类。本实验要求学生应用距离判别准则(即,对任给的一次观测,若它与第i类的重心距离最近,就认为它来自第i类),对两总体和多总体情形下分别进行判别分析。实验中需注意协方差矩阵相等时,选取线性判别函数;协方差矩阵不相等时,应选取二次判别函数。实验题目一:为了检测潜在的血友病A携带者,下表中给出了两

2、组数据:(t11a8)非携带者(1)被迫携带者(2)Groupx1x2Groupx1x21-0.0056-0.16572-0.34780.11511-0.1698-0.15852-0.3618-0.20081-0.3469-0.18792-0.4986-0.0861-0.08940.00642-0.5015-0.29841-0.16790.07132-0.13260.00971-0.08360.01062-0.6911-0.3391-0.1979-0.00052-0.36080.12371-0.07620.03922-0.4535-0.16821-0.1913-0.21232-0.3479-0

3、.17211-0.1092-0.1192-0.35390.07221-0.5268-0.47732-0.4719-0.10791-0.08420.02482-0.361-0.03991-0.0225-0.0582-0.32260.16710.00840.07822-0.4319-0.06871-0.1827-0.11382-0.2734-0.00210.12370.2142-0.55730.05481-0.4702-0.30992-0.3755-0.18651-0.1519-0.06862-0.495-0.015310.0006-0.11532-0.5107-0.24831-0.2015-0.

4、04982-0.16520.21321-0.1932-0.22932-0.2447-0.040710.15070.09332-0.4232-0.09981-0.1259-0.06692-0.23750.28761-0.1551-0.12322-0.22050.00461-0.1952-0.10072-0.2154-0.021910.02910.04422-0.34470.00971-0.228-0.1712-0.254-0.05731-0.0997-0.07332-0.3778-0.26821-0.1972-0.06072-0.4046-0.11621-0.0867-0.0562-0.0639

5、0.15692-0.3351-0.13682-0.01490.15392-0.03120.142-0.174-0.07762-0.14160.16422-0.15080.11372-0.09640.05312-0.26420.08672-0.02340.08042-0.33520.08752-0.18780.2512-0.17440.18922-0.4055-0.24182-0.24440.16142-0.47840.0282其中x1log10(AHF activity),x2log10(AHF antigen)。下表给出了五个新的观测,试对这些观测判别归类;(t11b8)观测x1x21-.1

6、12-0.2792-.059-0.0683.0640.0124-.043-0.0525-.050-0.098实验要求:(1)分别检验两组数据是否大致满足二元正态性;(2)分别计算两组数据的协方差矩阵,是否可以认为两者近似相等?(3)对训练样本和新观测合并作散点图,不同的类用不同颜色标识;(4)用lda函数做判别分析,即在协方差矩阵相等的情形下作判别分析;(5)用qda函数做判别分析,即在协方差矩阵不相等的情形下作判别分析;(6)比较方法(4)和方法(5)的误判率。实验题目二:某商学研究生院的招生官员利用指标大学期间平均成绩GPA和研究生管理能力考试GMAT的成绩,将申请者分为三类:接受,不接受

7、,待定。下表中给出了三类申请者的GPA与GMAT成绩:(t11a6)GPA(x1)GMAT(x2)接受GPA(x1)GMAT(x2)不接受GPA(x1)GMAT(x2)待定2.9659612.5444622.8649433.1447312.4342522.8549633.2248212.247423.1441933.2952712.3653123.2837133.6950512.5754222.8944733.4669312.3540623.1531333.0362612.5141223.540233.1966312.5145822.8948533.6344712.3639922.844433

8、.5958812.3648223.1341633.356312.6642023.0147133.455312.6841422.7949033.557212.4853322.8943133.7859112.4650922.9144633.4469212.6350422.7554633.4852812.4433622.7346733.4755212.1340823.1246333.3552012.4146923.0844033.3954312.5553823.0341933.2852312.315052350933.2153012.4148923.0343833.5856412.1941123.0

9、539933.3356512.3532122.8548333.443112.639423.0145333.3860512.5552823.0341433.2666412.7239923.0444633.660912.8538123.3755912.938423.852113.7664613.244671实验要求:(1)对上表中的数据作散点图,不同的类用不同的颜色标识;(2)用lda函数做判别分析,即在协方差矩阵相等的情形下作判别分析;(3)用qda函数做判别分析,即在协方差矩阵不相等的情形下作判别分析;(4)比较方法(2)和方法(3)的误判率;(5)现有一新申请者的GPA为3.21,GMAT成

10、绩为497。请将该观测在(1)的散点图中标出,并分别用方法(2)和方法(3)将其归类?你认为哪一种方法更合适?(6)观察(1)的散点图中第三类的观测点有无异常值?若有,将该异常值剔除后再对新申请者判别归类,结果有无变化?实验题目一分析报告:(1)分别检验两组数据是否大致满足二元正态性; data1=read.csv(D:/data1.csv,head=T) data2=read.csv(D:/data2.csv,head=T) data1=data1,-1 data11=as.matrix(data1) shapiro.test(data11) Shapiro-Wilk normality t

11、estdata: data11W = 0.95354, p-value = 0.02291非携带者数据满足二元正态分布 data2=data2,-1 data22=as.matrix(data2) shapiro.test(data22) Shapiro-Wilk normality testdata: data22W = 0.98453, p-value = 0.3643被迫携带者数据不满足二元正态分布(2)分别计算两组数据的协方差矩阵,是否可以认为两者近似相等? cov.data1=cov(data11) cov.data2=cov(data22) cov.data1整理得:0.021 0

12、.016 0.016 0.018 cov.data2整理得:0.024 0.015 0.015 0.024 以下对矩阵的相似性进行检验: qr(cov.data1)$rank #计算矩阵的秩1 2 qr(cov.data2)$rank1 2 det(cov.data1) #计算矩阵的行列式的值1 0.0001337663 det(cov.data2)1 0.0003352181 eigen(cov.data1) #计算矩阵的特征值eigen() decomposition$values1 0.034994850 0.003822458$vectors ,1 ,21, -0.7401041 0.

13、67249242, -0.6724924 -0.7401041 eigen(cov.data2)eigen() decomposition$values1 0.039286110 0.008532738$vectors ,1 ,21, 0.7042124 -0.70998942, 0.7099894 0.7042124由于两个协方差矩阵的秩相同,行列式的值和特征值相差很小,可以认为两者近似相等。(3)对训练样本和新观测合并作散点图,不同的类用不同颜色标识;用lda和qda判别新观测数据的的类: data3=read.csv(D:/data3.csv,head=T) predict(data.l

14、da,newdata = data3,-1)$class1 1 1 1 1 1Levels: 1 2 predict(data.qda,newdata = data3,-1)$class1 1 1 1 1 1Levels: 1 2两种方法判别结果相同,即所有都是非携带者。 data4=read.csv(D:/data4.csv,head=T)#data4是训练样本和新观测合并的数据 library(car) scatterplotMatrix(x1+x2|Group, data=data4, smooth=FALSE, reg.line=FALSE,ellipse=TRUE, levels=0

15、.95, by.groups=TRUE, diagonal=none)(4)用lda函数做判别分析,即在协方差矩阵相等的情形下作判别分析; data=read.csv(D:/data.csv,head=T) data.n=read.csv(D:/data3.csv,head=T) data.n=data.n,-1 library(MASS) data.lda=lda(data,-1,factor(data$Group) #lda函数 data.ldaCall:lda(data, -1, factor(data$Group)Prior probabilities of groups: 1 2 0

16、.4 0.6 Group means:x1x21 -0.135 -0.078 2 -0.308 -0.006 Coefficients of linear discriminants:LD1x1-9.033 x28.007 z2=predict(data.lda,dim=1)$class table(z2)z2 1 2 33 42 c(3)/c(75)1 0.04误判率为0.04(5)用qda函数做判别分析,即在协方差矩阵不相等的情形下作判别分析; data.qda=qda(data,-1,factor(data$Group) #qda函数 data.qdaCall:qda(data, -1,

17、 factor(data$Group)Prior probabilities of groups: 1 2 0.4 0.6 Group means: x1 x21 -0.1348700 -0.0778566672 -0.3079467 -0.005991111 q2=predict(data.qda,dim=1)$class table(q2)q2 1 2 31 44 c(1)/c(75)1 0.01333333误判率约为0.013(6)比较方法(4)和方法(5)的误判率。此题中qda方法的误判率更低。实验题目二分析报告:(1)对上表中的数据作散点图,不同的类用不同的颜色标识; data=re

18、ad.csv(D:/data.csv,head=T) head(data) GPA GMAT accept1 2.96 596 12 3.14 473 13 3.22 482 14 3.29 527 15 3.69 505 16 3.46 693 1 library(car) scatterplotMatrix(GPA+GMAT|accept, data=data, smooth=FALSE, reg.line=FALSE,ellipse=TRUE, levels=0.95, by.groups=TRUE, diagonal=none)(2)用lda函数做判别分析,即在协方差矩阵相等的情形下作

19、判别分析;先计算原数据的各种类个数: sum(data$accept=1)1 31 sum(data$accept=2)1 28 sum(data$accept=3)1 26 library(MASS) data.lda=lda(data,-3,factor(data$accept) data.ldaCall:lda(data, -3, factor(data$accept)Prior probabilities of groups: 1 2 3 0.3647059 0.3294118 0.3058824 Group means:GPAGMAT13.404 561.226 22.483 447

20、.071 32.993 446.231 Coefficients of linear discriminants:LD1LD2GPA-5.009 1.877 GMAT-0.009 -0.014 Proportion of trace: LD1 LD2 0.9673 0.0327 z2=predict(data.lda,dim=1)$class table(z2)z2 1 2 3 28 27 30 (3)用qda函数做判别分析,即在协方差矩阵不相等的情形下作判别分析; data.qda=qda(data,-3,factor(data$accept) data.qdaCall:qda(data,

21、-3, factor(data$accept)Prior probabilities of groups: 1 2 3 0.3647059 0.3294118 0.3058824 Group means:GPAGMAT13.404 561.226 22.483 447.071 32.993 446.231 q2=predict(data.qda,dim=1)$class table(q2)q2 1 2 3 31 27 27 (4)比较方法(2)和方法(3)的误判率; c(4)/c(85)1 0.04705882Lda方法的误判率约为0.05 c(1)/c(85)1 0.01176471qda方法的误判率约为0.01此题中qda的误判率较低(5)现有一新申请者的GPA为3.21,GMAT成绩为497。请将该观测在(1)的散点图中标出,并分别用方法(2)和方法(3)将其归类?你认为哪一种方法更合适?(6)观察(1)的散点图中第三类的观测点有无异常值?若有,将该异常值剔除后再对新申请者判别归类,结果有无变化?

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1