实验报告 判别分析多元统计Word文件下载.docx
《实验报告 判别分析多元统计Word文件下载.docx》由会员分享,可在线阅读,更多相关《实验报告 判别分析多元统计Word文件下载.docx(15页珍藏版)》请在冰豆网上搜索。
-0.1682
-0.1913
-0.2123
-0.3479
-0.1721
-0.1092
-0.119
-0.3539
0.0722
-0.5268
-0.4773
-0.4719
-0.1079
-0.0842
0.0248
-0.361
-0.0399
-0.0225
-0.058
-0.3226
0.167
0.0084
0.0782
-0.4319
-0.0687
-0.1827
-0.1138
-0.2734
-0.002
0.214
-0.5573
0.0548
-0.4702
-0.3099
-0.3755
-0.1865
-0.1519
-0.0686
-0.495
-0.0153
0.0006
-0.1153
-0.5107
-0.2483
-0.2015
-0.0498
-0.1652
0.2132
-0.1932
-0.2293
-0.2447
-0.0407
0.1507
0.0933
-0.4232
-0.0998
-0.1259
-0.0669
-0.2375
0.2876
-0.1551
-0.1232
-0.2205
0.0046
-0.1952
-0.1007
-0.2154
-0.0219
0.0291
0.0442
-0.3447
-0.228
-0.171
-0.254
-0.0573
-0.0997
-0.0733
-0.3778
-0.2682
-0.1972
-0.0607
-0.4046
-0.1162
-0.0867
-0.056
-0.0639
0.1569
-0.3351
-0.1368
-0.0149
0.1539
-0.0312
0.14
-0.174
-0.0776
-0.1416
0.1642
-0.1508
0.1137
-0.0964
0.0531
-0.2642
0.0867
-0.0234
0.0804
-0.3352
0.0875
-0.1878
0.251
-0.1744
0.1892
-0.4055
-0.2418
-0.2444
0.1614
-0.4784
0.0282
其中x1=log10(AHFactivity),x2=log10(AHFantigen)。
下表给出了五个新的观测,试对这些观测判别归类;
(t11b8)
观测
-.112
-0.279
-.059
-0.068
3
.064
0.012
4
-.043
-0.052
5
-.050
-0.098
实验要求:
(1)分别检验两组数据是否大致满足二元正态性;
(2)分别计算两组数据的协方差矩阵,是否可以认为两者近似相等?
(3)对训练样本和新观测合并作散点图,不同的类用不同颜色标识;
(4)用lda函数做判别分析,即在协方差矩阵相等的情形下作判别分析;
(5)用qda函数做判别分析,即在协方差矩阵不相等的情形下作判别分析;
(6)比较方法(4)和方法(5)的误判率。
实验题目二:
某商学研究生院的招生官员利用指标――大学期间平均成绩GPA和研究生管理能力考试GMAT的成绩,将申请者分为三类:
接受,不接受,待定。
下表中给出了三类申请者的GPA与GMAT成绩:
(t11a6)
GPA(x1)
GMAT(x2)
接受
不接受
待定
2.96
596
2.54
446
2.86
494
3.14
473
2.43
425
2.85
496
3.22
482
2.2
474
419
3.29
527
2.36
531
3.28
371
3.69
505
2.57
542
2.89
447
3.46
693
2.35
406
3.15
313
3.03
626
2.51
412
3.5
402
3.19
663
458
485
3.63
399
2.8
444
3.59
588
3.13
416
3.3
563
2.66
420
3.01
471
3.4
553
2.68
414
2.79
490
572
2.48
533
431
3.78
591
2.46
509
2.91
3.44
692
2.63
504
2.75
546
3.48
528
2.44
336
2.73
467
3.47
552
2.13
408
3.12
463
3.35
520
2.41
469
3.08
440
3.39
543
2.55
538
523
2.31
3.21
530
489
438
3.58
564
2.19
411
3.05
3.33
565
321
483
2.6
394
453
3.38
605
3.26
664
2.72
3.04
3.6
609
381
3.37
559
2.9
384
3.8
521
3.76
646
3.24
(1)对上表中的数据作散点图,不同的类用不同的颜色标识;
(2)用lda函数做判别分析,即在协方差矩阵相等的情形下作判别分析;
(3)用qda函数做判别分析,即在协方差矩阵不相等的情形下作判别分析;
(4)比较方法
(2)和方法(3)的误判率;
(5)现有一新申请者的GPA为3.21,GMAT成绩为497。
请将该观测在
(1)的散点图中标出,并分别用方法
(2)和方法(3)将其归类?
你认为哪一种方法更合适?
(6)观察
(1)的散点图中第三类的观测点有无异常值?
若有,将该异常值剔除后再对新申请者判别归类,结果有无变化?
实验题目一分析报告:
>
data1=read.csv("
D:
/data1.csv"
head=T)
data2=read.csv("
/data2.csv"
data1=data1[,-1]
data11=as.matrix(data1)
shapiro.test(data11)
Shapiro-Wilknormalitytest
data:
data11
W=0.95354,p-value=0.02291
非携带者数据满足二元正态分布
data2=data2[,-1]
data22=as.matrix(data2)
shapiro.test(data22)
data22
W=0.98453,p-value=0.3643
被迫携带者数据不满足二元正态分布
cov.data1=cov(data11)
cov.data2=cov(data22)
cov.data1
整理得:
0.021
0.016
0.018
cov.data2
0.024
0.015
以下对矩阵的相似性进行检验:
qr(cov.data1)$rank#计算矩阵的秩
[1]2
qr(cov.data2)$rank
det(cov.data1)#计算矩阵的行列式的值
[1]0.0001337663
det(cov.data2)
[1]0.0003352181
eigen(cov.data1)#计算矩阵的特征值
eigen()decomposition
$`values`
[1]0.0349948500.003822458
$vectors
[,1][,2]
[1,]-0.74010410.6724924
[2,]-0.6724924-0.7401041
eigen(cov.data2)
[1]0.0392861100.008532738
[1,]0.7042124-0.7099894
[2,]0.70998940.7042124
由于两个协方差矩阵的秩相同,行列式的值和特征值相差很小,可以认为两者近似相等。
用lda和qda判别新观测数据的的类:
data3=read.csv("
/data3.csv"
predict(data.lda,newdata=data3[,-1])$class
[1]11111
Levels:
12
predict(data.qda,newdata=data3[,-1])$class
两种方法判别结果相同,即所有都是非携带者。
data4=read.csv("
/data4.csv"
#data4是训练样本和新观测合并的数据
library(car)
scatterplotMatrix(~x1+x2|Group,data=data4,smooth=FALSE,reg.line=FALSE,ellipse=TRUE,levels=0.95,by.groups=TRUE,diagonal="
none"
)
data=read.csv("
/data.csv"
data.n=read.csv("
data.n=data.n[,-1]
library(MASS)
data.lda=lda(data[,-1],factor(data$Group))#lda函数
data.lda
Call:
lda(data[,-1],factor(data$Group))
Priorprobabilitiesofgroups:
12
0.40.6
Groupmeans:
1
-0.135
-0.078
2
-0.308
-0.006
Coefficientsoflineardiscriminants:
LD1
-9.033
8.007
z2=predict(data.lda,dim=1)$class
table(z2)
z2
3342
c(3)/c(75)
[1]0.04
误判率为0.04
data.qda=qda(data[,-1],factor(data$Group))#qda函数
data.qda
qda(data[,-1],factor(data$Group))
x1x2
1-0.1348700-0.077856667
2-0.3079467-0.005991111
q2=predict(data.qda,dim=1)$class
table(q2)
q2
3144
c
(1)/c(75)
[1]0.01333333
误判率约为0.013
此题中qda方法的误判率更低。
实验题目二分析报告:
head(data)
GPAGMATaccept
12.965961
23.144731
33.224821
43.295271
53.695051
63.466931
scatterplotMatrix(~GPA+GMAT|accept,data=data,smooth=FALSE,reg.line=FALSE,ellipse=TRUE,levels=0.95,by.groups=TRUE,diagonal="
先计算原数据的各种类个数:
sum(data$accept==1)
[1]31
sum(data$accept==2)
[1]28
sum(data$accept==3)
[1]26
data.lda=lda(data[,-3],factor(data$accept))
lda(data[,-3],factor(data$accept))
123
0.36470590.32941180.3058824
GPA
GMAT
3.404
561.226
2.483
447.071
2.993
446.231
LD2
-5.009
1.877
-0.009
-0.014
Proportionoftrace:
LD1LD2
0.96730.0327
282730
data.qda=qda(data[,-3],factor(data$accept))
qda(data[,-3],factor(data$accept))
312727
c(4)/c(85)
[1]0.04705882
Lda方法的误判率约为0.05
c
(1)/c(85)
[1]0.01176471
qda方法的误判率约为0.01
此题中qda的误判率较低