多元统计.docx
《多元统计.docx》由会员分享,可在线阅读,更多相关《多元统计.docx(19页珍藏版)》请在冰豆网上搜索。
多元统计
多元统计作业
Ⅳ-1回归分析某种水泥在凝固时放出的热量y(k/g)与水泥中的3CaOAl2O3的成分(%),3CaOSiO2的成分x2(%),4CaOAl2O3Fe2O3的成分x3(%),2CaOSiO2的成分x4(%)的观测值如下表,试以y为因变量,以x1,x2,x3,x4为自变量建立多元回归方程并作显著性检验。
样本点
x1
x2
x3
x4
y
1
7
26
6
60
78.5
2
1
29
15
52
74.3
3
11
56
8
20
104.3
4
11
31
8
47
87.6
5
7
52
6
33
95.9
6
11
55
9
22
109.2
7
3
71
17
6
102.7
8
1
31
22
44
72.5
9
2
54
18
22
93.1
10
21
47
4
26
115.9
11
1
40
23
34
83.8
12
11
66
9
12
113.3
13
10
68
8
12
109.4
解:
编写程序如下:
datashuini;
inputx1-x4y@@;
cards;
72666078.5
129155274.3
1156820104.3
113184787.6
75263395.9
1155922109.2
371176102.7
131224472.5
254182293.1
2147426115.9
140233483.8
1166912113.3
1068812109.4
;
procreg;
modely=x1x2x3x4/selection=stepwise;
run;
运行结果如下:
(1)回归方程显著性检验:
AnalysisofVariance
SumofMean
SourceDFSquaresSquareFValuePr>F
Model22657.858591328.92930229.50<.0001
Error1057.904485.79045
CorrectedTotal122715.76308
由AnalysisofVariance表可知:
FValue=229.50,Pr>F远小于0.05,故回归方程的线性性及各参数的显著性检验均通过。
(2)参数显著性检验
ParameterStandard
VariableEstimateErrorTypeIISSFValuePr>F
Intercept52.577352.286173062.60416528.91<.0001
x11.468310.12130848.43186146.52<.0001
x20.662250.045851207.78227208.58<.0001
由结果可知,X1,X2均通过检验。
(3)建立线性回归方程为:
,且拟合优度达到R2=0.9787。
可知,方程拟合效果很好。
Ⅳ-2聚类分析DNA是由A,T,C,G这4种碱基按一定顺序排成的序列,长短不一,其中碱基含量的百分比不同通常能揭示该序列的一些规律,试根据下表所给出的20条DNA序列的碱基含量百分比对其20条DNA序列进行分类。
(注,计算式下面的数据需要转置)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
A
33
30
30
47
26
39
39
31
23
20
39
36
28
33
32
40
39
32
24
22
T
15
17
7
32
12
14
21
21
17
15
55
55
57
55
71
51
29
55
62
62
C
19
18
24
12
26
14
11
18
23
30
5
3
11
9
0
9
27
13
16
19
G
44
46
50
20
47
44
40
41
48
45
11
16
14
13
7
10
15
10
8
7
解:
编写代码如下:
dataex;inputatcg@@;
cards;
0.29730.13510.17120.3964
0.27030.15320.16220.4144
0.27030.06310.21620.4505
0.42340.28830.10810.1802
0.23420.10810.23420.4234
0.35140.12610.12610.3964
0.35140.18920.09910.3604
0.27930.18920.16220.3694
0.20720.15320.20720.4324
0.18180.13640.27270.4091
0.35450.50000.04550.1000
0.32730.50000.02730.1455
0.25450.51820.10000.1273
0.30000.50000.08180.1182
0.29090.645500.0636
0.36360.46360.08180.0909
0.35450.26360.24550.1364
0.29090.50000.11820.0909
0.21820.56360.14550.0727
0.20000.56360.17270.0636
;
procclustermethod=singleccc;
proctree;run;
聚类图如下,根据动态聚类图可以看出,此处20个DNA序列分成三类较为合适,具体情况如下:
观察SPRSQ,发现分三类最好
第一类:
4,17;
第二类:
1,2,3,5,6,7,8,9,10;
第三类:
11,12,13,14,15,16,18,19,20
Ⅳ-3判别分析
观测3名健康人和4名心肌梗塞病人的心电图的3项指标x、y、z所得的观测值如下表,现有一人心电图的3项指标为(400.72,49.46,2.25),请问他应属两类中的哪一类。
类
号
x
y
z
1(健康)
1
436.70
49.59
2.32
1
2
290.67
30.02
2.46
1
3
352.53
36.23
2.36
2(病人)
1
510.47
67.64
1.73
2
2
510.41
62.71
1.58
2
3
470.30
54.40
1.68
2
4
364.12
46.26
2.09
本题中已知了两个类别,并分别给出了3、4个样本。
对与新样本的的归类,我们主要在于求出已经类别的判别函数,然后基于聚类最近原则进行归类。
一.判别函数
本题基于Bayes判别法进行判别,通过SAS软件,我们求得判别函数,即
从上结果可以得出Bayes判别函数为:
健康类:
心肌梗塞类:
二.误判概率
误判概率如下:
其中上述结果中Rate所做行表示对应类的误判概率,表明误判概率为0,说明判别能力很强,说明可以利用已经建立的判别函数去进行判别。
其中Priors表示对应类的样本总数占样本总数的比例。
三.待判别样本分类结果
由SAS运行结果可知,判别分类的结果如下:
由上可知,样本值为(400.72,49.46,2.25)的样本应该判别为第一类,即这个人是属于健康人。
APPENDIX:
dataDiscrim;
inputgx1-x3@@;
cards;
1436.7049.592.32
1290.6730.022.46
1352.5336.232.36
2510.4162.711.58
2470.3054.401.68
2364.1246.262.09
;
dataex1;
inputx1-x3@@;
cards;
400.7249.462.25
;
procdiscrim
data=Discrimtestdata=ex1anovamanovasimplelisttestout=ex2;
classg;
procprintdata=ex2;
run;
Ⅳ-4主成分分析某市为全面分析机械类各企业的经济效益,选择了8个不同的利润指标,14个企业关于这8个指标的统计数据如下表,试进行主成分分析并将14个企业的经济效益进行排序。
企
业
净产值
利润率
固定资产
利润率
总产值
利润率
销售收入
利润率
产品成本
利润率
物耗利
润率
人均利
润率
流动资金
利润率
1
40.4
24.7
7.2
6.1
8.3
8.7
2.442
20.0
2
25.0
12.7
11.2
11.0
12.9
20.2
3.542
9.1
3
13.2
3.3
3.9
4.3
4.4
5.5
0.578
3.6
4
22.3
6.7
5.6
3.7
6.0
7.4
0.176
7.3
5
34.3
11.8
7.1
7.1
8.0
8.9
1.726
27.5
6
35.6
12.5
16.4
16.7
22.8
29.3
3.017
26.6
7
22.0
7.8
9.9
10.2
12.6
17.6
0.847
10.6
8
48.4
13.4
10.9
9.9
10.9
13.9
1.772
17.8
9
40.6
19.1
19.8
19.0
29.7
39.6
2.449
35.8
10
24.8
8.0
9.8
8.9
11.9
16.2
0.789
13.7
11
12.5
9.7
4.2
4.2
4.6
6.5
0.874
3.9
12
1.8
0.6
0.7
0.7
0.8
1.1
0.056
1.0
13
32.3
13.9
9.4
8.3
9.8
13.3
2.126
17.1
14
38.5
9.1
11.3
9.5
12.2
16.4
1.327
11.6
解:
编写主成分分析的程序如下:
dataex;
inputx1-x8;
cards;
40.424.77.26.18.38.72.44220.0
25.012.711.211.012.920.23.5429.1
13.23.33.94.34.45.50.5783.6
22.36.75.63.76.07.40.1767.3
34.311.87.17.18.08.91.72627.5
35.612.516.416.722.829.33.01726.6
22.07.89.910.212.617.60.84710.6
48.413.410.99.910.913.91.77217.8
40.619.119.819.029.739.62.44935.8
24.88.09.88.911.916.20.78913.7
12.59.74.24.24.66.50.8743.9
1.80.60.70.70.81.10.0561.0
32.313.99.48.39.813.32.12617.1
38.59.111.39.512.216.41.32711.6
;
procprincompout=prin;
varx1-x8;
run;
procprintdata=prin;
varprin1-prin13;
run;
根据运行结果,以累积贡献率超过90%为标准,可选择三个主成分
EigenvaluesoftheCorrelationMatrix
EigenvalueDifferenceProportionCumulative
16.136623515.094493210.76710.7671
21.042130300.606176660.13030.8973
30.435953650.215581580.05450.9518
40.220372070.068465210.02750.9794
50.151906860.143079420.01900.9984
60.008827440.005865060.00110.9995
70.002962380.001738590.00040.9998
80.001223790.00021.0000
根据特征向量可以写出主成分表达式:
根据特征向量可以写出主成分表达式:
如第一主成分可写为如下,其它类似:
由变量前的系数大小可见,第一主成分主要是反映总产值利润率、销售收入利润率和产品成本利润率的,是用来衡量企业经营状况的一个综合指标,其它可类似分析。
另外,还可进行主成分得分分析,主成分得分的结果如下:
可见,在第一主成分上得分最高的是企业9,在第二主成分上得分最高的是企业1,在第三主成分上得分最高的是企业2。
Ⅳ-5因子分析有10例患者的4项肝功能指标的观测数据如下表,试作这4项指标的因子分析并对病人进行病情分析。
患者
转氨酶量
肝大指数
硫酸锌浊度
胎甲球
1
40
2.0
5
20
2
10
1.5
5
30
3
120
3.0
13
50
4
250
4.5
18
0
5
120
3.5
9
50
6
10
1.5
12
50
7
40
1.0
19
40
8
270
4.0
13
60
9
170
3.0
9
60
10
130
2.0
30
50
解:
编写因子分析程序如下:
dataex;
inputabcd;
cards;
402.0520
101.5530
1203.01350
2504.5180
1203.5950
101.51250
401.01940
2704.01360
1703.0960
1302.03050
;
proccorrout=ex1;
procfactordata=ex1outstat=ex2method=prinpriors=onerotate=orthomaxscore;
procscoredata=exscore=ex2out=ex3;
procprint;run;
根据程序结果,按累积贡献率超过90%,选择三个公因子:
为了便于解释,旋转过后的因子模式为:
由此可写出:
,其它类似。
标准化因子得分系数如下:
由此有
,其它类似。
根据上式有因子得分结果如下:
在三个公因子上得分最高的患者依次是:
4,10,8。
Ⅳ-6典型相关分析
棉花红铃虫第一代发蛾高峰日y1、第一代累计百株卵量y2、发蛾高峰日百株卵量y3及2月下旬至3月中旬的平均气温x1(℃)、1月下旬至3月上旬的日照小时累计数的常用对数x2的16组观测数据如下表,试作气象指标x1、x2与y1、y2、y3的典型相关分析。
x1
x2
y1
y2
y3
1
9.200
2.014
186
46.3
14.3
2
9.100
2.170
169
30.7
14.0
3
8.600
2.258
171
144.6
69.3
4
10.233
2.206
171
69.2
22.7
5
5.600
2.067
181
16.0
7.3
6
5.367
2.197
171
12.3
8.0
7
6.133
2.170
174
2.7
1.3
8
8.200
2.100
172
26.3
7.9
9
8.800
1.983
186
247.1
85.2
10
7.600
2.146
176
47.7
12.7
11
9.700
2.074
176
536.
25.3
12
8.367
2.102
172
137.6
58.0
13
12.167
2.284
176
118.9
43.3
14
10.267
2.242
161
62.7
29.3
15
8.900
2.283
171
26.2
8.3
16
8.233
2.068
172
123.9
32.7
答案仅供参考
假设:
x1、x2服从二元正态分布;y1、y2、y3服从三元正态分布
与多元线性回归揭示一个变量与一组变量的相关关系不同的是,典型相关分析是用于揭示了两组多元随机变量之间的相关关系。
上题中为揭示两组随机变量x=(x1、x2)和y=(y1,y2,y3)的相关关系,采取典型相关分析。
随机变量组反映了棉花红铃虫的生长、繁殖,而随机变量组x反映了影响y的因素。
因此,我们将变量组y记为“因变量组”,记变量组为“自变量组”。
一.模型计算与统计检验
通过SAS编程,运行结果如下:
根据运行结果得到分析结果,见表1:
表1棉花红铃虫生长与影响因素的二个自变量的典型相关系数及特征值
序号
典型相关系数
标准误差
特征值
方差比率
累计方差比率
1
0.735230
0.118626
1.1766
0.7970
0.7970
2
0.480160
0.19867
0.2996
0.2030
1.0000
从表1可知,第一个典型相关系数较高,但不能确定只能提取一个典型变量。
要确定第一个典型相关变量与第二个典型相关变量之间是否显著相关,尚需要进行相关系数的F统计检验。
其结果见表2:
表2相关系数检验
序号
F值
自由度
P值
显著性
1
2.5
6
0.0535
显著
2
1.8
2
0.2075
不显著
从表2得出,第二对典型中,其相关系数是不显著的。
因此只有第一对典型变量通过检验。
为了得到产出组被典型变量的解释能力,我们需要整理冗余度分析的结果,并
得到典型变量对产出组的解释能力,见表3。
表3典型变量的解释能力
序号
产出组方差被影响组解释的比例
对产出组解释能力
产出组方差被典型变量解释比例
对影响组解释能力
影响组方差被典型变量解释比例
1
0.5406
0.4391
0.2374
0.4455
0.2408
2
0.2306
0.3725
0.0859
0.5545
0.1278
从表3可知,
1)第三列、五列可知,第一对典型变量对产出组和影响组的解释能力均明显比第二对典型变量的解释能力强。
2)从第二列可知,第一对典型变量的具有较高的解释能力,典型相关系数的平方表明,产出组中有54.06%的信息可以由相应的影响变量予以解释。
3)从第四列可知,第二对典型相关的产出组方差被典型变量解释比例仅8.59%。
且由表2知,第二对典型相关变量的相关系数未能通过F检验。
综上所述,我们选择第一对典型相关变量。
二.典型相关模型
程序运行可以得到典型相关模型结果如下:
但由上面分析知,我们只提取第一对典型变量:
(1)
三.结果分析
由
(1)式知,典型变量
中
和
的系数较大,典型变量
中
的系数较大(绝对值大小)。
即
主要由变量
所决定,典型变量
主要
和
决定。
因此,典型变量
和
的相关主要是变量
和
和
的相关。
也就是说,1月下旬至3月上旬的日照小时累计数的常用对数与棉花红铃虫第一代发蛾高峰日、第一代累计百株卵量相关。
四.程序
dataCanonical;
inputy1-y3x1-x2@@;
cards;
18646.314.39.2002.014
16930.714.09.1002.170
171144.669.38.6002.258
17169.222.710.2332.206
18116.07.35.6002.067
17112.38.05.3672.197
1742.71.36.1332.170
17226.37.98.2002.100
186247.185.28.8001.983
17647.712.77.6002.146
176536.25.39.7002.074
172137.658.08.3672.102
176118.943.312.1672.284
16162.729.310.2672.242
17126.28.38.9002.283
172123.932.78.2332.068
;
proccancorrdata=Canonicalall;
vary1-y3;
withx1-x2;
run;