多元统计.docx - 冰豆网

资源描述

多元统计.docx

《多元统计.docx》由会员分享，可在线阅读，更多相关《多元统计.docx（19页珍藏版）》请在冰豆网上搜索。

多元统计.docx

多元统计

多元统计作业

Ⅳ-1回归分析某种水泥在凝固时放出的热量y（k/g）与水泥中的3CaOAl2O3的成分（%），3CaOSiO2的成分x2（%）,4CaOAl2O3Fe2O3的成分x3（%）,2CaOSiO2的成分x4（%）的观测值如下表，试以y为因变量，以x1，x2，x3，x4为自变量建立多元回归方程并作显著性检验。

样本点

78.5

74.3

104.3

87.6

95.9

109.2

102.7

72.5

93.1

115.9

83.8

113.3

109.4

解：

编写程序如下：

datashuini;

inputx1-x4y@@;

cards;

72666078.5

129155274.3

1156820104.3

113184787.6

75263395.9

1155922109.2

371176102.7

131224472.5

254182293.1

2147426115.9

140233483.8

1166912113.3

1068812109.4

;

procreg;

modely=x1x2x3x4/selection=stepwise;

run;

运行结果如下：

（1）回归方程显著性检验：

AnalysisofVariance

SumofMean

SourceDFSquaresSquareFValuePr>F

Model22657.858591328.92930229.50<.0001

Error1057.904485.79045

CorrectedTotal122715.76308

由AnalysisofVariance表可知：

FValue=229.50，Pr>F远小于0.05，故回归方程的线性性及各参数的显著性检验均通过。

（2）参数显著性检验

ParameterStandard

VariableEstimateErrorTypeIISSFValuePr>F

Intercept52.577352.286173062.60416528.91<.0001

x11.468310.12130848.43186146.52<.0001

x20.662250.045851207.78227208.58<.0001

由结果可知，X1，X2均通过检验。

（3）建立线性回归方程为：

，且拟合优度达到R2=0.9787。

可知，方程拟合效果很好。

Ⅳ-2聚类分析DNA是由A，T，C，G这4种碱基按一定顺序排成的序列，长短不一，其中碱基含量的百分比不同通常能揭示该序列的一些规律，试根据下表所给出的20条DNA序列的碱基含量百分比对其20条DNA序列进行分类。

（注，计算式下面的数据需要转置）

解：

编写代码如下：

dataex;inputatcg@@;

cards;

0.29730.13510.17120.3964

0.27030.15320.16220.4144

0.27030.06310.21620.4505

0.42340.28830.10810.1802

0.23420.10810.23420.4234

0.35140.12610.12610.3964

0.35140.18920.09910.3604

0.27930.18920.16220.3694

0.20720.15320.20720.4324

0.18180.13640.27270.4091

0.35450.50000.04550.1000

0.32730.50000.02730.1455

0.25450.51820.10000.1273

0.30000.50000.08180.1182

0.29090.645500.0636

0.36360.46360.08180.0909

0.35450.26360.24550.1364

0.29090.50000.11820.0909

0.21820.56360.14550.0727

0.20000.56360.17270.0636

;

procclustermethod=singleccc;

proctree;run;

聚类图如下，根据动态聚类图可以看出，此处20个DNA序列分成三类较为合适，具体情况如下：

观察SPRSQ，发现分三类最好

第一类：

4，17；

第二类：

1，2，3，5，6，7，8，9，10；

第三类：

11，12，13，14，15，16，18，19，20

Ⅳ-3判别分析

观测3名健康人和4名心肌梗塞病人的心电图的3项指标x、y、z所得的观测值如下表，现有一人心电图的3项指标为（400.72，49.46，2.25），请问他应属两类中的哪一类。

类

号

1（健康）

436.70

49.59

2.32

290.67

30.02

2.46

352.53

36.23

2.36

2（病人）

510.47

67.64

1.73

510.41

62.71

1.58

470.30

54.40

1.68

364.12

46.26

2.09

本题中已知了两个类别，并分别给出了3、4个样本。

对与新样本的的归类，我们主要在于求出已经类别的判别函数，然后基于聚类最近原则进行归类。

一.判别函数

本题基于Bayes判别法进行判别，通过SAS软件，我们求得判别函数，即

从上结果可以得出Bayes判别函数为：

健康类：

心肌梗塞类：

二.误判概率

误判概率如下：

其中上述结果中Rate所做行表示对应类的误判概率，表明误判概率为0，说明判别能力很强，说明可以利用已经建立的判别函数去进行判别。

其中Priors表示对应类的样本总数占样本总数的比例。

三.待判别样本分类结果

由SAS运行结果可知，判别分类的结果如下：

由上可知，样本值为（400.72，49.46，2.25）的样本应该判别为第一类，即这个人是属于健康人。

APPENDIX：

dataDiscrim;

inputgx1-x3@@;

cards;

1436.7049.592.32

1290.6730.022.46

1352.5336.232.36

2510.4162.711.58

2470.3054.401.68

2364.1246.262.09

;

dataex1;

inputx1-x3@@;

cards;

400.7249.462.25

;

procdiscrim

data=Discrimtestdata=ex1anovamanovasimplelisttestout=ex2;

classg;

procprintdata=ex2;

run;

Ⅳ-4主成分分析某市为全面分析机械类各企业的经济效益，选择了8个不同的利润指标，14个企业关于这8个指标的统计数据如下表，试进行主成分分析并将14个企业的经济效益进行排序。

企

业

净产值

利润率

固定资产

利润率

总产值

利润率

销售收入

利润率

产品成本

利润率

物耗利

润率

人均利

润率

流动资金

利润率

40.4

24.7

7.2

6.1

8.3

8.7

2.442

20.0

25.0

12.7

11.2

11.0

12.9

20.2

3.542

9.1

13.2

3.3

3.9

4.3

4.4

5.5

0.578

3.6

22.3

6.7

5.6

3.7

6.0

7.4

0.176

7.3

34.3

11.8

7.1

8.0

8.9

1.726

27.5

35.6

12.5

16.4

16.7

22.8

29.3

3.017

26.6

22.0

7.8

9.9

10.2

12.6

17.6

0.847

10.6

48.4

13.4

10.9

9.9

10.9

13.9

1.772

17.8

40.6

19.1

19.8

19.0

29.7

39.6

2.449

35.8

24.8

8.0

9.8

8.9

11.9

16.2

0.789

13.7

12.5

9.7

4.2

4.6

6.5

0.874

3.9

1.8

0.6

0.7

0.8

1.1

0.056

1.0

32.3

13.9

9.4

8.3

9.8

13.3

2.126

17.1

38.5

9.1

11.3

9.5

12.2

16.4

1.327

11.6

解：

编写主成分分析的程序如下：

dataex;

inputx1-x8;

cards;

40.424.77.26.18.38.72.44220.0

25.012.711.211.012.920.23.5429.1

13.23.33.94.34.45.50.5783.6

22.36.75.63.76.07.40.1767.3

34.311.87.17.18.08.91.72627.5

35.612.516.416.722.829.33.01726.6

22.07.89.910.212.617.60.84710.6

48.413.410.99.910.913.91.77217.8

40.619.119.819.029.739.62.44935.8

24.88.09.88.911.916.20.78913.7

12.59.74.24.24.66.50.8743.9

1.80.60.70.70.81.10.0561.0

32.313.99.48.39.813.32.12617.1

38.59.111.39.512.216.41.32711.6

;

procprincompout=prin;

varx1-x8;

run;

procprintdata=prin;

varprin1-prin13;

run;

根据运行结果，以累积贡献率超过90%为标准，可选择三个主成分

EigenvaluesoftheCorrelationMatrix

EigenvalueDifferenceProportionCumulative

16.136623515.094493210.76710.7671

21.042130300.606176660.13030.8973

30.435953650.215581580.05450.9518

40.220372070.068465210.02750.9794

50.151906860.143079420.01900.9984

60.008827440.005865060.00110.9995

70.002962380.001738590.00040.9998

80.001223790.00021.0000

根据特征向量可以写出主成分表达式：

如第一主成分可写为如下，其它类似：

由变量前的系数大小可见，第一主成分主要是反映总产值利润率、销售收入利润率和产品成本利润率的，是用来衡量企业经营状况的一个综合指标，其它可类似分析。

另外，还可进行主成分得分分析，主成分得分的结果如下：

可见，在第一主成分上得分最高的是企业9，在第二主成分上得分最高的是企业1，在第三主成分上得分最高的是企业2。

Ⅳ-5因子分析有10例患者的4项肝功能指标的观测数据如下表，试作这4项指标的因子分析并对病人进行病情分析。

患者

转氨酶量

肝大指数

硫酸锌浊度

胎甲球

2.0

1.5

120

3.0

250

4.5

120

3.5

1.5

1.0

270

4.0

170

3.0

130

2.0

解：

编写因子分析程序如下：

dataex;

inputabcd;

cards;

402.0520

101.5530

1203.01350

2504.5180

1203.5950

101.51250

401.01940

2704.01360

1703.0960

1302.03050

;

proccorrout=ex1;

procfactordata=ex1outstat=ex2method=prinpriors=onerotate=orthomaxscore;

procscoredata=exscore=ex2out=ex3;

procprint;run;

根据程序结果，按累积贡献率超过90%，选择三个公因子：

为了便于解释，旋转过后的因子模式为：

由此可写出：

，其它类似。

标准化因子得分系数如下：

由此有

，其它类似。

根据上式有因子得分结果如下：

在三个公因子上得分最高的患者依次是：

4，10，8。

Ⅳ-6典型相关分析

棉花红铃虫第一代发蛾高峰日y1、第一代累计百株卵量y2、发蛾高峰日百株卵量y3及2月下旬至3月中旬的平均气温x1（℃）、1月下旬至3月上旬的日照小时累计数的常用对数x2的16组观测数据如下表，试作气象指标x1、x2与y1、y2、y3的典型相关分析。

9.200

2.014

186

46.3

14.3

9.100

2.170

169

30.7

14.0

8.600

2.258

171

144.6

69.3

10.233

2.206

171

69.2

22.7

5.600

2.067

181

16.0

7.3

5.367

2.197

171

12.3

8.0

6.133

2.170

174

2.7

1.3

8.200

2.100

172

26.3

7.9

8.800

1.983

186

247.1

85.2

7.600

2.146

176

47.7

12.7

9.700

2.074

176

536.

25.3

8.367

2.102

172

137.6

58.0

12.167

2.284

176

118.9

43.3

10.267

2.242

161

62.7

29.3

8.900

2.283

171

26.2

8.3

8.233

2.068

172

123.9

32.7

答案仅供参考

假设：

x1、x2服从二元正态分布；y1、y2、y3服从三元正态分布

与多元线性回归揭示一个变量与一组变量的相关关系不同的是，典型相关分析是用于揭示了两组多元随机变量之间的相关关系。

上题中为揭示两组随机变量x=（x1、x2）和y=（y1，y2，y3）的相关关系，采取典型相关分析。

随机变量组反映了棉花红铃虫的生长、繁殖，而随机变量组x反映了影响y的因素。

因此，我们将变量组y记为“因变量组”，记变量组为“自变量组”。

一.模型计算与统计检验

通过SAS编程，运行结果如下：

根据运行结果得到分析结果，见表1：

表1棉花红铃虫生长与影响因素的二个自变量的典型相关系数及特征值

序号

典型相关系数

标准误差

特征值

方差比率

累计方差比率

0.735230

0.118626

1.1766

0.7970

0.480160

0.19867

0.2996

0.2030

1.0000

从表1可知，第一个典型相关系数较高，但不能确定只能提取一个典型变量。

要确定第一个典型相关变量与第二个典型相关变量之间是否显著相关，尚需要进行相关系数的F统计检验。

其结果见表2：

表2相关系数检验

序号

F值

自由度

P值

显著性

2.5

0.0535

显著

1.8

0.2075

不显著

从表2得出，第二对典型中，其相关系数是不显著的。

因此只有第一对典型变量通过检验。

为了得到产出组被典型变量的解释能力，我们需要整理冗余度分析的结果，并

得到典型变量对产出组的解释能力，见表3。

表3典型变量的解释能力

序号

产出组方差被影响组解释的比例

对产出组解释能力

产出组方差被典型变量解释比例

对影响组解释能力

影响组方差被典型变量解释比例

0.5406

0.4391

0.2374

0.4455

0.2408

0.2306

0.3725

0.0859

0.5545

0.1278

从表3可知，

1）第三列、五列可知，第一对典型变量对产出组和影响组的解释能力均明显比第二对典型变量的解释能力强。

2）从第二列可知，第一对典型变量的具有较高的解释能力，典型相关系数的平方表明，产出组中有54.06%的信息可以由相应的影响变量予以解释。

3）从第四列可知，第二对典型相关的产出组方差被典型变量解释比例仅8.59%。

且由表2知，第二对典型相关变量的相关系数未能通过F检验。

综上所述，我们选择第一对典型相关变量。

二.典型相关模型

程序运行可以得到典型相关模型结果如下：

但由上面分析知，我们只提取第一对典型变量：

（1）

三.结果分析

由

（1）式知，典型变量

中

和

的系数较大，典型变量

中

的系数较大（绝对值大小）。

即

主要由变量

所决定，典型变量

主要

和

决定。

因此，典型变量

和

的相关主要是变量

和

的相关。

也就是说，1月下旬至3月上旬的日照小时累计数的常用对数与棉花红铃虫第一代发蛾高峰日、第一代累计百株卵量相关。

四.程序

dataCanonical;

inputy1-y3x1-x2@@;

cards;

18646.314.39.2002.014

16930.714.09.1002.170

171144.669.38.6002.258

17169.222.710.2332.206

18116.07.35.6002.067

17112.38.05.3672.197

1742.71.36.1332.170

17226.37.98.2002.100

186247.185.28.8001.983

17647.712.77.6002.146

176536.25.39.7002.074

172137.658.08.3672.102

176118.943.312.1672.284

16162.729.310.2672.242

17126.28.38.9002.283

172123.932.78.2332.068

;

proccancorrdata=Canonicalall;

vary1-y3;

withx1-x2;

run;

展开阅读全文