05060139莫轶雯.docx
《05060139莫轶雯.docx》由会员分享,可在线阅读,更多相关《05060139莫轶雯.docx(11页珍藏版)》请在冰豆网上搜索。
05060139莫轶雯
第五章
201205060139莫轶雯
1、下表资料为25名健康人的7项生化检验结果,7项生化检验指标依次命名为X1至X7,请对该资料进行主成分分析。
X1
X2
X3
X4
X5
X6
X7
3.76
8.59
6.22
7.57
9.03
5.51
3.27
8.74
9.64
9.73
8.59
7.12
4.69
5.51
1.66
5.90
9.84
8.39
4.94
7.23
9.46
9.55
4.94
8.21
9.41
3.66
4.99
6.14
7.28
7.08
3.98
0.62
7.00
9.49
1.33
2.98
5.49
3.01
1.34
1.61
5.76
9.27
4.92
4.38
2.30
7.31
5.35
4.52
3.08
6.44
0.54
1.34
4.52
7.07
2.59
1.30
0.44
3.31
1.03
1.00
1.17
3.68
2.17
1.27
1.57
1.55
1.51
2.54
1.03
1.77
1.04
4.25
4.50
2.42
5.11
5.28
10.02
9.84
12.66
11.76
6.92
3.36
11.68
13.57
9.87
9.17
9.72
5.98
5.81
2.80
8.84
13.60
10.05
6.68
7.79
12.00
11.74
8.07
9.10
12.50
9.77
7.50
2.17
1.79
4.54
5.33
7.63
3.53
13.13
9.87
7.85
2.64
2.76
4.57
1.78
5.40
9.02
3.96
6.49
4.39
11.58
2.77
1.79
3.75
2.45
13.74
10.16
2.73
2.10
6.22
7.30
8.84
4.76
18.52
11.06
9.91
3.43
3.55
5.38
2.09
7.50
12.67
5.24
9.06
5.37
16.18
3.51
2.10
4.66
3.10
4.78
2.13
1.09
0.82
1.28
2.40
8.39
1.12
2.35
3.70
2.62
1.19
2.01
3.43
3.72
1.97
1.75
1.43
2.81
2.27
2.42
1.05
1.29
1.72
0.91
解:
利用SPSS进行主成分分析,如下:
公因子方差
初始
提取
x1
1.000
.797
x2
1.000
.773
x3
1.000
.859
x4
1.000
.980
x5
1.000
.983
x6
1.000
.976
x7
1.000
.834
提取方法:
主成份分析。
由上表可以看出除x1和x2信息损失较大外,主成分几乎包含了各个原始变量至少90%的信息。
解释的总方差
成份
初始特征值
提取平方和载入
合计
方差的%
累积%
合计
方差的%
累积%
1
3.395
48.503
48.503
3.395
48.503
48.503
2
2.806
40.090
88.593
2.806
40.090
88.593
3
.436
6.236
94.828
4
.276
3.946
98.775
5
.081
1.160
99.935
6
.004
.059
99.994
7
.000
.006
100.000
提取方法:
主成份分析。
解释的总方差表显示了各主成分解释原始变量总方差的情况,SPSS默认保留特征根大于1的主成分,在表中可以看出保留2个主成分为宜,这两个主成分集中了原始7个变量信息的88.593%,可见效果比较好。
成份矩阵a
成份
1
2
x1
.746
.489
x2
.796
.372
x3
.709
-.597
x4
.911
.389
x5
-.234
.963
x6
-.177
.972
x7
-.886
.219
提取方法:
主成份。
a.已提取了2个成份。
成分矩阵表给出了标准化原始变量用求得的主成分线性表示的近似表达式,如x1的近似表达式:
x1=0.746prin1+0.489prin2
最后将成分矩阵表中的第i列的每个元素分别除以第i个特征根的平方根,就可以得到主成分分析的第i个主成分的系数。
2、对企业经济效益指标体系的八项指标建立主成分分析模型。
数据如下表所示:
表2原始数据表格
厂家编号及指标
固定资产利税率
资金利税率
销售收入利税率
资金利润率
固定资产产值率
流动资金周转天数
万元产值能耗
全员劳动生产率
1
琉璃河
16.68
26.75
31.84
18.4
53.25
55
28.83
1.75
2
邯郸
19.7
27.56
32.94
19.2
59.82
55
32.92
2.87
3
大同
15.2
23.4
32.98
16.24
46.78
65
41.69
1.53
4
哈尔滨
7.29
8.97
21.3
4.76
34.39
62
39.28
1.63
5
华新
29.45
56.49
40.74
43.68
75.32
69
26.68
2.14
6
湘乡
32.93
42.78
47.98
33.87
66.46
50
32.87
2.6
7
柳州
25.39
37.82
36.76
27.56
68.18
63
35.79
2.43
8
峨嵋
15.05
19.49
27.21
14.21
6.13
76
35.76
1.75
9
耀县
19.82
28.78
33.41
20.17
59.25
71
39.13
1.83
10
永登
21.13
35.2
39.16
26.52
52.47
62
35.08
1.73
11
工源
16.75
28.72
29.62
19.23
55.76
58
30.08
1.52
12
抚顺
15.83
28.03
26.4
17.43
61.19
61
32.75
1.6
13
大连
16.53
29.73
32.49
20.63
50.41
69
37.57
1.31
14
江南
22.24
54.59
31.05
37
67.95
63
32.33
1.57
15
江油
12.92
20.82
25.12
12.54
51.07
66
39.18
1.83
解:
利用SPSS进行主成分分析,如下:
公因子方差
初始
提取
x1
1.000
.918
x2
1.000
.956
x3
1.000
.736
x4
1.000
.986
x5
1.000
.629
x6
1.000
.817
x7
1.000
.422
x8
1.000
.632
提取方法:
主成份分析。
由上表可以看出除x3和x5,x7,x8信息损失较大外,主成分几乎包含了各个原始变量至少90%的信息。
解释的总方差
成份
初始特征值
提取平方和载入
合计
方差的%
累积%
合计
方差的%
累积%
1
4.853
60.660
60.660
4.853
60.660
60.660
2
1.244
15.549
76.209
1.244
15.549
76.209
3
.870
10.878
87.087
4
.552
6.898
93.984
5
.357
4.463
98.447
6
.102
1.275
99.722
7
.021
.259
99.981
8
.002
.019
100.000
提取方法:
主成份分析。
解释的总方差表显示了各主成分解释原始变量总方差的情况,SPSS默认保留特征根大于1的主成分,在表中可以看出保留2个主成分为宜,这两个主成分集中了
原始8个变量信息的76.209%,可见效果一般。
成份矩阵a
成份
1
2
x1
.955
.069
x2
.901
.381
x3
.858
-.013
x4
.928
.354
x5
.790
-.073
x6
-.404
.809
x7
-.648
.040
x8
.570
-.555
提取方法:
主成份。
a.已提取了2个成份。
成分矩阵表给出了标准化原始变量用求得的主成分线性表示的近似表达式,如x1的近似表达式:
x1=0.955prin1+0.069prin2
最后将成分矩阵表中的第i列的每个元素分别除以第i个特征根的平方根,就可以得到主成分分析的第i个主成分的系数。
3、下表是40名肺癌病人的生存资料,其中X1表示生活行为能力评分(1到100);X2表示病人的年龄(年);X3表示由诊断到进入研究时间(月);X4表示肿瘤类型(“0”是鳞瘤,“1”是小型细胞癌,“2”是腺癌,“3”是大型细胞癌);X5表示两种化疗方法(“1”是常规,“0”是试验新法);Y表示病人的生存时间(“0”是生存时间短,即生存时间小于200天;“1”表示生存时间长,即生存时间大于或等于200天)
表340名肺癌病人的生存资料
序号
X1
X2
X3
X4
X5
Y
序号
X1
X2
X3
X4
X5
Y
1
70
64
5
1
1
1
21
60
37
13
1
1
0
2
60
63
9
1
1
0
22
90
54
12
1
0
1
3
70
65
11
1
1
0
23
50
52
8
1
0
1
4
40
69
10
1
1
0
24
70
50
7
1
0
1
5
40
63
58
1
1
0
25
20
65
21
1
0
0
6
70
48
9
1
1
0
26
80
52
28
1
0
1
7
70
48
11
1
1
0
27
60
70
13
1
0
0
8
80
63
4
2
1
0
28
50
40
13
1
0
0
9
60
63
14
2
1
0
29
70
36
22
2
0
0
10
30
53
4
2
1
0
30
40
44
36
2
0
0
11
80
43
12
2
1
0
31
30
54
9
2
0
0
12
40
55
2
2
1
0
32
30
59
87
2
0
0
13
60
66
25
2
1
1
33
40
69
5
3
0
0
14
40
67
23
2
1
0
34
60
50
22
3
0
0
15
20
61
19
3
1
0
35
80
62
4
3
0
0
16
50
63
4
3
1
0
36
70
68
15
0
0
0
17
50
66
16
0
1
0
37
30
39
4
0
0
0
18
40
68
12
0
1
0
38
60
49
11
0
0
0
19
80
41
12
0
1
1
39
80
64
10
0
0
1
20
70
53
8
0
1
1
40
70
67
18
0
0
1
1)用主成分回归法建立P(Y=1)对X1,
,X5的logistic回归模型,X1,
,X5对P(Y=1)的综合影响是否显著?
哪些变量是主要的影响因素,显著水平如何?
计算各病人生存时间大于等于200天的概率估计值;
2)比较主成分回归与逐步回归的差异。
解:
利用SPSS进行如下分析
1)
相关矩阵
x1
x2
x3
x4
x5
y
相关
x1
1.000
-.144
-.269
-.238
-.018
.483
x2
-.144
1.000
.040
.050
.155
-.016
x3
-.269
.040
1.000
.090
-.156
-.089
x4
-.238
.050
.090
1.000
.037
-.363
x5
-.018
.155
-.156
.037
1.000
-.145
y
.483
-.016
-.089
-.363
-.145
1.000
公因子方差
初始
提取
x1
1.000
.651
x2
1.000
.838
x3
1.000
.696
x4
1.000
.488
x5
1.000
.676
y
1.000
.729
提取方法:
主成份分析。
解释的总方差
成份
初始特征值
提取平方和载入
合计
方差的%
累积%
合计
方差的%
累积%
1
1.846
30.760
30.760
1.846
30.760
30.760
2
1.214
20.227
50.988
1.214
20.227
50.988
3
1.019
16.976
67.964
1.019
16.976
67.964
4
.783
13.051
81.015
5
.699
11.652
92.666
6
.440
7.334
100.000
提取方法:
主成份分析。
成份矩阵a
成份
1
2
3
x1
.788
.122
-.123
x2
-.231
.406
.787
x3
-.382
-.605
.430
x4
-.620
.037
-.320
x5
-.150
.809
.003
y
.787
-.113
.311
提取方法:
主成份。
a.已提取了3个成份。
用主成分回归法建立P(Y=1)对X1,
,X5的logistic回归模型为:
P(Y=1)=0.483x1-0.016x2-0.089x3-0.363x4-0.145x5
X1,
,X5对P(Y=1)的综合影响显著,x2,x3,x4,x5是主要的影响因素.
2)主成分分析主要用于鉴别、分析,主成分分析的目的是在于降维,其结果是把多个指标归约为少数的几个指标,这少数的几个指标的表现形式一般为原来指标体系中的某几个指标线性组合;逐步回归的目的是为了剔除影响不显著的指标,其结果是保留原指标体系中影响显著的几个指标。