多元统计分析案例具体操作Word文件下载.docx
《多元统计分析案例具体操作Word文件下载.docx》由会员分享,可在线阅读,更多相关《多元统计分析案例具体操作Word文件下载.docx(28页珍藏版)》请在冰豆网上搜索。
R
R方
调整R方
标准估计的误差
Durbin-Watson
.689a
.475
.369
3.84648
1.858
a.预测变量:
(常量),FeO含量X2,出钢量X1。
b.因变量:
效率Y
Anovab
平方和
df
均方
F
Sig.
回归
133.598
66.799
4.515
.040a
残差
147.954
14.795
总计
281.552
系数a
非标准化系数
标准系数
B
标准误差
试用版
t
(常量)
75.144
9.488
7.920
.000
.215
.075
.685
2.889
.016
-.843
.548
-.365
-1.538
.155
a.因变量:
相关性
零阶
偏
部分
-.189
-.437
-.352
.592
.675
.662
残差统计量a
极小值
极大值
均值
标准偏差
N
预测值
74.8411
88.0156
83.1462
3.33664
-5.62721
7.05607
.00000
3.51134
标准预测值
-2.489
1.459
1.000
标准残差
-1.463
1.834
.913
(3)结果分析
回归方程的回归系数:
b0=75.144,b1=0.215,b2=-0.843
拟合回归方程:
Y=0.215*X1-0.843*X2+75.144
1)回归方程的显著性检验(F检验):
检验假设:
,
不全为0,
SS总=SS回+SS残,其中F~F(m,n-m-1)
根据方差分析表(Anova),MS回=66.799,MS残=14.759,从而F=4.515,F>
F0.05(2,10)(Sig<
0.05),可知在显著性水平α=0.05,拒绝原假设H0,自变量和因变量之间存在显著性的线性关系。
2)回归方程拟合优度检验:
R2=0.475,说明高磷钢的效率变异的47.5%可由其岀钢量和FeO的含量的变化来解释。
3)对各自变量指明方程中的每一个自变量对Y的影响(即方差分析和决定系数检验整体)。
A、回归系数的显著性检验(t检验):
为偏回归系数的估计值,
是
的标准误。
H0:
服从自由度为
的t分布。
如果
,则在
=0.05水平上拒绝H0,接受H1,说明
与
有线性回归关系。
非标准化系数b1=0.215,b2=-0.843,对于b1,t1=2.889,|t1|>
t0.05/2(10),拒绝原假设,说明在给定的显著水平α=0.05下,X1对Y有显著的影响;
对于b2,t2=-1.538,t0.05/2(10)>
|t2|>
t0.1/2(10),说明在给定的显著水平α=0.05下,接受原假设,X2对Y没有显著的影响。
而在给定的显著水平α=0.1下,拒绝原假设,X2对Y有显著的影响。
说明X1对方程的贡献显著,X2的贡献不显著。
B、偏回归平方和检验
回归方程中某一自变量Xj的偏回归平方和表示模型中含有其他m-1个自变量的条件下自变量对Y的回归贡献,相当于从回归方程中提出Xj后所引起的回归平方和的减少量,或在m-1个自变量的基础上新增加Xj引起的回归平方和的增加量。
表示偏回归平方和,其值愈大说明相应的自变量愈重要。
一般情况下,m-1个自变量对Y的回归平方和由重新建立的新方程得到,而不是简单地把
从有m个自变量的方程中剔出后算得。
98.622
5.930
.033a
182.930
16.630
(常量),出钢量X1。
10.078
.408
.536a
271.474
24.679
(常量),FeO含量X2。
SS回(X1)=SS回(X1,X2)-SS回(X2)=133.598-10.078=123.52
SS回(X2)=SS回(X1,X2)-SS回(X1)=133.598-98.622=34.976
F1=123.52/(147.954/10)=8.3485,F2=34.976/(147.954/10)=2.335
F1>
F2,同样说明X1对方程的贡献大于X2
4)标准化回归系数
变量标准化是将原始数据减去相应变量的均数,然后再除以该变量的标准差。
标准化回归系数无单位,用来比较各自变量对应变量的影响大小,|Bi|越大,Xi对Y的影响越大。
此处,标准回归系数B1=0.685,B2=-0.365,|B1|>
|B2|,说明X1对Y的影响要比X2对Y的影响显著。
5)偏相关系数
偏相关系数是在排除了其他变量的影响下计算变量间的相关系数。
假设我们需要计算X和Y之间的相关性,Z代表其他所有的变量,X和Y的偏相关系数可以认为是X和Z线性回归得到的残差Rx与Y和Z线性回归得到的残差Ry之间的简单相关系数,即pearson相关系数。
ρ1,2=0.675
ρ2,1=-0.437
(4)预测值
观测值
预测值-观测值
(预测值-观测值)/观测值*100%
82.9149
0.9149
1.115731707
85.5645
1.5645
1.8625
81.891
1.891
2.36375
83.1684
-5.4316
-6.130474041
80.2388
-1.2612
-1.547484663
87.9629
4.4629
5.344790419
74.8168
1.8168
2.488767123
86.416
-1.584
-1.8
84.2983
-7.1017
-7.769912473
81.5338
0.5338
0.659012346
83.5837
5.5837
7.158589744
86.0251
-0.4749
-0.549017341
81.9249
-1.4751
-1.768705036
二、聚类分析
下表是2003年我国省会城市和计划单列市的主要经济指标:
人均GDPX1(元)、人均工业产值X2(元)、客运总量X3(万人)、货运总量X4(万吨)、地方财政预算内收入X5(亿元)、固定资产投资总额X6(亿元)、在岗职工占总人口比例X7(%)、在岗职工人均工资额X8(元)、城乡居民年底储蓄余额X9(亿元)。
试通过统计分析软件进行系统聚类分析,并比较何种方法与人们观察到的实际情况较接近。
城市
X1
X2
X3
X4
X5
X6
X7
X8
X9
北京
31886
33168
30520
30671
593
2000
37.8
25312
6441
天津
26433
43732
3507
34679
205
934
18.8
18648
1825
石家庄
15134
13159
11843
10008
49
416
9.5
12306
1044
太原
15752
15831
2975
15248
33
197
22.8
12679
660
呼和浩特
18991
11257
3508
4155
21
182
14116
255
沈阳
23268
15446
6612
14636
557
14.8
14961
1423
大连
29145
27615
11001
21081
111
407
14.7
17560
1310
长春
18630
21045
6999
10892
46
294
12.5
13870
831
哈尔滨
14825
7561
6458
9518
76
423
17.7
12451
1154
上海
46586
77083
7212
63861
899
2274
21.0
27305
6055
南京
27547
43853
16790
14805
136
794
15.4
22190
1134
杭州
32667
49823
21349
16815
150
717
11.8
24667
1466
宁波
32543
47904
24938
13797
139
555
10.9
23691
1060
合肥
10621
11714
6034
4641
36
245
8.3
13901
359
福州
22281
21310
9680
8250
67
376
15053
876
厦门
53590
93126
4441
3055
70
238
38.6
19024
397
南昌
14221
9205
5728
4454
31
210
11.0
13913
483
济南
23437
22634
5810
14354
429
16027
758
青岛
24705
35506
14666
30553
120
548
14.5
15335
908
郑州
16674
14023
10709
7847
66
373
12.7
13538
1048
武汉
21278
17083
11882
16610
623
17.4
13730
1286
长沙
8873
10609
10631
60
434
10.0
16987
705
广州
48220
55404
29751
28859
275
1089
25.1
28805
3727
深圳
191838
347519
10989
6793
291
875
69.6
31053
2199
南宁
8176
3390
7016
5893
170
13171
451
海口
16442
14553
13284
3304
99
16.5
14819
284
重庆
7190
5076
58290
32450
162
1187
6.5
12440
1897
成都
17914
9289
72793
28798
90
788
11.9
15274
1494
贵阳
11046
10350
18511
5318
40
231
15.8
12181
345
昆明
16215
11601
5126
12338
342
14255
709
西安
13140
8913
11413
9392
65
446
15.9
13505
1211
兰州
14459
17136
2209
5581
203
18.0
13489
468
西宁
7066
5605
2788
2037
10.1
14629
175
银川
11787
11013
2146
2127
134
21.9
13497
193
乌鲁木齐
22508
17137
2188
12754
41
180
26.1
16509
420
利用spss统计软件,其解答过程如下:
根据统计所得数据,此处聚类为Q型聚类,即对样本进行聚类分析,聚类方法选择系统聚类法,其基本思想是距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。
在进行系统聚类之前,首先要定义类与类之间的距离,由类间距离定义的不同产生不同的聚类方法:
最短距离法、最长距离法、中间距离法、重心法等。
此处,主要运用最短距离法、重心法和最长距离法对样本进行聚类。
以下用dij表示样品X(i)和X(j)之间的距离,当样品间的亲疏关系采用相似系数Cij时,令
以下用D(p,q)表示类Gp和Gq之间的距离。
(一)利用Matlab做系统聚类分析,主要运行步骤:
将统计数据表格导入到Matlab中,若数据集命名为data,则进行如下运算:
X=ZSCORE(data);
%标准化数据矩阵
Y=pdist(X,’metric’)%计算数据集X中两两元素的距离,metric表示使用特定的方法,有欧式距离’euclid’、马氏距离’mahal’、明可夫斯基距离‘Minkowski‘等。
D=squareform(Y)%将距离的输出向量形式定格为矩阵形式
Z=linkage(Y,’method’)%创建逐级聚类树,method表示用何种方法,默认值是欧式距离,有’complete’——最长距离法;
‘average‘——类平均距离;
’centroid‘——重心法等。
[H,T]=dendrogram(Z)%画聚类树形图
(二)不同聚类方法结果分析
(1)最短距离法聚类分析
类与类间距离定义:
Ds(p,q)=min{djk|j∈Gp,k∈Gq},等于Gp和Gq中最为邻近的两个样品之间的距离。
利用最短距离法所得的Matlab聚类树形图如下图所示:
从聚类树形图可直观的看出,当将35个样品分为两类时,深圳(24)单独作为第2类,其他城市属于第1类;
当将35个样品分为三类时,深圳(24)单独为第3类,上海(10)单独为第2类,其他城市为第1类。
2)重心法聚类分析
若样品间采用欧式距离,设某步将Gp和Gq并为Gr,它们各有np、nq和nr样品,其重心用
p、
q和
r表示,显然
r=1/nr[np
p+nq
q],某类Gk的重心为
k,它与新类Gr的距离为
当将35个样品分为三类时,深圳(24)单独为第3类,北京
(1)、上海(10)和广州(23)单独为第2类,其他城市为第1类。
结果同重心聚类法相似,这种聚类与人们实际观察到的情况相接近。
(3)最远距离聚类法
Ds(p,q)=max{djk|j∈Gp,k∈Gq},等于Gp和Gq中最远的两个样品之间的距离。
当将35个样品分为三类时,深圳(24)单独为第3类,北京
(1)、上海(10)和广州(23)单独为第2类,其他城市为第1类;
当将35个样品分为四类时,深圳(24)单独为第4类,北京
(1)、上海(10)和广州(23)单独为第3类,重庆(27)和成都(28)为第2类,其他城市为第1类;
这种聚类与人们实际观察到的情况相接近。
三、判别分析
银行的贷款部门需要判别每个客户的信用好坏(是否履行还贷责任),以决定是否给予贷款。
可以根据贷款申请人的年龄(X1)、受教育程度(X2)、现在所从事工作的年数(X3)、未变更住址的年数(X4)、收入(X5)、负债收入比例(X6)、信用卡债务(X7)、其他债务(X8)等来判别其信用情况,下表是从某银行的客户资料中抽取的部分数据,
(1)根据样本资料分别用距离判别法、贝叶斯判别法和费希尔判别法建立判别函数和判别规则。
(2)某客户的如上情况资料为(53,1,9,18,50,11.20,2.02,3.58),对其进行信用好坏的判别。
目前信用好坏
客户序列号
已履行还贷任务
23
6.60
0.34
1.71
34
17
59
8.00
1.81
2.91
42
4.60
0.94
39
19
48
13.10
1.93
4.36
35
5.00
0.40
1.30
未履行还贷任务
37
24
15.10
1.80
1.82
29
7.40
1.46
1.65
32
75
23.30
7.76
9.72
28
6.40
0.19
1.29
26
27
10.50
2.47
0.36
1、Fisher和Bayes方法在SPSS中的应用
判别分析是先根据已知类别的事物的性质(自变量),建立函数式(自变量的线性组合,及判别函数),然后对未知类别的新鲜事物进行判断以将之归入已知类别。
主要的判别方法有:
距离判别,Fisher判别,贝叶斯判别等。
在SPSS系统中,在判别分析使用时应注意以下几条:
1、首先要对原始数据进行统计检验:
在进行判别分析前,应首先检验各类的均值是不是有差异(因为判别分析要求给定的样本数据必须是差异明显的),如果检验后某两个总体的差异不显著应将两个总体合并为一个总体,再由剩下的互不相同的总体重新建立判别函数。
2、两种判别方法对总体的数据的分布要求不同:
一般来说,Fisher判别对数据分布没有特殊的要求,Bayes判别要求数据分布是多元正态分布,但在实际操作过程中,要求并不严格。
3、SPSS中的Fisher判别函数实为Bayes判别函数:
在SPSS中,选中判别分析下的“统计量”中的“函数系数”中的Fisher项,在输出结果的末尾,给出的分类函数系数表下注明的Fisher的线性判别式函数。
但是,经验证实为一般教课书中的Bayes线性判别函数。
命名出现不一致的原因是,按判别函数值最大的一组进行归类这种思想是Fisher提出来的,因此SPSS用Fisher对Bayes方法进行了命名。
并且因为Bayes判别函数只有在各个总体的样本的协方差阵相同时才是线性的,因此在得到该判别函数的系数时,对样本的协方差的估计必须是在总体协方差相等情况下的估计。
此处,将已履行还贷责任的一类的信用级别设为1,未履行还贷责任的信用级别设为2,然后判断待判客户的信用级别。
2、Fisher判别法
费希尔判别(或称典型判别)的基本思想是投影(或降维):
用p维向量x=(x1,x2,...,xp)的少数几个线性组合(称为判别式或典型变量)来代替原始的p个变量。
(一)主要运行步骤
(1)在SPSS窗口中选择分析——分类——判别,在调出的判别分析对话框中,将左边的变量列表中的“目前信用好坏(1,2)”选入分组变量中,将X1-X8变量选入自变量中,并选择“一起输入自变量”单选按钮,及使用所有自变量进行判别分析。
(2)点击定义范围按钮,定义分组变量的取值范围,此处分组变量范围为1到2,所以在最小值和最大值中分别输入1和2。
(3)单击统计量按钮,指定输出的描述统计量和判别函数系数。
在函数系数栏中选择Fisher判别函数和非标准化,在描述性栏中选择均值(对各组的各变量作均数与标准差的描述),选中矩阵栏中所有的项。
(4)单击分类按钮,定义判别分组参数和选择输出结果。
在先验概率栏中选择所有组别的事前概率值均假定相等,在输出框中选择个案结果(给出每个观察值的分类结果),在使用协方差矩阵栏中选择在组内(使用组内离差矩阵将观察值分类)。
(5)单击保存按钮,指定在数据文件中生成代表判别分组结果和判别得分的新变量,生成新变量的含义为,预测组成员:
存放判别样品所属组别的值,保存在变量dis_1中;
判别得分