应用多元统计分析实验报告.docx
《应用多元统计分析实验报告.docx》由会员分享,可在线阅读,更多相关《应用多元统计分析实验报告.docx(81页珍藏版)》请在冰豆网上搜索。
应用多元统计分析实验报告
多元统计分析实验报告
学院名称 理学院
专业班级 应用统计学14-2
学生姓名 张艳雪
学号 2
第一章多元正态分布
1.1从某企业全部职工中随机抽取一容量为6的样本,该样本中个职工的目前工资、受教育年限、初始工资和工作经验资料如下表所示:
职工编号
目前工资
(美元)
受教育年限
(年)
初始工资
(美元)
工作经验
(月)
1
2
3
4
5
6
57000
4200
21450
21900
45000
28350
15
16
12
8
15
8
27000
18750
12000
132000
21000
12000
144
36
381
190
138
26
设职工总体的以上变量服从多元正态分布,根据样本资料利用SPSS软件求出均值向量和协方差矩阵的最大似然估计。
注1:
最大似然估计公式为:
,
;
一.SPSS操作步骤:
第一步:
利用spss建立数据集
第二步:
分析--描述统计--描述计算样本均值向量
第三步:
分析--相关--双变量计算样本协方差阵与样本相关系数
二.输出结果:
描述性统计量
均值
标准差
N
目前工资
29650.00
18763.475
6
受教育年限
12.33
3.615
6
初始工资
37125.00
46827.276
6
工作经验
152.50
129.210
6
相关性
目前工资
受教育年限
初始工资
工作经验
目前工资
Pearson相关性
1
.184
-.126
.042
显著性(双侧)
.727
.812
.937
平方与叉积的和
1760340000.000
62500.
0.000
510000.000
协方差
352068000.000
12500.
0.000
102000.000
N
6
6
6
6
受教育年限
Pearson相关性
.184
1
-.510
-.077
显著性(双侧)
.727
.302
.885
平方与叉积的和
62500.000
65.333
-431250.000
-179.000
协方差
12500.000
13.067
-86250.000
-35.800
N
6
6
6
6
初始工资
Pearson相关性
-.126
-.510
1
.114
显著性(双侧)
.812
.302
.829
平方与叉积的和
-553387500.000
-431250.
750.000
3455625.000
协方差
-110677500.000
-86250.
50.000
691125.000
N
6
6
6
6
工作经验
Pearson相关性
.042
-.077
.114
1
显著性(双侧)
.937
.885
.829
平方与叉积的和
510000.000
-179.000
3455625.000
83475.500
协方差
102000.000
-35.800
691125.000
16695.100
N
6
6
6
6
三.实验结果分析:
样本均值为
样本的协方差
如此就可以按照极大似然估计方程:
,
得出均值向量与协方差向量的最大似然估计结果。
第三章聚类分析
3.1下表是15个上市公司2001年的一些主要财务指标,使用系统聚类法和K-均值法利用SPSS软件分别对这些公司进行聚类,并对结果进行比较分析。
公司
编号
净资产收益率
每股净利润
总资产周转率
资产负债率
流动负债比率
每股净资产
净利润增长率
总资产增长率
1
11.09
0.21
0.05
96.98
70.53
1.86
-44.04
81.99
2
11.96
0.59
0.74
51.78
90.73
4.95
7.02
16.11
3
0
0.03
0.03
181.99
100
-2.98
103.33
21.18
4
11.58
0.13
0.17
46.07
92.18
1.14
6.55
-56.32
5
-6.19
-0.09
0.03
43.3
82.24
1.52
-1713.5
-3.36
6
10
0.47
0.48
68.4
86
4.7
-11.56
0.85
7
10.49
0.11
0.35
82.98
99.87
1.02
100.23
30.32
8
11.12
-1.69
0.12
132.14
100
-0.66
-4454.39
-62.75
9
3.41
0.04
0.2
67.86
98.51
1.25
-11.25
-11.43
10
1.16
0.01
0.54
43.7
100
1.03
-87.18
-7.41
11
30.22
0.16
0.4
87.36
94.88
0.53
729.41
-9.97
12
8.19
0.22
0.38
30.31
100
2.73
-12.31
-2.77
13
95.79
-5.2
0.5
252.34
99.34
-5.42
-9816.52
-46.82
14
16.55
0.35
0.93
72.31
84.05
2.14
115.95
123.41
15
-24.18
-1.16
0.79
56.26
97.8
4.81
-533.89
-27.74
一、实验原理:
1.系统聚类的基本思想是:
首先,每个样品(或变量)先聚成一类,然后,选择距离公式计算类与类之间的距离,把距离相近的样品(或变量)先聚成类,距离相远的后聚成类,该过程一直进行下去,每个样品(或变量)总能聚到合适的类中,最后,所有的样品(或变量)聚成一类。
打开SPSS软件,在数据窗口依次定义变量,并输入以上数据。
2.K-均值聚类法:
K-均值法和系统聚类法一样,都是以距离的远近亲疏为标准进行聚类的,但是两者的不同之处也是明显的:
系统聚类对不同的类数产生一系列的聚类结果,而K—均值法只能产生指定类数的聚类结果。
具体类数的确定,离不开实践经验的积累;有时也可以借助系统聚类法以一部分样品为对象进行聚类,其结果作为K—均值法确定类数的参考。
二.SPSS操作步骤:
(一)系统聚类基本操作步骤如下:
1.点击分析——分类——系统聚类,进入系统聚类对话框。
2.将净资产收益率、每股净利润、总资产周转率、资产负债率、流动负债比率、每股净资产、净利润增长率、总资产增长率8个变量选入变量框中,将公司编号选入标注个案框中。
输出框中保持默认选项,选中统计量和图。
3.统计量部分保持默认选项,点击继续按钮;点击绘制按钮,进入系统聚类-绘制对话框,选中树状图,其他部分保持默认,点击继续按钮;点击方法按钮,进入聚类分析-方法对话框,转换值框中标准化选择Z得分,其他部分保持默认选项,点击继续按钮;保存部分保持默认选项,点击继续按钮。
4.最后点击确定按钮,得系统聚类结果。
(二)K-均值法基本操作步骤如下:
1.点击分析——分类——K-均值聚类,进入K-均值聚类对话框。
2.将净资产收益率、每股净利润、总资产周转率、资产负债率、流动负债比率、每股净资产、净利润增长率、总资产增长率8个变量选入变量框中,将公司编号选入标注个案框中。
根据系统聚类的结果,聚类数改为3,其他部分保持默认选项。
3.迭代部分保持默认选项,点击继续按钮;点击保存按钮,选中聚类成员、与聚类中心的距离,点击继续按钮;选项部分中保持默认选项,点击继续。
4.最后点击确定按钮,得K-均值聚类结果。
三.输出结果:
系统聚类法:
表1案例处理汇总a,b
案例
有效
缺失
总计
N
百分比
N
百分比
N
百分比
12
100.0
0
.0
12
100.0
a.平方Euclidean距离已使用
b.平均联结(组之间)
表2聚类表
阶
群集组合
系数
首次出现阶群集
下一阶
群集1
群集2
群集1
群集2
1
6
9
363.280
0
0
2
2
2
6
1189.697
0
1
3
3
2
12
1492.532
2
0
4
4
2
4
3976.328
3
0
5
5
2
10
7995.874
4
0
7
6
7
14
9315.360
0
0
8
7
1
2
13588.434
0
5
8
8
1
7
28034.879
7
6
9
9
1
11
530499.989
8
0
10
1
.326
9
0
11
11
1
13
91730894.861
10
0
0
K均值法:
表3初始聚类中心
聚类
1
2
3
净资产收益率
95.79
11.12
30.22
每股净利润
-5.20
-1.69
.16
总资产周转率
.50
.12
.40
资产负债率
252.34
132.14
87.36
流动负债率
99.34
100.00
94.88
每股净资产
-5.42
-.66
.53
净利润增长率
-9816.52
-4454.39
729.41
总资产增长率
-46.82
-62.75
-9.97
表4迭代历史记录a
迭代
聚类中心内的更改
1
2
3
1
.000
.000
834.134
2
.000
.000
.000
a.由于聚类中心内没有改动或改动较小而达到收敛。
任何中心的最大绝对坐标更改为.000。
当前迭代为2。
初始中心间的最小距离为5184.300。
表5最终聚类中心
聚类
1
2
3
净资产收益率
95.79
11.12
6.48
每股净利润
-5.20
-1.69
.08
总资产周转率
.50
.12
.39
资产负债率
252.34
132.14
71.48
流动负债率
99.34
100.00
92.06
每股净资产
-5.42
-.66
1.90
净利润增长率
-9816.52
-4454.39
-103.94
总资产增长率
-46.82
-62.75
11.91
表6每个聚类中的案例数
聚类
1
1.000
2
1.000
3
13.000
有效
15.000
缺失
.000
四,实验结果分析:
(一)系统聚类法:
表2聚类表是对每一阶段聚类结果的反应。
图1冰状图,图2树状图,是反应样品聚类情况的图,从图中可以由分类个数得到分类情况。
如果选择分为2类,分类结果为:
13号公司单独一类,1-12号公司为一类;
如果选择分为3类,分类结果为:
{13}、{1、14}、{2、3、4、5、6、7、8、9、10、11、12、15}。
由表中数据可以发现,13号公司资产负债率最高,净利润增长率最低,1号和14号公司的主要财务指标都比较好,可以认为系统聚类根据经营情况对公司进行分类的。
(二)K均值法:
表3出始聚类中心,表示最初种类的重心,也就是种子点。
表5最终聚类中心,表示K-均值聚类之后各类的重心,可以看到,1类资产负债率高,净利润增长率低,3类各项指标值都比较好。
由数据集输出结果知分类结果为:
1类{13}、2类{8}、3类{1、2、3、4、5、6、7、9、10、11、12、14、15}。
与系统聚类的结果不完全相同,K-均值聚类将8号公司单独作为一类。
由数据表可以发现8号公司资产负债率较高,净利润增长率较低,与其他公司之间有较大差别,单独分为一类也比较符合实际。
3.2下表是2003年我国省会城市和计划单列市的主要经济指标:
人均GDP
(元)、人均工业产值
(元)、客运总量
(万人)、货运总量
(万吨)、地方财政预算内收入
(亿元)、固定资产投资总额
(亿元)、在岗职工占总人口的比例
(%)、在岗职工人均工资额
(元)、城乡居民年底储蓄余额
(亿元)。
试利用SPSS软件进行系统聚类分析,并比较何种方法与人们观察到的实际情况较接近。
城市
北京
3
52
00
37.8
25312
6441
天津
26433
43732
35
34
18.8
18648
1825
石家庄
1843
10008
49
416
9.5
12306
1044
太原
975
2.8
12679
660
呼和浩特
5
13.5
14116
255
沈阳
23268
15446
6612
14636
81
557
14.8
14961
1423
大连
29
07
14.7
17560
1310
长春
999
1
.5
13870
831
哈尔滨
14825
7561
6458
9518
76
423
17.7
12451
1154
上海
46586
77
1
899
2274
21.0
27305
6055
南京
27547
43853
1679
4
15.4
22190
1134
杭州
32667
49823
2
0
717
11.8
24667
1466
宁波
32543
47904
24938
10.9
23691
1060
合肥
1
34
4641
36
245
8.3
13901
359
福州
22281
2
0
67
376
11.8
15053
876
厦门
53590
93126
444
8.6
19024
397
南昌
14221
92
1
210
11.0
13913
483
济南
23437
22634
581
13.5
16027
758
青岛
247
6
3
4.5
15335
908
郑州
16674
14
7
66
373
12.7
13538
1048
武汉
21278
17083
1
623
17.4
13730
1286
长沙
15446
8873
1
434
10.0
16987
705
广州
4822
28859
275
1089
25.1
28805
3727
深圳
19
875
69.6
31053
2199
南宁
8176
339
170
8.3
13171
451
海口
16442
304
12
99
16.5
14819
284
重庆
719
2450
162
1187
6.5
12440
1897
成都
17914
9289
72793
28798
90
788
11.9
15274
1494
贵阳
11
1
5.8
12181
345
昆明
162
12338
60
342
14.6
14255
709
西安
4
15.9
13505
1211
兰州
14459
17
21
203
18.0
13489
468
西宁
7
2037
8
76
10.1
14629
175
银川
11787
11
2
134
21.9
13497
193
乌鲁木齐
225
6.1
16509
420
南宁
3
52
00
37.8
25312
6441
海口
26433
43732
35
34
18.8
18648
1825
资料来源:
《中国统计年鉴2004》
一、实验原理:
系统聚类的基本思想:
首先,每个样品(或变量)先聚成一类,然后,选择距离公式计算类与类之间的距离,把距离相近的样品(或变量)先聚成类,距离相远的后聚成类,该过程一直进行下去,每个样品(或变量)总能聚到合适的类中,最后,所有的样品(或变量)聚成一类。
打开SPSS软件,在数据窗口依次定义变量,并输入以上数据
二.SPSS操作步骤:
1.点击分析——分类——系统聚类,进入系统聚类对话框。
2.将x1、x2、x3、x4、x5、x6、x7、x8、x9,9个变量选入变量框中,将城市选入标注个案框中。
输出框中保持默认选项,选中统计量和图。
3.统计量部分保持默认选项,点击继续按钮;点击绘制按钮,进入系统聚类-绘制对话框,选中树状图,其他部分保持默认,点击继续按钮;点击方法按钮,进入聚类分析-方法对话框,转换值框中标准化选择Z得分,聚类方法中有7种方法可供选择,分别进行选择,其他部分保持默认选项,点击继续按钮;保存部分保持默认选项,点击继续按钮。
4.最后点击确定按钮,得系统聚类结果。
经过比较得类平均法的组间联接法的结果与人们观察到的实际情况较接近,输出结果见表1、表2,图1、图2。
三.输出结果:
表1案例处理摘要a
案例
有效
缺失
合计
N
百分比
N
百分比
N
百分比
37
100.0%
0
0.0%
37
100.0%
a.平方Euclidean距离已使用
表2聚类表
阶
群集组合
系数
首次出现阶群集
下一阶
群集1
群集2
群集1
群集2
1
2
37
.000
0
0
28
2
1
36
.000
0
0
32
3
14
17
.081
0
0
4
4
14
25
.118
3
0
11
5
8
30
.119
0
0
8
6
20
31
.142
0
0
9
7
5
32
.234
0
0
15
8
8
15
.269
5
0
13
9
9
20
.270
0
6
14
10
6
21
.280
0
0
21
11
14
33
.306
4
0
22
12
12
13
.311
0
0
19
13
8
18
.339
8
0
16
14
3
9
.409
0
9
18
15
5
34
.440
7
0
22
16
8
22
.496
13
0
18
17
26
29
.530
0
0
24
18
3
8
.610
14
16
21
19
11
12
.657
0
12
29
20
4
35
.739
0
0
26
21
3
6
.762
18
10
25
22
5
14
.792
15
11
24
23
7
19
.946
0
0
28
24
5
26
1.063
22
17
25
25
3
5
1.419
21
24
26
26
3
4
1.958
25
20
30
27
27
28
2.425
0
0
34
28
2
7
2.594
1
23
29
29
2
11
4.486
28
19
30
30
2
3
6.284
29
26
31
31
2
16
9.911
30
0
34
32
1
23
10.719
2
0
33
33
1
10
19.305
32
0
35
34
2
27
20.888
31
27
35
35
1
2
42.478
33
34
36
36
1
24
100.422
35
0
0
图1冰状图
图2树状图
四.实验结果分析:
表2聚类表是对每一阶段聚类结果的反应。
如第一行表示,第一阶段时第二个样品(天津)与第37个样品(海口)聚为一类,其他以此类推。
图1冰状图,图2树状图,是反应样品聚类情况的图,从图中可以由分类个数得到分类情况。
如果选择分为2类,分类结果为:
深圳单独一类,其他城市为一类;
如果选择分为3类,分类结果为:
1类{深圳}、2类{北京、南宁、广州、上海}、3类其他城市为一类。
由表中数据可以发现,深圳各项经济指标都比较好,且人均GDP远高于其他各城市,所以单独聚为一类,北京、南宁、广州、上海各项经济指标在全国各省份地区的平均水平之上,故聚为一类。
可以从经济发展水平来理解所做的分类,1类是经济最发达的地区,2类是经济比较发达的地区,3类是经济发展水平一般的地区。
第四章判别分析
4.1银行的贷款部门需要判别每个客户的信用好坏(是否未履行还贷责任),以决定是否给予贷款。
可以根据贷款申请人的年龄(
)、受教育程度(
)、现在所从事工作的年数(
)、未变更住址的年数(
)、收入(
)、负债收入比例(
)、信用卡债务(
)、其它债务(
)等来判断其信用情况。
下表是从某银行的客户资料中抽取的部分数据。
根据样本资料分别用距离判别法、Bayes判别法和Fisher判别法建立判别函数和判别规则;
某客户的如上情况资料为(53,1,9,18,50,11.20,2.02,3.58),对其进行信用好坏的判别。
目前信用好坏
客户序号
已履行还贷责任
1
23
1
7
2
31
6.60
0.34
1.71
2
34
1
17
3
59
8.00
1.81
2.91
3
42
2
7
23
41
4.60
0.94
.94
4
39
1
19
5
48
13.10
1.93
4.36
5
35
1
9
1
34
5.00
0.40
1.30
未履行还贷责任
6
37
1
1
3
24
15.10
1.8