应用多元统计分析实验报告.docx

资源描述

应用多元统计分析实验报告.docx

《应用多元统计分析实验报告.docx》由会员分享，可在线阅读，更多相关《应用多元统计分析实验报告.docx（81页珍藏版）》请在冰豆网上搜索。

应用多元统计分析实验报告.docx

应用多元统计分析实验报告

多元统计分析实验报告

学院名称　理学院

　　　　　专业班级　　应用统计学14-2

　　　　　学生姓名　张艳雪

　　　　　学号　2

第一章多元正态分布

1.1从某企业全部职工中随机抽取一容量为6的样本，该样本中个职工的目前工资、受教育年限、初始工资和工作经验资料如下表所示：

职工编号

目前工资

（美元）

受教育年限

（年）

初始工资

（美元）

工作经验

（月）

57000

4200

21450

21900

45000

28350

27000

18750

12000

132000

21000

12000

144

381

190

138

设职工总体的以上变量服从多元正态分布，根据样本资料利用SPSS软件求出均值向量和协方差矩阵的最大似然估计。

注1：

最大似然估计公式为：

，

；

一．SPSS操作步骤：

第一步：

利用spss建立数据集

第二步：

分析--描述统计--描述计算样本均值向量

第三步：

分析--相关--双变量计算样本协方差阵与样本相关系数

二．输出结果：

描述性统计量

均值

标准差

目前工资

29650.00

18763.475

受教育年限

12.33

3.615

初始工资

37125.00

46827.276

工作经验

152.50

129.210

相关性

目前工资

受教育年限

初始工资

工作经验

目前工资

Pearson相关性

.184

-.126

.042

显著性（双侧）

.727

.812

.937

平方与叉积的和

1760340000.000

62500.

0.000

510000.000

协方差

352068000.000

12500.

0.000

102000.000

受教育年限

Pearson相关性

.184

-.510

-.077

显著性（双侧）

.727

.302

.885

平方与叉积的和

62500.000

65.333

-431250.000

-179.000

协方差

12500.000

13.067

-86250.000

-35.800

初始工资

Pearson相关性

-.126

-.510

.114

显著性（双侧）

.812

.302

.829

平方与叉积的和

-553387500.000

-431250.

750.000

3455625.000

协方差

-110677500.000

-86250.

50.000

691125.000

工作经验

Pearson相关性

.042

-.077

.114

显著性（双侧）

.937

.885

.829

平方与叉积的和

510000.000

-179.000

3455625.000

83475.500

协方差

102000.000

-35.800

691125.000

16695.100

三．实验结果分析：

样本均值为

样本的协方差

如此就可以按照极大似然估计方程：

，

得出均值向量与协方差向量的最大似然估计结果。

第三章聚类分析

3.1下表是15个上市公司2001年的一些主要财务指标，使用系统聚类法和K－均值法利用SPSS软件分别对这些公司进行聚类，并对结果进行比较分析。

公司

编号

净资产收益率

每股净利润

总资产周转率

资产负债率

流动负债比率

每股净资产

净利润增长率

总资产增长率

11.09

0.21

0.05

96.98

70.53

1.86

-44.04

81.99

11.96

0.59

0.74

51.78

90.73

4.95

7.02

16.11

0.03

181.99

100

-2.98

103.33

21.18

11.58

0.13

0.17

46.07

92.18

1.14

6.55

-56.32

-6.19

-0.09

0.03

43.3

82.24

1.52

-1713.5

-3.36

0.47

0.48

68.4

4.7

-11.56

0.85

10.49

0.11

0.35

82.98

99.87

1.02

100.23

30.32

11.12

-1.69

0.12

132.14

100

-0.66

-4454.39

-62.75

3.41

0.04

0.2

67.86

98.51

1.25

-11.25

-11.43

1.16

0.01

0.54

43.7

100

1.03

-87.18

-7.41

30.22

0.16

0.4

87.36

94.88

0.53

729.41

-9.97

8.19

0.22

0.38

30.31

100

2.73

-12.31

-2.77

95.79

-5.2

0.5

252.34

99.34

-5.42

-9816.52

-46.82

16.55

0.35

0.93

72.31

84.05

2.14

115.95

123.41

-24.18

-1.16

0.79

56.26

97.8

4.81

-533.89

-27.74

一、实验原理:

1.系统聚类的基本思想是：

首先，每个样品（或变量）先聚成一类，然后，选择距离公式计算类与类之间的距离，把距离相近的样品（或变量）先聚成类，距离相远的后聚成类，该过程一直进行下去，每个样品（或变量）总能聚到合适的类中，最后，所有的样品（或变量）聚成一类。

打开SPSS软件，在数据窗口依次定义变量，并输入以上数据。

2.K-均值聚类法:

K-均值法和系统聚类法一样，都是以距离的远近亲疏为标准进行聚类的，但是两者的不同之处也是明显的：

系统聚类对不同的类数产生一系列的聚类结果，而K—均值法只能产生指定类数的聚类结果。

具体类数的确定，离不开实践经验的积累；有时也可以借助系统聚类法以一部分样品为对象进行聚类，其结果作为K—均值法确定类数的参考。

二．SPSS操作步骤：

（一）系统聚类基本操作步骤如下：

1.点击分析——分类——系统聚类，进入系统聚类对话框。

2.将净资产收益率、每股净利润、总资产周转率、资产负债率、流动负债比率、每股净资产、净利润增长率、总资产增长率8个变量选入变量框中，将公司编号选入标注个案框中。

输出框中保持默认选项，选中统计量和图。

3.统计量部分保持默认选项，点击继续按钮；点击绘制按钮，进入系统聚类-绘制对话框，选中树状图，其他部分保持默认，点击继续按钮；点击方法按钮，进入聚类分析-方法对话框，转换值框中标准化选择Z得分，其他部分保持默认选项，点击继续按钮；保存部分保持默认选项，点击继续按钮。

4.最后点击确定按钮，得系统聚类结果。

（二）K-均值法基本操作步骤如下：

1.点击分析——分类——K-均值聚类，进入K-均值聚类对话框。

根据系统聚类的结果，聚类数改为3，其他部分保持默认选项。

3.迭代部分保持默认选项，点击继续按钮；点击保存按钮，选中聚类成员、与聚类中心的距离，点击继续按钮；选项部分中保持默认选项，点击继续。

4.最后点击确定按钮，得K-均值聚类结果。

三．输出结果：

系统聚类法：

表1案例处理汇总a,b

案例

有效

缺失

总计

百分比

100.0

a.平方Euclidean距离已使用

b.平均联结（组之间）

表2聚类表

阶

群集组合

系数

首次出现阶群集

下一阶

群集1

群集2

群集1

群集2

363.280

1189.697

1492.532

3976.328

7995.874

9315.360

13588.434

28034.879

530499.989

.326

91730894.861

K均值法：

表3初始聚类中心

聚类

净资产收益率

95.79

11.12

30.22

每股净利润

-5.20

-1.69

.16

总资产周转率

.50

.12

.40

资产负债率

252.34

132.14

87.36

流动负债率

99.34

100.00

94.88

每股净资产

-5.42

-.66

.53

净利润增长率

-9816.52

-4454.39

729.41

总资产增长率

-46.82

-62.75

-9.97

表4迭代历史记录a

迭代

聚类中心内的更改

.000

834.134

.000

a.由于聚类中心内没有改动或改动较小而达到收敛。

任何中心的最大绝对坐标更改为.000。

当前迭代为2。

初始中心间的最小距离为5184.300。

表5最终聚类中心

聚类

净资产收益率

95.79

11.12

6.48

每股净利润

-5.20

-1.69

.08

总资产周转率

.50

.12

.39

资产负债率

252.34

132.14

71.48

流动负债率

99.34

100.00

92.06

每股净资产

-5.42

-.66

1.90

净利润增长率

-9816.52

-4454.39

-103.94

总资产增长率

-46.82

-62.75

11.91

表6每个聚类中的案例数

聚类

1.000

13.000

有效

15.000

缺失

.000

四，实验结果分析：

（一）系统聚类法：

表2聚类表是对每一阶段聚类结果的反应。

图1冰状图，图2树状图，是反应样品聚类情况的图，从图中可以由分类个数得到分类情况。

如果选择分为2类，分类结果为：

13号公司单独一类，1-12号公司为一类；

如果选择分为3类，分类结果为：

{13}、{1、14}、{2、3、4、5、6、7、8、9、10、11、12、15}。

由表中数据可以发现，13号公司资产负债率最高，净利润增长率最低，1号和14号公司的主要财务指标都比较好，可以认为系统聚类根据经营情况对公司进行分类的。

（二）K均值法：

表3出始聚类中心，表示最初种类的重心，也就是种子点。

表5最终聚类中心，表示K-均值聚类之后各类的重心，可以看到，1类资产负债率高，净利润增长率低，3类各项指标值都比较好。

由数据集输出结果知分类结果为：

1类{13}、2类{8}、3类{1、2、3、4、5、6、7、9、10、11、12、14、15}。

与系统聚类的结果不完全相同，K-均值聚类将8号公司单独作为一类。

由数据表可以发现8号公司资产负债率较高，净利润增长率较低，与其他公司之间有较大差别，单独分为一类也比较符合实际。

3.2下表是2003年我国省会城市和计划单列市的主要经济指标：

人均GDP

（元）、人均工业产值

（元）、客运总量

（万人）、货运总量

（万吨）、地方财政预算内收入

（亿元）、固定资产投资总额

（亿元）、在岗职工占总人口的比例

（％）、在岗职工人均工资额

（元）、城乡居民年底储蓄余额

（亿元）。

试利用SPSS软件进行系统聚类分析，并比较何种方法与人们观察到的实际情况较接近。

城市

北京

37.8

25312

6441

天津

26433

43732

18.8

18648

1825

石家庄

1843

10008

416

9.5

12306

1044

太原

975

2.8

12679

660

呼和浩特

13.5

14116

255

沈阳

23268

15446

6612

14636

557

14.8

14961

1423

大连

14.7

17560

1310

长春

999

13870

831

哈尔滨

14825

7561

6458

9518

423

17.7

12451

1154

上海

46586

899

2274

21.0

27305

6055

南京

27547

43853

1679

15.4

22190

1134

杭州

32667

49823

717

11.8

24667

1466

宁波

32543

47904

24938

10.9

23691

1060

合肥

4641

245

8.3

13901

359

福州

22281

376

11.8

15053

876

厦门

53590

93126

444

8.6

19024

397

南昌

14221

210

11.0

13913

483

济南

23437

22634

581

13.5

16027

758

青岛

247

4.5

15335

908

郑州

16674

373

12.7

13538

1048

武汉

21278

17083

623

17.4

13730

1286

长沙

15446

8873

434

10.0

16987

705

广州

4822

28859

275

1089

25.1

28805

3727

深圳

875

69.6

31053

2199

南宁

8176

339

170

8.3

13171

451

海口

16442

304

16.5

14819

284

重庆

719

2450

162

1187

6.5

12440

1897

成都

17914

9289

72793

28798

788

11.9

15274

1494

贵阳

5.8

12181

345

昆明

162

12338

342

14.6

14255

709

西安

15.9

13505

1211

兰州

14459

203

18.0

13489

468

西宁

2037

10.1

14629

175

银川

11787

134

21.9

13497

193

乌鲁木齐

225

6.1

16509

420

南宁

37.8

25312

6441

海口

26433

43732

18.8

18648

1825

资料来源：

《中国统计年鉴2004》

一、实验原理:

系统聚类的基本思想：

打开SPSS软件，在数据窗口依次定义变量，并输入以上数据

二．SPSS操作步骤：

1.点击分析——分类——系统聚类，进入系统聚类对话框。

2.将x1、x2、x3、x4、x5、x6、x7、x8、x9，9个变量选入变量框中，将城市选入标注个案框中。

输出框中保持默认选项，选中统计量和图。

3.统计量部分保持默认选项，点击继续按钮；点击绘制按钮，进入系统聚类-绘制对话框，选中树状图，其他部分保持默认，点击继续按钮；点击方法按钮，进入聚类分析-方法对话框，转换值框中标准化选择Z得分，聚类方法中有7种方法可供选择，分别进行选择，其他部分保持默认选项，点击继续按钮；保存部分保持默认选项，点击继续按钮。

4.最后点击确定按钮，得系统聚类结果。

经过比较得类平均法的组间联接法的结果与人们观察到的实际情况较接近，输出结果见表1、表2，图1、图2。

三．输出结果：

表1案例处理摘要a

案例

有效

缺失

合计

百分比

100.0%

0.0%

100.0%

a.平方Euclidean距离已使用

表2聚类表

阶

群集组合

系数

首次出现阶群集

下一阶

群集1

群集2

群集1

群集2

.000

.081

.118

.119

.142

.234

.269

.270

.280

.306

.311

.339

.409

.440

.496

.530

.610

.657

.739

.762

.792

.946

1.063

1.419

1.958

2.425

2.594

4.486

6.284

9.911

10.719

19.305

20.888

42.478

100.422

图1冰状图

图2树状图

四．实验结果分析：

表2聚类表是对每一阶段聚类结果的反应。

如第一行表示，第一阶段时第二个样品（天津）与第37个样品（海口）聚为一类，其他以此类推。

图1冰状图，图2树状图，是反应样品聚类情况的图，从图中可以由分类个数得到分类情况。

如果选择分为2类，分类结果为：

深圳单独一类，其他城市为一类；

如果选择分为3类，分类结果为：

1类{深圳}、2类{北京、南宁、广州、上海}、3类其他城市为一类。

由表中数据可以发现，深圳各项经济指标都比较好，且人均GDP远高于其他各城市，所以单独聚为一类，北京、南宁、广州、上海各项经济指标在全国各省份地区的平均水平之上，故聚为一类。

可以从经济发展水平来理解所做的分类，1类是经济最发达的地区，2类是经济比较发达的地区，3类是经济发展水平一般的地区。

第四章判别分析

4.1银行的贷款部门需要判别每个客户的信用好坏（是否未履行还贷责任），以决定是否给予贷款。

可以根据贷款申请人的年龄（

）、受教育程度（

）、现在所从事工作的年数（

）、未变更住址的年数（

）、收入（

）、负债收入比例（

）、信用卡债务（

）、其它债务（

）等来判断其信用情况。

下表是从某银行的客户资料中抽取的部分数据。

根据样本资料分别用距离判别法、Bayes判别法和Fisher判别法建立判别函数和判别规则；

某客户的如上情况资料为（53，1，9，18，50，11.20，2.02，3.58），对其进行信用好坏的判别。

目前信用好坏

客户序号

已履行还贷责任

6.60

0.34

1.71

8.00

1.81

2.91

4.60

0.94

.94

13.10

1.93

4.36

5.00

0.40

1.30

未履行还贷责任

15.10

1.8

展开阅读全文