多元统计分析案例具体操作Word文件下载.docx

资源描述

多元统计分析案例具体操作Word文件下载.docx

《多元统计分析案例具体操作Word文件下载.docx》由会员分享，可在线阅读，更多相关《多元统计分析案例具体操作Word文件下载.docx（28页珍藏版）》请在冰豆网上搜索。

多元统计分析案例具体操作Word文件下载.docx

R方

调整R方

标准估计的误差

Durbin-Watson

.689a

.475

.369

3.84648

1.858

a.预测变量:

（常量）,FeO含量X2,出钢量X1。

b.因变量:

效率Y

Anovab

平方和

均方

Sig.

回归

133.598

66.799

4.515

.040a

残差

147.954

14.795

总计

281.552

系数a

非标准化系数

标准系数

标准误差

试用版

（常量）

75.144

9.488

7.920

.000

.215

.075

.685

2.889

.016

-.843

.548

-.365

-1.538

.155

a.因变量:

相关性

零阶

偏

部分

-.189

-.437

-.352

.592

.675

.662

残差统计量a

极小值

极大值

均值

标准偏差

预测值

74.8411

88.0156

83.1462

3.33664

-5.62721

7.05607

.00000

3.51134

标准预测值

-2.489

1.459

1.000

标准残差

-1.463

1.834

.913

（3）结果分析

回归方程的回归系数：

b0=75.144，b1=0.215，b2=-0.843

拟合回归方程：

Y=0.215*X1-0.843*X2+75.144

1）回归方程的显著性检验（F检验）：

检验假设：

，

不全为0，

SS总=SS回+SS残，其中F～F（m，n-m-1）

根据方差分析表（Anova），MS回=66.799，MS残=14.759，从而F=4.515，F>

F0.05（2,10）（Sig<

0.05）,可知在显著性水平α＝0.05，拒绝原假设H0，自变量和因变量之间存在显著性的线性关系。

2）回归方程拟合优度检验：

R2=0.475，说明高磷钢的效率变异的47.5%可由其岀钢量和FeO的含量的变化来解释。

3）对各自变量指明方程中的每一个自变量对Y的影响（即方差分析和决定系数检验整体）。

A、回归系数的显著性检验（t检验）：

为偏回归系数的估计值，

是

的标准误。

H0：

服从自由度为

的t分布。

如果

，则在

=0.05水平上拒绝H0，接受H1，说明

与

有线性回归关系。

非标准化系数b1=0.215，b2=-0.843，对于b1，t1=2.889，|t1|>

t0.05/2（10），拒绝原假设，说明在给定的显著水平α＝0.05下，X1对Y有显著的影响；

对于b2，t2=-1.538，t0.05/2（10）>

|t2|>

t0.1/2（10），说明在给定的显著水平α＝0.05下，接受原假设,X2对Y没有显著的影响。

而在给定的显著水平α＝0.1下，拒绝原假设,X2对Y有显著的影响。

说明X1对方程的贡献显著，X2的贡献不显著。

B、偏回归平方和检验

回归方程中某一自变量Xj的偏回归平方和表示模型中含有其他m-1个自变量的条件下自变量对Y的回归贡献，相当于从回归方程中提出Xj后所引起的回归平方和的减少量，或在m-1个自变量的基础上新增加Xj引起的回归平方和的增加量。

表示偏回归平方和，其值愈大说明相应的自变量愈重要。

一般情况下，m-1个自变量对Y的回归平方和由重新建立的新方程得到，而不是简单地把

从有m个自变量的方程中剔出后算得。

98.622

5.930

.033a

182.930

16.630

（常量）,出钢量X1。

10.078

.408

.536a

271.474

24.679

（常量）,FeO含量X2。

SS回（X1）=SS回（X1,X2）-SS回（X2）=133.598-10.078=123.52

SS回（X2）=SS回（X1,X2）-SS回（X1）=133.598-98.622=34.976

F1=123.52/（147.954/10）=8.3485，F2=34.976/（147.954/10）=2.335

F1>

F2,同样说明X1对方程的贡献大于X2

4）标准化回归系数

变量标准化是将原始数据减去相应变量的均数，然后再除以该变量的标准差。

标准化回归系数无单位，用来比较各自变量对应变量的影响大小，|Bi|越大,Xi对Y的影响越大。

此处，标准回归系数B1＝0.685,B2＝-0.365，|B1|>

|B2|,说明X1对Y的影响要比X2对Y的影响显著。

5）偏相关系数

偏相关系数是在排除了其他变量的影响下计算变量间的相关系数。

假设我们需要计算X和Y之间的相关性，Z代表其他所有的变量，X和Y的偏相关系数可以认为是X和Z线性回归得到的残差Rx与Y和Z线性回归得到的残差Ry之间的简单相关系数，即pearson相关系数。

ρ1,2＝0.675

ρ2,1＝-0.437

（4）预测值

观测值

预测值-观测值

（预测值-观测值）/观测值*100%

82.9149

0.9149

1.115731707

85.5645

1.5645

1.8625

81.891

1.891

2.36375

83.1684

-5.4316

-6.130474041

80.2388

-1.2612

-1.547484663

87.9629

4.4629

5.344790419

74.8168

1.8168

2.488767123

86.416

-1.584

-1.8

84.2983

-7.1017

-7.769912473

81.5338

0.5338

0.659012346

83.5837

5.5837

7.158589744

86.0251

-0.4749

-0.549017341

81.9249

-1.4751

-1.768705036

二、聚类分析

下表是2003年我国省会城市和计划单列市的主要经济指标：

人均GDPX1（元）、人均工业产值X2（元）、客运总量X3（万人）、货运总量X4（万吨）、地方财政预算内收入X5（亿元）、固定资产投资总额X6（亿元）、在岗职工占总人口比例X7（%）、在岗职工人均工资额X8（元）、城乡居民年底储蓄余额X9（亿元）。

试通过统计分析软件进行系统聚类分析，并比较何种方法与人们观察到的实际情况较接近。

城市

北京

31886

33168

30520

30671

593

2000

37.8

25312

6441

天津

26433

43732

3507

34679

205

934

18.8

18648

1825

石家庄

15134

13159

11843

10008

416

9.5

12306

1044

太原

15752

15831

2975

15248

197

22.8

12679

660

呼和浩特

18991

11257

3508

4155

182

14116

255

沈阳

23268

15446

6612

14636

557

14.8

14961

1423

大连

29145

27615

11001

21081

111

407

14.7

17560

1310

长春

18630

21045

6999

10892

294

12.5

13870

831

哈尔滨

14825

7561

6458

9518

423

17.7

12451

1154

上海

46586

77083

7212

63861

899

2274

21.0

27305

6055

南京

27547

43853

16790

14805

136

794

15.4

22190

1134

杭州

32667

49823

21349

16815

150

717

11.8

24667

1466

宁波

32543

47904

24938

13797

139

555

10.9

23691

1060

合肥

10621

11714

6034

4641

245

8.3

13901

359

福州

22281

21310

9680

8250

376

15053

876

厦门

53590

93126

4441

3055

238

38.6

19024

397

南昌

14221

9205

5728

4454

210

11.0

13913

483

济南

23437

22634

5810

14354

429

16027

758

青岛

24705

35506

14666

30553

120

548

14.5

15335

908

郑州

16674

14023

10709

7847

373

12.7

13538

1048

武汉

21278

17083

11882

16610

623

17.4

13730

1286

长沙

8873

10609

10631

434

10.0

16987

705

广州

48220

55404

29751

28859

275

1089

25.1

28805

3727

深圳

191838

347519

10989

6793

291

875

69.6

31053

2199

南宁

8176

3390

7016

5893

170

13171

451

海口

16442

14553

13284

3304

16.5

14819

284

重庆

7190

5076

58290

32450

162

1187

6.5

12440

1897

成都

17914

9289

72793

28798

788

11.9

15274

1494

贵阳

11046

10350

18511

5318

231

15.8

12181

345

昆明

16215

11601

5126

12338

342

14255

709

西安

13140

8913

11413

9392

446

15.9

13505

1211

兰州

14459

17136

2209

5581

203

18.0

13489

468

西宁

7066

5605

2788

2037

10.1

14629

175

银川

11787

11013

2146

2127

134

21.9

13497

193

乌鲁木齐

22508

17137

2188

12754

180

26.1

16509

420

利用spss统计软件，其解答过程如下：

根据统计所得数据，此处聚类为Q型聚类，即对样本进行聚类分析，聚类方法选择系统聚类法，其基本思想是距离相近的样品（或变量）先聚成类，距离相远的后聚成类，过程一直进行下去，每个样品（或变量）总能聚到合适的类中。

在进行系统聚类之前，首先要定义类与类之间的距离，由类间距离定义的不同产生不同的聚类方法：

最短距离法、最长距离法、中间距离法、重心法等。

此处，主要运用最短距离法、重心法和最长距离法对样本进行聚类。

以下用dij表示样品X（i）和X（j）之间的距离，当样品间的亲疏关系采用相似系数Cij时，令

以下用D（p,q）表示类Gp和Gq之间的距离。

（一）利用Matlab做系统聚类分析，主要运行步骤：

将统计数据表格导入到Matlab中，若数据集命名为data，则进行如下运算：

X=ZSCORE（data）；

%标准化数据矩阵

Y=pdist（X,’metric’）%计算数据集X中两两元素的距离，metric表示使用特定的方法，有欧式距离’euclid’、马氏距离’mahal’、明可夫斯基距离‘Minkowski‘等。

D=squareform（Y）%将距离的输出向量形式定格为矩阵形式

Z=linkage（Y,’method’）%创建逐级聚类树，method表示用何种方法，默认值是欧式距离，有’complete’——最长距离法；

‘average‘——类平均距离；

’centroid‘——重心法等。

[H,T]=dendrogram（Z）%画聚类树形图

（二）不同聚类方法结果分析

（1）最短距离法聚类分析

类与类间距离定义：

Ds（p，q）=min{djk|j∈Gp，k∈Gq}，等于Gp和Gq中最为邻近的两个样品之间的距离。

利用最短距离法所得的Matlab聚类树形图如下图所示：

从聚类树形图可直观的看出，当将35个样品分为两类时，深圳（24）单独作为第2类，其他城市属于第1类；

当将35个样品分为三类时，深圳（24）单独为第3类，上海（10）单独为第2类，其他城市为第1类。

2）重心法聚类分析

若样品间采用欧式距离，设某步将Gp和Gq并为Gr，它们各有np、nq和nr样品，其重心用

p、

q和

r表示，显然

r=1/nr[np

p+nq

q]，某类Gk的重心为

k，它与新类Gr的距离为

当将35个样品分为三类时，深圳（24）单独为第3类，北京

（1）、上海（10）和广州（23）单独为第2类，其他城市为第1类。

结果同重心聚类法相似，这种聚类与人们实际观察到的情况相接近。

（3）最远距离聚类法

Ds（p，q）=max{djk|j∈Gp,k∈Gq},等于Gp和Gq中最远的两个样品之间的距离。

当将35个样品分为三类时，深圳（24）单独为第3类，北京

（1）、上海（10）和广州（23）单独为第2类，其他城市为第1类；

当将35个样品分为四类时，深圳（24）单独为第4类，北京

（1）、上海（10）和广州（23）单独为第3类，重庆（27）和成都（28）为第2类，其他城市为第1类；

这种聚类与人们实际观察到的情况相接近。

三、判别分析

银行的贷款部门需要判别每个客户的信用好坏（是否履行还贷责任），以决定是否给予贷款。

可以根据贷款申请人的年龄（X1）、受教育程度（X2）、现在所从事工作的年数（X3）、未变更住址的年数（X4）、收入（X5）、负债收入比例（X6）、信用卡债务（X7）、其他债务（X8）等来判别其信用情况，下表是从某银行的客户资料中抽取的部分数据，

（1）根据样本资料分别用距离判别法、贝叶斯判别法和费希尔判别法建立判别函数和判别规则。

（2）某客户的如上情况资料为（53,1,9,18,50,11.20，2.02,3.58），对其进行信用好坏的判别。

目前信用好坏

客户序列号

已履行还贷任务

6.60

0.34

1.71

8.00

1.81

2.91

4.60

0.94

13.10

1.93

4.36

5.00

0.40

1.30

未履行还贷任务

15.10

1.80

1.82

7.40

1.46

1.65

23.30

7.76

9.72

6.40

0.19

1.29

10.50

2.47

0.36

1、Fisher和Bayes方法在SPSS中的应用

判别分析是先根据已知类别的事物的性质（自变量），建立函数式（自变量的线性组合，及判别函数），然后对未知类别的新鲜事物进行判断以将之归入已知类别。

主要的判别方法有：

距离判别，Fisher判别，贝叶斯判别等。

在SPSS系统中,在判别分析使用时应注意以下几条：

1、首先要对原始数据进行统计检验：

在进行判别分析前，应首先检验各类的均值是不是有差异（因为判别分析要求给定的样本数据必须是差异明显的），如果检验后某两个总体的差异不显著应将两个总体合并为一个总体，再由剩下的互不相同的总体重新建立判别函数。

2、两种判别方法对总体的数据的分布要求不同：

一般来说，Fisher判别对数据分布没有特殊的要求，Bayes判别要求数据分布是多元正态分布，但在实际操作过程中，要求并不严格。

3、SPSS中的Fisher判别函数实为Bayes判别函数：

在SPSS中，选中判别分析下的“统计量”中的“函数系数”中的Fisher项，在输出结果的末尾，给出的分类函数系数表下注明的Fisher的线性判别式函数。

但是，经验证实为一般教课书中的Bayes线性判别函数。

命名出现不一致的原因是，按判别函数值最大的一组进行归类这种思想是Fisher提出来的，因此SPSS用Fisher对Bayes方法进行了命名。

并且因为Bayes判别函数只有在各个总体的样本的协方差阵相同时才是线性的，因此在得到该判别函数的系数时，对样本的协方差的估计必须是在总体协方差相等情况下的估计。

此处，将已履行还贷责任的一类的信用级别设为1，未履行还贷责任的信用级别设为2，然后判断待判客户的信用级别。

2、Fisher判别法

费希尔判别（或称典型判别）的基本思想是投影（或降维）：

用p维向量x=（x1，x2,...,xp）的少数几个线性组合（称为判别式或典型变量）来代替原始的p个变量。

（一）主要运行步骤

（1）在SPSS窗口中选择分析——分类——判别，在调出的判别分析对话框中，将左边的变量列表中的“目前信用好坏（1,2）”选入分组变量中，将X1-X8变量选入自变量中，并选择“一起输入自变量”单选按钮，及使用所有自变量进行判别分析。

（2）点击定义范围按钮，定义分组变量的取值范围，此处分组变量范围为1到2，所以在最小值和最大值中分别输入1和2。

（3）单击统计量按钮，指定输出的描述统计量和判别函数系数。

在函数系数栏中选择Fisher判别函数和非标准化，在描述性栏中选择均值（对各组的各变量作均数与标准差的描述），选中矩阵栏中所有的项。

（4）单击分类按钮，定义判别分组参数和选择输出结果。

在先验概率栏中选择所有组别的事前概率值均假定相等，在输出框中选择个案结果（给出每个观察值的分类结果），在使用协方差矩阵栏中选择在组内（使用组内离差矩阵将观察值分类）。

（5）单击保存按钮，指定在数据文件中生成代表判别分组结果和判别得分的新变量，生成新变量的含义为，预测组成员：

存放判别样品所属组别的值，保存在变量dis_1中；

判别得分

展开阅读全文