多元统计分析案例具体操作.docx

上传人:b****5 文档编号:7322432 上传时间:2023-01-22 格式:DOCX 页数:28 大小:170.77KB
下载 相关 举报
多元统计分析案例具体操作.docx_第1页
第1页 / 共28页
多元统计分析案例具体操作.docx_第2页
第2页 / 共28页
多元统计分析案例具体操作.docx_第3页
第3页 / 共28页
多元统计分析案例具体操作.docx_第4页
第4页 / 共28页
多元统计分析案例具体操作.docx_第5页
第5页 / 共28页
点击查看更多>>
下载资源
资源描述

多元统计分析案例具体操作.docx

《多元统计分析案例具体操作.docx》由会员分享,可在线阅读,更多相关《多元统计分析案例具体操作.docx(28页珍藏版)》请在冰豆网上搜索。

多元统计分析案例具体操作.docx

多元统计分析案例具体操作

多元统计分析案例具体操作

一、多元回归分析

高磷钢的效率(Y)与高磷钢的出钢量(X1)及高磷钢中的FeO含量(X2)有关,所测数据如下表,请用线性回归模型拟合上述数据。

试验序号

出钢量X1

FeO含量X2

效率Y

 1

 87.9

13.2

82

 2

101.4

13.5

84

 3

109.8

20

80

 4

 93.0

14.2

88.6

 5

 88.0

16.4

81.5

 6

115.3

14.2

83.5

 7

 56.9

14.9

73

 8

103.4

13

88

 9

101

14.9

91.4

10

 80.3

12.9

81

11

 96.5

14.6

78

12

110.6

15.3

86.5

13

102.9

18.2

83.4

利用SPSS统计软件,其解答过程如下:

拟建立回归方程:

Y=b0+b1*X1+b2*X2,步骤如下:

(1)操作过程

在数据输入之后,依次单击“分析”——“回归”——“线性”,在弹出的“线性回归”对话框中,将出钢量X1和FeO含量X2设为自变量,效率设为因变量,回归方法设为“进入”。

如下图:

图1.1

(2)输出结果如下:

输入/移去的变量

模型

输入的变量

移去的变量

方法

1

FeO含量X2,出钢量X1a

.

输入

模型汇总b

模型

R

R方

调整R方

标准估计的误差

Durbin-Watson

1

.689a

.475

.369

3.84648

1.858

a.预测变量:

(常量),FeO含量X2,出钢量X1。

b.因变量:

效率Y

Anovab

模型

平方和

df

均方

F

Sig.

1

回归

133.598

2

66.799

4.515

.040a

残差

147.954

10

14.795

总计

281.552

12

a.预测变量:

(常量),FeO含量X2,出钢量X1。

b.因变量:

效率Y

系数a

模型

非标准化系数

标准系数

B

标准误差

试用版

t

Sig.

1

(常量)

75.144

9.488

7.920

.000

出钢量X1

.215

.075

.685

2.889

.016

FeO含量X2

-.843

.548

-.365

-1.538

.155

a.因变量:

效率Y

系数a

模型

相关性

零阶

部分

1

FeO含量X2

-.189

-.437

-.352

出钢量X1

.592

.675

.662

a.因变量:

效率Y

残差统计量a

极小值

极大值

均值

标准偏差

N

预测值

74.8411

88.0156

83.1462

3.33664

13

残差

-5.62721

7.05607

.00000

3.51134

13

标准预测值

-2.489

1.459

.000

1.000

13

标准残差

-1.463

1.834

.000

.913

13

a.因变量:

效率Y

(3)结果分析

回归方程的回归系数:

b0=75.144,b1=0.215,b2=-0.843

拟合回归方程:

Y=0.215*X1-0.843*X2+75.144

1)回归方程的显著性检验(F检验):

检验假设:

不全为0,

SS总=SS回+SS残,其中F~F(m,n-m-1)

根据方差分析表(Anova),MS回=66.799,MS残=14.759,从而F=4.515,F>F0.05(2,10)(Sig<0.05),可知在显著性水平α=0.05,拒绝原假设H0,自变量和因变量之间存在显著性的线性关系。

2)回归方程拟合优度检验:

R2=0.475,说明高磷钢的效率变异的47.5%可由其岀钢量和FeO的含量的变化来解释。

3)对各自变量指明方程中的每一个自变量对Y的影响(即方差分析和决定系数检验整体)。

A、回归系数的显著性检验(t检验):

为偏回归系数的估计值,

的标准误。

检验假设:

H0:

服从自由度为

的t分布。

如果

,则在

=0.05水平上拒绝H0,接受H1,说明

有线性回归关系。

非标准化系数b1=0.215,b2=-0.843,对于b1,t1=2.889,|t1|>t0.05/2(10),拒绝原假设,说明在给定的显著水平α=0.05下,X1对Y有显著的影响;对于b2,t2=-1.538,t0.05/2(10)>|t2|>t0.1/2(10),说明在给定的显著水平α=0.05下,接受原假设,X2对Y没有显著的影响。

而在给定的显著水平α=0.1下,拒绝原假设,X2对Y有显著的影响。

说明X1对方程的贡献显著,X2的贡献不显著。

B、偏回归平方和检验

回归方程中某一自变量Xj的偏回归平方和表示模型中含有其他m-1个自变量的条件下自变量对Y的回归贡献,相当于从回归方程中提出Xj后所引起的回归平方和的减少量,或在m-1个自变量的基础上新增加Xj引起的回归平方和的增加量。

 

表示偏回归平方和,其值愈大说明相应的自变量愈重要。

一般情况下,m-1个自变量对Y的回归平方和由重新建立的新方程得到,而不是简单地把

从有m个自变量的方程中剔出后算得。

Anovab

模型

平方和

df

均方

F

Sig.

1

回归

98.622

1

98.622

5.930

.033a

残差

182.930

11

16.630

总计

281.552

12

a.预测变量:

(常量),出钢量X1。

b.因变量:

效率Y

Anovab

模型

平方和

df

均方

F

Sig.

1

回归

10.078

1

10.078

.408

.536a

残差

271.474

11

24.679

总计

281.552

12

a.预测变量:

(常量),FeO含量X2。

b.因变量:

效率Y

SS回(X1)=SS回(X1,X2)-SS回(X2)=133.598-10.078=123.52

SS回(X2)=SS回(X1,X2)-SS回(X1)=133.598-98.622=34.976

F1=123.52/(147.954/10)=8.3485,F2=34.976/(147.954/10)=2.335

F1>F2,同样说明X1对方程的贡献大于X2

4)标准化回归系数

变量标准化是将原始数据减去相应变量的均数,然后再除以该变量的标准差。

标准化回归系数无单位,用来比较各自变量对应变量的影响大小,|Bi|越大,Xi对Y的影响越大。

此处,标准回归系数B1=0.685,B2=-0.365,|B1|>|B2|,说明X1对Y的影响要比X2对Y的影响显著。

5)偏相关系数

偏相关系数是在排除了其他变量的影响下计算变量间的相关系数。

假设我们需要计算X和Y之间的相关性,Z代表其他所有的变量,X和Y的偏相关系数可以认为是X和Z线性回归得到的残差Rx与Y和Z线性回归得到的残差Ry之间的简单相关系数,即pearson相关系数。

ρ1,2=0.675

ρ2,1=-0.437

(4)预测值

试验序号

观测值

预测值

预测值-观测值

(预测值-观测值)/观测值*100%

 1

82

82.9149

0.9149

1.115731707

 2

84

85.5645

1.5645

1.8625

 3

80

81.891

1.891

2.36375

 4

88.6

83.1684

-5.4316

-6.130474041

 5

81.5

80.2388

-1.2612

-1.547484663

 6

83.5

87.9629

4.4629

5.344790419

 7

73

74.8168

1.8168

2.488767123

 8

88

86.416

-1.584

-1.8

 9

91.4

84.2983

-7.1017

-7.769912473

10

81

81.5338

0.5338

0.659012346

11

78

83.5837

5.5837

7.158589744

12

86.5

86.0251

-0.4749

-0.549017341

13

83.4

81.9249

-1.4751

-1.768705036

二、聚类分析

下表是2003年我国省会城市和计划单列市的主要经济指标:

人均GDPX1(元)、人均工业产值X2(元)、客运总量X3(万人)、货运总量X4(万吨)、地方财政预算内收入X5(亿元)、固定资产投资总额X6(亿元)、在岗职工占总人口比例X7(%)、在岗职工人均工资额X8(元)、城乡居民年底储蓄余额X9(亿元)。

试通过统计分析软件进行系统聚类分析,并比较何种方法与人们观察到的实际情况较接近。

城市

X1

X2

X3

X4

X5

X6

X7

X8

X9

北京

31886

33168

30520

30671

593

2000

37.8

25312

6441

天津

26433

43732

3507

34679

205

934

18.8

18648

1825

石家庄

15134

13159

11843

10008

49

416

9.5

12306

1044

太原

15752

15831

2975

15248

33

197

22.8

12679

660

呼和浩特

18991

11257

3508

4155

21

182

13.5

14116

255

沈阳

23268

15446

6612

14636

81

557

14.8

14961

1423

大连

29145

27615

11001

21081

111

407

14.7

17560

1310

长春

18630

21045

6999

10892

46

294

12.5

13870

831

哈尔滨

14825

7561

6458

9518

76

423

17.7

12451

1154

上海

46586

77083

7212

63861

899

2274

21.0

27305

6055

南京

27547

43853

16790

14805

136

794

15.4

22190

1134

杭州

32667

49823

21349

16815

150

717

11.8

24667

1466

宁波

32543

47904

24938

13797

139

555

10.9

23691

1060

合肥

10621

11714

6034

4641

36

245

8.3

13901

359

福州

22281

21310

9680

8250

67

376

11.8

15053

876

厦门

53590

93126

4441

3055

70

238

38.6

19024

397

南昌

14221

9205

5728

4454

31

210

11.0

13913

483

济南

23437

22634

5810

14354

76

429

13.5

16027

758

青岛

24705

35506

14666

30553

120

548

14.5

15335

908

郑州

16674

14023

10709

7847

66

373

12.7

13538

1048

武汉

21278

17083

11882

16610

80

623

17.4

13730

1286

长沙

15446

8873

10609

10631

60

434

10.0

16987

705

广州

48220

55404

29751

28859

275

1089

25.1

28805

3727

深圳

191838

347519

10989

6793

291

875

69.6

31053

2199

南宁

8176

3390

7016

5893

36

170

8.3

13171

451

海口

16442

14553

13284

3304

12

99

16.5

14819

284

重庆

7190

5076

58290

32450

162

1187

6.5

12440

1897

成都

17914

9289

72793

28798

90

788

11.9

15274

1494

贵阳

11046

10350

18511

5318

40

231

15.8

12181

345

昆明

16215

11601

5126

12338

60

342

14.6

14255

709

西安

13140

8913

11413

9392

65

446

15.9

13505

1211

兰州

14459

17136

2209

5581

21

203

18.0

13489

468

西宁

7066

5605

2788

2037

8

76

10.1

14629

175

银川

11787

11013

2146

2127

12

134

21.9

13497

193

乌鲁木齐

22508

17137

2188

12754

41

180

26.1

16509

420

利用spss统计软件,其解答过程如下:

根据统计所得数据,此处聚类为Q型聚类,即对样本进行聚类分析,聚类方法选择系统聚类法,其基本思想是距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。

在进行系统聚类之前,首先要定义类与类之间的距离,由类间距离定义的不同产生不同的聚类方法:

最短距离法、最长距离法、中间距离法、重心法等。

此处,主要运用最短距离法、重心法和最长距离法对样本进行聚类。

以下用dij表示样品X(i)和X(j)之间的距离,当样品间的亲疏关系采用相似系数Cij时,令

以下用D(p,q)表示类Gp和Gq之间的距离。

(一)利用Matlab做系统聚类分析,主要运行步骤:

将统计数据表格导入到Matlab中,若数据集命名为data,则进行如下运算:

X=ZSCORE(data);%标准化数据矩阵

Y=pdist(X,’metric’)%计算数据集X中两两元素的距离,metric表示使用特定的方法,有欧式距离’euclid’、马氏距离’mahal’、明可夫斯基距离‘Minkowski‘等。

D=squareform(Y)%将距离的输出向量形式定格为矩阵形式

Z=linkage(Y,’method’)%创建逐级聚类树,method表示用何种方法,默认值是欧式距离,有’complete’——最长距离法;‘average‘——类平均距离;’centroid‘——重心法等。

[H,T]=dendrogram(Z)%画聚类树形图

(二)不同聚类方法结果分析

(1)最短距离法聚类分析

类与类间距离定义:

Ds(p,q)=min{djk|j∈Gp,k∈Gq},等于Gp和Gq中最为邻近的两个样品之间的距离。

利用最短距离法所得的Matlab聚类树形图如下图所示:

从聚类树形图可直观的看出,当将35个样品分为两类时,深圳(24)单独作为第2类,其他城市属于第1类;当将35个样品分为三类时,深圳(24)单独为第3类,上海(10)单独为第2类,其他城市为第1类。

2)重心法聚类分析

若样品间采用欧式距离,设某步将Gp和Gq并为Gr,它们各有np、nq和nr样品,其重心用

p、

q和

r表示,显然

r=1/nr[np

p+nq

q],某类Gk的重心为

k,它与新类Gr的距离为

 

从聚类树形图可直观的看出,当将35个样品分为两类时,深圳(24)单独作为第2类,其他城市属于第1类;当将35个样品分为三类时,深圳(24)单独为第3类,北京

(1)、上海(10)和广州(23)单独为第2类,其他城市为第1类。

结果同重心聚类法相似,这种聚类与人们实际观察到的情况相接近。

(3)最远距离聚类法

类与类间距离定义:

Ds(p,q)=max{djk|j∈Gp,k∈Gq},等于Gp和Gq中最远的两个样品之间的距离。

从聚类树形图可直观的看出,当将35个样品分为两类时,深圳(24)单独作为第2类,其他城市属于第1类;当将35个样品分为三类时,深圳(24)单独为第3类,北京

(1)、上海(10)和广州(23)单独为第2类,其他城市为第1类;当将35个样品分为四类时,深圳(24)单独为第4类,北京

(1)、上海(10)和广州(23)单独为第3类,重庆(27)和成都(28)为第2类,其他城市为第1类;这种聚类与人们实际观察到的情况相接近。

三、判别分析

银行的贷款部门需要判别每个客户的信用好坏(是否履行还贷责任),以决定是否给予贷款。

可以根据贷款申请人的年龄(X1)、受教育程度(X2)、现在所从事工作的年数(X3)、未变更住址的年数(X4)、收入(X5)、负债收入比例(X6)、信用卡债务(X7)、其他债务(X8)等来判别其信用情况,下表是从某银行的客户资料中抽取的部分数据,

(1)根据样本资料分别用距离判别法、贝叶斯判别法和费希尔判别法建立判别函数和判别规则。

(2)某客户的如上情况资料为(53,1,9,18,50,11.20,2.02,3.58),对其进行信用好坏的判别。

目前信用好坏

客户序列号

X1

X2

X3

X4

X5

X6

X7

X8

已履行还贷任务

1

23

1

7

2

31

6.60

0.34

1.71

2

34

1

17

3

59

8.00

1.81

2.91

3

42

2

7

23

41

4.60

0.94

0.94

4

39

1

19

5

48

13.10

1.93

4.36

5

35

1

9

1

34

5.00

0.40

1.30

未履行还贷任务

6

37

1

1

3

24

15.10

1.80

1.82

7

29

1

13

1

42

7.40

1.46

1.65

8

32

2

11

6

75

23.30

7.76

9.72

9

28

2

2

3

23

6.40

0.19

1.29

10

26

1

4

3

27

10.50

2.47

0.36

1、Fisher和Bayes方法在SPSS中的应用

判别分析是先根据已知类别的事物的性质(自变量),建立函数式(自变量的线性组合,及判别函数),然后对未知类别的新鲜事物进行判断以将之归入已知类别。

主要的判别方法有:

距离判别,Fisher判别,贝叶斯判别等。

在SPSS系统中,在判别分析使用时应注意以下几条:

1、首先要对原始数据进行统计检验:

在进行判别分析前,应首先检验各类的均值是不是有差异(因为判别分析要求给定的样本数据必须是差异明显的),如果检验后某两个总体的差异不显著应将两个总体合并为一个总体,再由剩下的互不相同的总体重新建立判别函数。

2、两种判别方法对总体的数据的分布要求不同:

一般来说,Fisher判别对数据分布没有特殊的要求,Bayes判别要求数据分布是多元正态分布,但在实际操作过程中,要求并不严格。

3、SPSS中的Fisher判别函数实为Bayes判别函数:

在SPSS中,选中判别分析下的“统计量”中的“函数系数”中的Fisher项,在输出结果的末尾,给出的分类函数系数表下注明的Fisher的线性判别式函数。

但是,经验证实为一般教课书中的Bayes线性判别函数。

命名出现不一致的原因是,按判别函数值最大的一组进行归类这种思想是Fisher提出来的,因此SPSS用Fisher对Bayes方法进行了命名。

并且因为Bayes判别函数只有在各个总体的样本的协方差阵相同时才是线性的,因此在得到该判别函数的系数时,对样本的协方差的估计必须是在总体协方差相等情况下的估计。

此处,将已履行还贷责任的一类的信用级别设为1,未履行还贷责任的信用级别设为2,然后判断待判客户的信用级别。

2、Fisher判别法

费希尔判别(或称典型判别)的基本思想是投影(或降维):

用p维向量x=(x1,x2,...,xp)的少数几个线性组合(称为判别式或典型变量)来代替原始的p个变量。

(一)主要运行步骤

(1)在SPSS窗口中选择分析——分类——判别,在调出的判别分析对话框中,将左边的变量列表中的“目前信用好坏(1,2)”选入分组变量中,将X1-X8变量选入自变量中,并选择“一起输入自变量”单选按钮,及使用所有自变量进行判别分析。

(2)点击定义范围按钮,定义分组变量的取值范围,此处分组变量范围为1到2,所以在最小值和最大值中分别输入1和2。

(3)单击统计量按钮,指定输出的描述统计量和判别函数系数。

在函数系数栏中选择Fisher判别函数和非标准化,在描述性栏中选择均值(对各组的各变量作均数与标准差的描述),选中矩阵栏中所有的项。

(4)单击分类按钮,定义判别分组参数和选择输出结果。

在先验概率栏中选择所有组别的事前概率值均假定相等,在输出框中选择个案结果(给出每个观察值的分类结果),在使用协方差矩阵栏中选择在组内(使用组内离差矩阵将观察值分类)。

(5)单击保存按钮,指定在数据文件中生成代表判别分组结果和判别得分的新变量,生成新变量的含义为,预测组成员:

存放判别样品所属组别的值,保存在变量dis_1中;判别得分

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 经管营销 > 金融投资

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1