判别分析.docx

上传人:b****5 文档编号:8206682 上传时间:2023-01-29 格式:DOCX 页数:26 大小:214.47KB
下载 相关 举报
判别分析.docx_第1页
第1页 / 共26页
判别分析.docx_第2页
第2页 / 共26页
判别分析.docx_第3页
第3页 / 共26页
判别分析.docx_第4页
第4页 / 共26页
判别分析.docx_第5页
第5页 / 共26页
点击查看更多>>
下载资源
资源描述

判别分析.docx

《判别分析.docx》由会员分享,可在线阅读,更多相关《判别分析.docx(26页珍藏版)》请在冰豆网上搜索。

判别分析.docx

判别分析

 

 

实验二判别分析

姓名:

张杨

学号:

2014962001

年级:

2014级

专业:

统计学

课程名称:

多元统计分析

指导教师:

范英兵

完成日期:

2016-09-30

 

1.实验目的:

掌握判别分析方法的思想、判别分析步骤及判别结果分析。

2.实验内容

(1)自选数据或者使用例题4-1、4-2数据完成判别分析。

(2)对判别分析结果进行分析。

(3)选定两个样本,对样本进行分类。

3.实验步骤

(一)

定义新的变量y为被解释变量,用“1”代表Setosa鸢尾花,用“2”代表Versicolour鸢尾花,用“3”代表Virginica鸢尾花,将萼片长(sepallength)、萼片宽(sepalwidth)、花瓣长(petallength)和花瓣宽(petalwidth)四个变量作为解释变量。

使用SPSS软件中的分析→分类→判别,就进入了判别分析的对话框。

分组变量选择y,然后定义

的区域,最小值是1,最大值是3。

解释变量选择sepal.length、sepal.width、petal.length和petal.width。

统计量(Statistics)选项中选择描述统计量均值,单变量ANOVA和Box’M,函数选择Fisher和非标准化函数,矩阵选择组内相关。

分类选项中选择先验概率(所有组相等或根据组的大小计算概率),因为三个品种的都是50种,因此两种选择的效果一样,子选项显示(display)中选择每个个体的结果,综合表和“留一个在外”的验证原则,协方差矩阵选择组内,作图选择合并组。

保存(Save)选项中可以选择预测的分类、判别得分以及所属类别的概率。

如果采用逐步判别法,我们还可以选择判别的方法。

得到分析结果如下:

 

4.实验结果(或心得体会)

表1-1

群組統計資料

被解释变量

平均數

標準偏差

有效的N(listwise)

未加權

加權

Setosa鸢尾花

萼片长

5.0060

.35249

50

50.000

萼片宽

3.4280

.37906

50

50.000

花瓣长

1.4620

.17366

50

50.000

花瓣宽

.2460

.10539

50

50.000

Versico-lor鸢尾花

萼片长

5.9360

.51617

50

50.000

萼片宽

2.7700

.31380

50

50.000

花瓣长

4.2600

.46991

50

50.000

花瓣宽

1.3260

.19775

50

50.000

Virginica鸢尾花

萼片长

6.5880

.63588

50

50.000

萼片宽

2.9740

.32250

50

50.000

花瓣长

5.5520

.55189

50

50.000

花瓣宽

2.0260

.27465

50

50.000

總計

萼片长

5.8433

.82807

150

150.000

萼片宽

3.0573

.43587

150

150.000

花瓣长

3.7580

1.76530

150

150.000

花瓣宽

1.1993

.76224

150

150.000

表1-2

群組平均值的等式檢定

Wilks'Lambda(λ)

F

df1

df2

顯著性

萼片长

.381

119.265

2

147

.000

萼片宽

.599

49.160

2

147

.000

花瓣长

.059

1180.161

2

147

.000

花瓣宽

.071

960.007

2

147

.000

输出结果表1-1,表1-2分析的是各组的描述统计量和对各组均值是否相等的检验。

表1-1是各组变量的描述统计分析。

表1-2是对各组均值是否相等的检验。

可以看出,在0.01的显著性水平上我们拒绝变量萼片长(sepallength)、萼片宽(sepalwidth)、花瓣长(petallength)和花瓣宽(petalwidth)在三组的均值相等的假设,即认为变量萼片长(sepallength)、萼片宽(sepalwidth)、花瓣长(petallength)和花瓣宽(petalwidth)在三组的均值是有显著性差异的。

 

表1-3

對數行列式

被解释变量

等級

對數行列式

Setosa鸢尾花

4

-13.067

Versico-lor鸢尾花

4

-10.874

Virginica鸢尾花

4

-8.927

聯合組內

4

-9.959

列印的行列式等級及自然對數是群組共變異數矩陣的等級及自然對數。

表1-4

測試結果

Box'sM共變異等式檢定

146.663

F

近似值

7.045

df1

20

df2

77566.751

顯著性

.000

檢定相等母體共變異數矩陣的虛無假設。

输出结果表1-3,表1-4是对各组协方差矩阵是否相等的Box’M检验。

表1-3反映协方差矩阵的秩和行列式的对数值。

由行列式值可以看出协方差矩阵不是病态矩阵。

表1-4是对各总体协方差阵是否相等的统计检验。

值及其显著水平,我们在0.05的显著性水平下拒绝原假设(原假设假定各总体协方差阵相等)。

因此,在分类(Classify)选项中的协方差矩阵选择可以考虑采用Separate-groups,以检验采用组内(Within-groups)和Separate-groups两种协方差所得出的结果是否存在显著差异。

如果存在显著差异就应该采用Separate-groups协方差矩阵,反之,就用Within-groups协方差矩阵。

表1-5

特徵值

函數

特徵值

變異的%

累加%

典型相關性

1

32.192a

99.1

99.1

.985

2

.285a

.9

100.0

.471

a.前2個典型區別函數用於分析。

 

表1-6

Wilks'Lambda(λ)

函數的檢定

Wilks'Lambda(λ)

卡方

df

顯著性

1至2

.023

546.115

8

.000

2

.778

36.530

3

.000

输出结果表1-5,表1-6分析的是典型判别函数。

表1-5反映判别函数的特征值、解释方差的比例和典型相关系数。

第一判别函数解释了99.1%的方差,第二判别函数解释了0.9%的方差,两个判别函数解释了全部方差。

第2张表是对两个判别函数的显著性检验。

由Wilks’Lambda检验,认为两个判别函数在0.05的显著性水平上是显著的。

表1-7

標準化典型區別函數係數

函數

1

2

萼片长

-.427

.012

萼片宽

-.521

.735

花瓣长

.947

-.401

花瓣宽

.575

.581

 

表-8

結構矩陣

函數

1

2

花瓣长

.706*

.168

萼片宽

-.119

.864*

花瓣宽

.633

.737*

萼片长

.223

.311*

區別變數與標準化典型區別函數之間的聯合組內相關性

依函數內相關性絕對大小排序的變數。

*.每一個變數與任何區別函數之間最大的絕對相關性

 

表1-9

典型區別函數係數

函數

1

2

萼片长

-.829

.024

萼片宽

-1.534

2.165

花瓣长

2.201

-.932

花瓣宽

2.810

2.839

(常數)

-2.105

-6.661

非標準化係數

表1-10

群組重心的函數

被解释变量

函數

1

2

Setosa鸢尾花

-7.608

.215

Versico-lor鸢尾花

1.825

-.728

Virginica鸢尾花

5.783

.513

以群組平均值求值的非標準化典型區別函數

输出结果表1-7,1-8,1-9,1-10显示的是判别函数、判别载荷和各组的重心。

表1-7是标准化的判别函数,表示为:

这里

表示标准化变量,标准化变量的系数也就是前面讲的判别权重。

表1-8是结构矩阵,即判别载荷。

由判别权重和判别载荷可以看出两个解释变量对判别函数的贡献较大。

表1-9是非标准化的判别函数,表示为

我们可以根据这个判别函数计算每个观测的判别Z得分。

表1-10是反映判别函数在各组的重心。

根据结果,判别函数在

这一组的重心为(-7.608,0.215),在

这一组的重心为(1.825,-0.728),在

这一组的重心为(5.783,0.513)。

这样,我们就可以根据每个观测的判别Z得分将观测进行分类。

表1-11

分類處理摘要

已處理

150

已排除

遺漏或超出範圍群組代碼

0

至少一個遺漏識別變數

0

已在輸出中使用

150

 

表1-12

群組的事前機率

被解释变量

在前

分析中使用的觀察值

未加權

加權

Setosa鸢尾花

.333

50

50.000

Versico-lor鸢尾花

.333

50

50.000

Virginica鸢尾花

.333

50

50.000

總計

1.000

150

150.000

 

表1-13

分類函數係數

被解释变量

Setosa鸢尾花

Versico-lor鸢尾花

Virginica鸢尾花

萼片长

23.544

15.698

12.446

萼片宽

23.588

7.073

3.685

花瓣长

-16.431

5.211

12.767

花瓣宽

-17.398

6.434

21.079

(常數)

-86.308

-72.853

-104.368

費雪(Fisher)線性區別函數

 

表1-14

分類結果a,c

被解释变量

預測的群組成員資格

總計

Setosa鸢尾花

Versico-lor鸢尾花

Virginica鸢尾花

原始

計數

Setosa鸢尾花

50

0

0

50

Versico-lor鸢尾花

0

48

2

50

Virginica鸢尾花

0

1

49

50

%

Setosa鸢尾花

100.0

.0

.0

100.0

Versico-lor鸢尾花

.0

96.0

4.0

100.0

Virginica鸢尾花

.0

2.0

98.0

100.0

交叉驗證b

計數

Setosa鸢尾花

50

0

0

50

Versico-lor鸢尾花

0

48

2

50

Virginica鸢尾花

0

1

49

50

%

Setosa鸢尾花

100.0

.0

.0

100.0

Versico-lor鸢尾花

.0

96.0

4.0

100.0

Virginica鸢尾花

.0

2.0

98.0

100.0

a.98.0%個原始分組觀察值已正確地分類。

b.僅會針對分析中的那些觀察值進行交叉驗證。

在交叉驗證中,每一個觀察值都會依據從該觀察值之外的所有觀察值衍生的函數進行分類。

c.98.0%個交叉驗證已分組觀察值已正確地分類。

图1-1

输出结果表1-11,至表1-14是分类的统计结果。

表1-11概括了分类过程,说明150个观测都参与分类。

表1-12说明各组的先验概率,我们在分类(Classify)选项中选择的是所有组的先验概率相等。

表1-13是每组的分类函数(区别于判别函数),也称费歇线性判别函数,由表中的结果可以说明,

这一组的分类函数是

这组的分类函数是

这组的分类函数是

我们可以计算出每个观测在各组的分类函数值,然后将观测分类到较大的分类函数值中。

表1-14是分类矩阵表。

预测的群组成员资格(PredictedGroupMembership)表示预测的所属组关系,原始(Original)表示原始数据的所属组关系,交叉验证(Cross-validated)表示交叉验证的所属组关系,这里交叉验证是采用“留一个在外”的原则,即每个观测是通过除了这个观测以外的其他观测推导出来的判别函数来分类的。

由第4张表可以看出,通过判别函数预测,有147个观测是分类正确的,其中,

组50个观测全部被判对,

组50个观测中有48个观测被判对,

组50个观测中有49个观测被判对,从而有147/150=98%的原始观测被判对。

在交叉验证中,

组50个观测全部被判对,

组50个观测中有48个观测被判对,

组50个观测中有49个观测被判对,从而交叉验证有147/150=98%的原始观测被判对。

还可以通过分类结果分析判对和判错的百分比。

图1-1中可以看到,Setosa鸢尾花与Versicolour鸢尾花和Virginica鸢尾花可以很清晰的区分开,而Versicolour鸢尾花和Virginica鸢尾花这两种之间存在重合区域,即存在误判。

我们还可以通过保存(Save)选项选择预测的类别关系和判别得分等,对观测进行诊断。

由前面分析我们发现,协方差矩阵不等,可以考虑采用Separate-groups协方差矩阵,选择Separate-groups协方差矩阵,其他选择同上,得分类结果表如下:

 

表1-15

分類結果a,c

被解释变量

預測的群組成員資格

總計

Setosa鸢尾花

Versico-lor鸢尾花

Virginica鸢尾花

原始

計數

Setosa鸢尾花

50

0

0

50

Versico-lor鸢尾花

0

48

2

50

Virginica鸢尾花

0

1

49

50

%

Setosa鸢尾花

100.0

.0

.0

100.0

Versico-lor鸢尾花

.0

96.0

4.0

100.0

Virginica鸢尾花

.0

2.0

98.0

100.0

交叉驗證b

計數

Setosa鸢尾花

50

0

0

50

Versico-lor鸢尾花

0

48

2

50

Virginica鸢尾花

0

1

49

50

%

Setosa鸢尾花

100.0

.0

.0

100.0

Versico-lor鸢尾花

.0

96.0

4.0

100.0

Virginica鸢尾花

.0

2.0

98.0

100.0

a.98.0%個原始分組觀察值已正確地分類。

b.僅會針對分析中的那些觀察值進行交叉驗證。

在交叉驗證中,每一個觀察值都會依據從該觀察值之外的所有觀察值衍生的函數進行分類。

c.98.0%個交叉驗證已分組觀察值已正確地分類。

图1-2

由第表1-15可以看出,通过判别函数预测,有146个观测是分类正确的,其中,

组50个观测全部被判对,

组50个观测中有47个观测被判对,

组50个观测中有49个观测被判对,从而有146/150=97.3%的原始观测被判对。

图1-2为分类结果图,从图中可以看到,Setosa鸢尾花与Versicolour鸢尾花和Virginica鸢尾花可以很清晰的区分开,而Versicolour鸢尾花和Virginica鸢尾花这两种之间存在重合区域,即存在误判。

综上可以看出,采用Separate-groups协方差矩阵与采用Within-groups协方差矩阵的预测效果没有明显的差别,因此,可以采用Within-groups协方差矩阵来进行判别。

(二)

实验数据如下:

图2-1

如图2-1,为了研究2008年全国各地区城镇居民家庭人均消费支出情况,按人均收入、人均GDP以及消费支出将29个省、市、自治区(除天津和陕西以外)分为三种类型,设置group变量取值分别为1、2、3。

X1人均食品支出(元/人),x2人均衣着支出(元/人),x3人均住房支出(元/人),x4人均家庭设备及服务支出(元/人),x5人均交通和通信支出(元/人),x6人均文教娱乐用品及服务支出(元/人),x7人均医疗保健支出(元/人),x8其他商品及服务支出(元/人)。

表2-1

群組平均值的等式檢定

Wilks'Lambda(λ)

F

df1

df2

顯著性

人均食品支出

.269

38.024

2

28

.000

人均衣着支出

.732

5.128

2

28

.013

人均住房支出

.535

12.164

2

28

.000

人均家庭设备及服务支出

.447

17.306

2

28

.000

人均交通和通信支出

.587

9.846

2

28

.001

人均文教娱乐用品及服务支出

.351

25.845

2

28

.000

人均医疗保健支出

.268

38.253

2

28

.000

输出结果表2-1,是各组变量的描述统计分析。

表2-2是对各组均值是否相等的检验。

可以看出,在0.05的显著性水平上我们拒绝变量X1人均食品支出,x2人均衣着支出,x3人均住房支出,x4人均家庭设备及服务支出,x5人均交通和通信支出,x6人均文教娱乐用品及服务支出,x7人均医疗保健支出,x8其他商品及服务支出在三组的均值相等的假设,即认为变量X1人均食品支出,x2人均衣着支出,x3人均住房支出,x4人均家庭设备及服务支出,x5人均交通和通信支出,x6人均文教娱乐用品及服务支出,x7人均医疗保健支出,x8其他商品及服务支出在三组的均值是有显著性差异的

表2-2

聯合組內矩陣

x1

x2

x3

x4

x5

x6

x7

x8

相關

x1

1.000

.187

.503

.305

-.024

.841

.549

.740

x2

.187

1.000

.128

.387

.517

.213

.540

.452

x3

.503

.128

1.000

.504

.253

.662

.627

.423

x4

.305

.387

.504

1.000

.439

.425

.780

.546

x5

-.024

.517

.253

.439

1.000

-.003

.396

.106

x6

.841

.213

.662

.425

-.003

1.000

.651

.676

x7

.549

.540

.627

.780

.396

.651

1.000

.653

x8

.740

.452

.423

.546

.106

.676

.653

1.000

表2-3

對數行列式

Group

等級

對數行列式

1

.a

.b

2

8

77.652

3

8

69.501

聯合組內

8

80.469

列印的行列式等級及自然對數是群組共變異數矩陣的等級及自然對數。

a.等級<5

b.作為非單數的觀察值太少

表2-4

測試結果a

Box'sM共變異等式檢定

172.887

F

近似值

2.837

df1

36

df2

1524.161

顯著性

.000

檢定相等母體共變異數矩陣的虛無假設。

a.部分共變異數矩陣是單數,且普通程序不會運作。

非單數群組將根據它們自己的聯合組內共變異數矩陣進行檢定。

它的行列式對數為81.805。

输出结果表2-2,表2-3,表2-4是对各组协方差矩阵是否相等的Box’M检验。

第1张表反映协方差矩阵的秩和行列式的对数值。

由行列式值可以看出协方差矩阵不是病态矩阵。

第2张表是对各总体协方差阵是否相等的统计检验。

值及其显著水平,我们在0.05的显著性水平下拒绝原假设(原假设假定各总体协方差阵相等)。

因此,在分类(Classify)选项中的协方差矩阵选择可以考虑采用Separate-groups,以检验采用Within-groups和Separate-groups两种协方差所得出的结果是否存在显著差异。

如果存在显著差异就应该采用Separate-groups协方差矩阵,反之,就用Within-groups协方差矩阵。

表2-5

特徵值

函數

特徵值

變異的%

累加%

典型相關性

1

6.260a

68.8

68.8

.929

2

2.840a

31.2

100.0

.860

a.前2個典型區別函數用於分析。

表2-6

Wilks'Lambda(λ)

函數的檢定

Wilks'Lambda(λ)

卡方

df

顯著性

1至2

.036

74.876

16

.000

2

.260

30.273

7

.000

输出结果表2-5,表2-6分析的是典型判别函数。

第1张表反映判别函数的特征值、解释方差的比例和典型相关系数。

第一判别函数解释了68.6%的方差,第二判别函数解释了31.2%的方差,两个判别函数解释了全部方差。

第2张表是对两个判别函数的显著性检验。

由Wilks’Lambda检验,认为两个判别函数在0.05的显著性水平上是显著的。

表2-7

標準化典型區別函數係數

函數

1

2

人均食品支出

.909

-1.213

人均衣着支出

-.601

.221

人均住房支出

-.336

.246

人均家庭设备及服务支出

-.139

-.668

人均交通和通信支出

.462

.501

人均文教娱乐用品及服务支出

-.352

1.123

人均医疗保健支出

.961

.421

 

表2-8

結構矩陣

函數

1

2

人均食品支出

.750*

-.162

人均医疗保健支出

.726*

.420

人均文教娱乐用品及服务支出

.611*

.223

人均家庭设备及服务支出

.502*

.162

人均交通和通信支出

.257

.564*

人均衣着支出

.145

.467*

人均住房支出

.374

.404*

*.每一個變數與任何區別函數之間最大的絕對相關性

表2-9

典型區別函數係數

函數

1

2

人均食品支出

.002

-.002

人均衣着支出

-.003

.001

人均住房支出

-.002

.001

人均家庭设备及服务支出

-.001

-.005

人均交通和通信支出

.002

.003

人均文教娱乐用品及服务支出

-.001

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 表格模板 > 合同协议

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1