判别分析实例汇总.docx

上传人:b****5 文档编号:7632348 上传时间:2023-01-25 格式:DOCX 页数:21 大小:320.74KB
下载 相关 举报
判别分析实例汇总.docx_第1页
第1页 / 共21页
判别分析实例汇总.docx_第2页
第2页 / 共21页
判别分析实例汇总.docx_第3页
第3页 / 共21页
判别分析实例汇总.docx_第4页
第4页 / 共21页
判别分析实例汇总.docx_第5页
第5页 / 共21页
点击查看更多>>
下载资源
资源描述

判别分析实例汇总.docx

《判别分析实例汇总.docx》由会员分享,可在线阅读,更多相关《判别分析实例汇总.docx(21页珍藏版)》请在冰豆网上搜索。

判别分析实例汇总.docx

判别分析实例汇总

例:

人文与发展指数是联合国开发计划署于1990年5月发表的第一份《人类发展报告》中

公布的。

该报告建议,目前对人文发展的衡量指标应当以人生的三大要素为重点。

衡量人生

的三大要素的指标分别为:

实际人均GDP指数、出生时的预期寿命指数、受教育程度指数

(由成人识字率指数和综合总人学率指数按2/3、1/3的权重加权而得),将一生三个指数合成为一个指数就是人文发展指数。

今从2007年世界各国人文发展指数(2005年)的排序中,选取高发展水平、中等发展水平和低发展水平国家各6个作为三组样品,另选四个国家作为待判样品,资料如下表所示。

试用判别分析过程对以下数据资料进行判别分析,并据此对待

选的四个国家进行判别归类。

国家

人均GDP(美元)

出生时的预

期寿命(岁)

成人识字率

(%)

初等、中等和高等教育入学率(%)

第一类:

高发展水平国家

美国

41890

77.9

99.5

93.3

德国

29461

79.1

99.2

88

希腊

23381

78.9

96

99

新加坡

29663

79.4

92.5

87.3

意大利

28529

80.3

98.4

90.6

韩国

22029

77.9

99

96

第二类:

中等发展水平国家

古巴

6000

77.7

99.8

87.6

罗马尼亚

9060

71.9

97.3

76.8

巴西

8402

71.7

88.6

87.5

泰国

8677

69.6

92.6

71.2

菲律宾

5137

71

92.6

81.1

土耳其

8407

71.4

87.4

68.7

第三类:

低发展水平国家

尼泊尔

1550

62.6

48.6

58.1

尼日利亚

1128

46.5

69.1

56.2

喀麦隆

2299

49.8

67.9

62.3

巴基斯坦

2370

64.6

49.9

40

越南

3071

73.7

90.3

63.9

印度尼西亚

3843

69.7

90.4

68.2

待判组

日本

31267

82.3

99

85.9

印度

3452

63.7

61

63.8

中国

6757

72.5

90.9

69.1

南非

11110

50.8

82.4

77

datadevelop;

inputtypegdpliferatezhrate@@;

cards;

141890

77.9

99.5

93.3

129461

79.1

99.2

88

123381

78.9

96

99

129663

79.4

92.5

87.3

128529

80.3

98.4

90.6

122029

77.9

99

96

2600077.7

99.8

87.6

2906071.9

97.3

76.8

2840271.7

88.6

87.5

2867769.6

92.6

71.2

2513771

92.6

81.1

2840771.4

87.4

68.7

3155062.6

48.6

58.1

3112846.5

69.1

56.2

3229949.8

67.9

62.3

3237064.6

49.9

40

3307173.7

90.3

63.9

3384369.7

90.4

68.2

.31267

82.3

99

85.9

.345263.7

61

63.8

.675772.5

90.9

69.1

.11110

50.8

82.4

77

procdiscrim

simple

wcovdistanee

list;/*simple:

要求技术各类样品的简单描述

统计量;选项

WCOV要求计算类内协方差阵;选项

DISTANCE要求计算马氏距离;选项LIST要求

输出重复替换归类结果。

由于没有给出方法选项,

所以系统按缺省时的正态分布进行有关参数的

估计和归类。

*/

classtype;

vargdpliferatezhrate;

run;

procdiscrimpoo匸testslpool=0.05list;/*simple:

*/classtype;

priors'1'=0.32=0.43=0.3;

run;

procdiscrimmethod=npark=2list;/*simple:

*/classtype;

run;

proccandiscout=resultncan=2;/*simple:

*/

class

type;

var

gdpliferatezhrate;

run;

proc

gplotdata=reult;―|

plot

can1*can2=type;

run;

proc

discrimdata=result

distanee

list;

class

type;

varcanlcan2;

run;

表1已知样本分类水平信息

TheDISCRIMProcedure

ObservationsVariablesClasses

18

4

3

DFTo怙1

DFWithinClasses

DFBetweenClasses

17

15

2

ClassLevel

Informalion

Variable

Prior

type

Name

Frequency

Weight

Proportion

Probabi1ity

1

_1

6

G.0000

0.$88838

0.333333

2

J

6

6.0000

0.333333

0.333333

3

6

G.0000

0.333333

0.333333

表2样本统计量信息

fithin-ClassCovarianceMatrices

type=1,DF=5

Variable

gdp

life

rate

zhrate

gdp

49408532.97

-1234.12

4172.07

-11022.03

1ife

-1234.12

0.85

-0.88

-2.09

rate

4172.07

-0.88

7.43

2.74

zhrate

-11022.03

-2.09

2.74

21.19

type=2,DF=5

Variable

gdp

life

rate

zhrate

gdp

2642240.567

-2026.117

•2419.950

-6404.957

1ife

-2026.117

7.886

8.861

13.946

rate

-2419.950

8.861

23.151

14.327

zhrate

-6404.957

13.946

14.327

64.438

type=3,DF=5

Variable

gdp

life

rate

zhrate

gdp

976170.9667

7840.7700

12624.0733

4200.8033

1ife

7840.7700

117.6110

73.1660

15.3730

rate

12624.0733

73.1660

338.6067

136.1087

2hrate

4200.8033

15.3730

136.1087

96.9017

SimpleStatistics

Tot&l-Sfthple

Standard

MeanV&rianceDeviation

St.andard

Variable

N

Sun

Mean

V&ridnce

Deviation

6

174S53

29169

4940B633

7029

life

6

473.50000

78.91667

0,E49S7

0.9218

rate

6

584.60000

97.48888

7.43467

2J267

zhrate

6

554.20000

92.866B7

21J0GG7

4.6029

Variable

N

Sum

M郭n

Variance

Standard

[Jevifttion

gdp

0

45683

?

614

2642241

1625

life

6

438.30000

72.21667

7.68567

2.8081

rate

6

558.80000

S3.05000

28J5100

4.6116

zhrate

6

472.90000

78.81667

64*43767

8.(N73

 

type=3

Variable

Sum

Naan

Variance

StandardDeviation

sdp

6

14261

2311

976171

9BB.0196

life

&

866.90000

6L15000

117.61100

10.9449

rate

&

416.20000

69.3B667

33B.606G7

IB.4019

zhr«ite

6

348.70000

E0J1667

9G.90167

9.0439

…4・

 

PooledCovarianceMatrixInfomation

CovarianceMatrixRank

NaturalLogoftheDeterminantoftheCovarianceMatrix

4

28剧28

表3类间距离及三类总体均值差异的显著性检验

PairwiseSquaredDistancesBetween

Groups

2

-1-

D(

i|j)=(X-X

ycov(x-

X)

■1-1

1J

[|

J

SquaredDistancetotype

Fromtype

1

2

3

1

0

37.5E2S3

76.87B03

2

37,58288

0

10.81428

3

75*57803

10.91423

0

FStatistg

NDF=4,DDF二12

farSquaredDistancetotype

Fromtype

1

2

3

1

0

22.64373

45.5S562

2

22.5^973

Q

G.54057

8

45.58562

B.64857

0

Prob>MahsilanoblsDistance

forSquaredDistancetotj/pe

Fromtype

1

2

3

1

LQOOO

<.0001

<.0001

2

<.0001

LOOOQ

0.0049

8

<.0001

0.0043

1.0000

PairffiseGenera1izedSquaredDistancesBetweenGroups

2

-1_

D(ilj)-CX-X

ycov(x-

X)

iJ

i

J

表3给出了类1与类2之间的马氏距离为37.58288,类1与类3之间的马氏距离为

75.97603,类2与类3之间的马氏距离为10.91428.类与类之间总体均值的F检验统计量值

分布为22.54978,45.58562,22.54973,对应的检验概率分别为<0.0001,<0.0001,<0.0001,说明三类总体均值两辆之间的差异是显著的,因此判别分析有意义。

表4线形判别函数

LinearDiscriminantFunctionfortype

Variable

123

Constant

-167.10892

-93.12840

-62.22473

gdp

0.00204

0.0006250

0.0002578

1ife

1.66562

1.49389

1.31B81

rate

-0.37065

-0.002

-0.D884O

zhreite

1.72951

1.19559

0.85253

由表4可写出线形判别函数如下:

高发展水平:

y仁-157.18932+0.00204gdp+1.66582life-0.37085rate+1.72851zhrate

中等发展水平Y2=-99.12840+0.0006250gdp+1.49389life-0.09262rate+1.19559zhrate

低发展水平:

Y3=-62.22473+0.0002576gdp+1.31631life-0.08940rate+0.85253zhrate

表5:

用距离判别法判别分析结果

ResubstitutionResultsusingLinearDiscriminantFunction

GeneralizedSquaredDistanceFundiion

1

2-

T_

D(X)二(X-XY

GOV(X-X

JJ

J

PosteriorProbabi1ityofMembership

inEachtype

2

2

Pr(jIX)=

:

exp(-.5D(X))J

/SUMexp(-.5D(X))kk

PosteriorProbabi1ItyofMembershipintm

Fron

ClassIfled

Obs

type

Intotype

1

2

3

1

1

1

LOQOO

0.0000

Q.0000

2

1

1

LOOOO

0.0000

0.0000

3

1

1

LOOOO

0.0000

o.mo

4

1

1

LOOOO

0.0000

0.0000

5

1

1

LODOO

0*0000

0.0000

6

1

1

LOOOO

0.0000

0.0000

1

2

2

O.OOOD

0.9999

0.0001

8

2

2

0.0000

0,9947

0.0053

9

2

2

0.0000

0.9998

0.0002

IQ

2

2

0.0000

0.9411

0』即9

11

2

2

0.0000

0.994。

0.0060

12

2

2

0.0000

0.8953

0.1042

13

3

3

0.0000

0,0043

0.9957

U

3

3

0.0000

0.0001

0.9999

15

3

3

(kOOOO

0.0023

D.8977

16

3

3

0.0000

0.0000

1.0000

17

3

3

0.0000

0,2579

0.7421

18

3

3

0.0000

0,4578

0.5022

19

1*

LOQQQ

0.0000

0.0000

20

I*

3*

0.0000

O.OB71

Q.8328

21

0.0000

O.86C0

0.1340

22

2*

0.0000

0,9139

O.OB71

$

Misclassifledobservation

由表5得,最后四个观测的归类结果为19号(日本)观测为高发展水平国家,第

号(印度)为第3类,即低发展水平国家,21号(中国)和22号(南非)归为中等发展水平国家。

20

表6距离判别法判别分析结果小结

Resub^titutionSummaryLinear

Discriminant

Function

General(zedSquaredDistanceFunction

2

D(X)=

__1

(x-xyaw

(X-X)

j

j

J

PosteriorProbabi1ityofMembershipinEachtype

Pr(j|X)-exp(-.5

2

D(X))/SUM

2

exp(^5D00)

jk

k

Number

ofObservations皐ndPercent

Clft&slfied

Intotype

Fromtype

1

2

3

Total

1

2

1

4

25.00

50.00

25血

100.00

1

S

0

0

6

100.00

0,00

100,00

2

0

e

0

6

O.OQ

iod.oo

0.00

100.00

3

a

0

£

s

0.00

0.00

10LOO

100.00

Total

7

e

7

22

3L82

36.3B

31.82

100.00

Priors

0.93999

0.38393

0.39933

ErrorCountEstimates

fartype

1

2

3

Total

Rate

0.0000

0.0000

0.0000

0.0000

Priors

0.3333

0.3333

0.9SS3

表6给出了分类错误信息,由输出结果可知分类错误的比率为0,即正确的比率为100%。

本程序中第二个判别分析过程的选项“pool=test,”求进行类内协方差阵一致性检验,

检验的显著性水平由选项”slpool=0.05”给出为0.05.priors语句给出了各发展水平国家的先

验概率。

表7分类信息及类内协方差阵一致性检验结果

ClassLevelInformation

type

1

2

3

Variable

Neime

_1

_2

_3

Frequency

g

6

g

WeightProportion

G.00000.333333

6.00000J33333

£.00000.333333

Prior

Probabi1iity

0.300000

0.400000

0.300000

VlthlnCovariance

MatrixInformation

NaturalLoeofthe

Cavariance

Determinantofthe

type

MatrixRank

CovarianceMatrix

1

4

21.B1319

2

4

22J9095

3

4

26,58432

Poo1ed

4

28*69428

Chi-SquareDFPr>ChiSq

、4E・Q翱893200.00(18

SincetheChi-SquarevaIueissignificantatthe0.05IeveI,thewithincovarifinesmatricsswillbeusedinth&discriminantfunction*Reference:

Morrison,D・F・(1976)MultivariateStatistical

Methodsp2G2.

表7表明3个类的先验概率分别为0.3,0.4,0.3,类内协方差阵行列式的自然对数不相

等,表明类内协方差阵不相等,而卡方统计量值为46.068898,对应的概率是0.0008,在0.05

的显著性水平下是显著的,即类内协方差阵存在显著差异。

由于类内协方差阵不等,所以判

别函数应是二次函数。

表8类间配对广义马氏距离

TheDISCRIMProcedure

PaiiseGenera」izedSquaredDistancesBetweenGroups

=(X-X)PGOV1(X-R)+InIGOV|-2InPRIOR

GeneralizedSquaredDistainc:

总totype

Fromtype

1

23

1

24/2114

316.04476

2619

2

230.67593

24.62953

1Q2.516S7

3

1354

66.37461

28.97226

由表8可知,类内广义马氏距离不再为0,而且类间的广义马氏距离也不再相等,因而

类内协方差和先验概率对后验概率的计算是起作用的。

表9用Bayes判别法得到的判别分析部分结果

ResubstitutionResults

□sing;CkiadraticDiscriminantFundion

GeneraIi;edSquaredDistanceFunctiun

2_-1_

D(X)=(X-XVCOYCX-X)+InICOYI

Hl!

-IKfi

JJJJ)

PosteriorProbabiIityofMembershipinEachtype

22

PrCJlX)二exp(-.5D(X))/SUMeacp(-.5D(X))

 

由表9可知,用BAYES判别法对待判样品的判别结果与距离判别法结果一致。

本程序中的第三个过程要求进行非参数分析,即对类密度函数进行非

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 农林牧渔 > 林学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1