多元统计分析课后习题解答第四章.docx

资源描述

多元统计分析课后习题解答第四章.docx

《多元统计分析课后习题解答第四章.docx》由会员分享，可在线阅读，更多相关《多元统计分析课后习题解答第四章.docx（16页珍藏版）》请在冰豆网上搜索。

多元统计分析课后习题解答第四章.docx

多元统计分析课后习题解答第四章

第四章判别分析

4.1简述欧几里得距离与马氏距离的区别和联系。

则欧几里得距离为

。

欧几里得距离的局限有①在多元数据分析中，其度量不合理。

②会受到实际问题中量纲的影响。

设X,Y是来自均值向量为!

<■|，协方差为

IEMBEDEquation.3l£

的总体G中的p维样本。

则马氏距离为

D（X,Y）=

即单位阵时，D（X,Y）=

因此，在一定程度上，欧几里得距离是马氏距离的特殊情况，马氏距离是欧几里得距离

的推广。

4.2试述判别分析的实质。

答：

判别分析就是希望利用已经测得的变量数据，找出一种判别函数，使得这一函数具有某

种最优性质，能把属于不同类别的样本点尽可能地区别开来。

设R1，R2,,，Rk是p维空

间Rp的k个子集，如果它们互不相交，且它们的和集为K，则称为瓯?

的

一个划分。

判别分析问题实质上就是在某种意义上，以最优的性质对p维空间卜f构造一个

“划分”，这个“划分”就构成了一个判别规则。

4.3简述距离判别法的基本思想和方法。

答：

距离判别问题分为①两个总体的距离判别问题和②多个总体的判别问题。

其基本思想都

是分别计算样本与各个总体的距离（马氏距离），将距离近的判别为一类。

1两个总体的距离判别问题

设有协方差矩阵刀相等的两个总体G和G2,其均值分别是卩i和卩2,对于一个新的样品X,要判断它来自哪个总体。

计算新样品X到两个总体的马氏距离D2（X,G）和D2（X,G）,则

X,D2（X,G）ID2（X,G）

X,D（X,G）>D（X,G,

具体分析，

D2（X,GJ_D2（X,Q）

=（X—w）‘亍（X-w）—（X—订艺'（X-应）

=X勺‘X—2XWw+w；艺'w—（X空‘X—2X空+W艺'w2）

—2X艺（w2—w）+w艺w—w2艺w2

=2X工'（w一wi）'（wi'w>）工'（w一w）

（+$

=-2X—七坐I兰（w—w）

k2丿

-~2（X-wa=_2a（X-Q

记w（x）=a（x-w则判别规则为

W（X）

X,W（X）<0

2多个总体的判别问题。

设有k个总体G，G2,…,Gk，其均值和协方差矩阵分别是内，血,…,%和厶，工2,…,厶,

且厶=艺2二…=厶=艺。

计算样本到每个总体的马氏距离,于哪个总体。

具体分析，D2（X,G-.）=（X-出）1」（X-%）

二X才X-2%W」X•%.才%.

二X才X-2（IXC）

可以取线性判别函数为

W（X）=lXC.,=1,2,,k

相应的判别规则为XGi若Wi（X）=max（I?

XC）

4.4简述贝叶斯判别法的基本思想和方法。

基本思想：

设k个总体G1）G2/,Gk，其各自的分布密度函数

到哪个总体的距离最小就属

fi（X）,f2（x）,,fk（x），假设k

个总体各自出现的概率分别为q1,q2/,qk,qi一0,qi=1。

设将本来属于Gj总体的样品

错判到总体Gj时造成的损失为C（j|i）,i,j=1,2，…，k。

设k个总体G,G2,…，Gk相应的p维样本空间为R=（R,,R2/,Rk）。

在规则R下，将属于Gj的样品错判为Gj的概率为

P（j|i,R）「rfi（x）dxi,j=1,2/,ki=j

则这种判别规则下样品错判后所造成的平均损失为

r（i|R）八[C（j|i）P（j|i,R）]i=12,k

j二

则用规则R来进行判别所造成的总平均损失为

g（R）八qir（i,R）

i二

八q「C（j|i）P（j|i,R）

i4j4

贝叶斯判别法则，就是要选择一种划分Ri,R2,…,Rk，使总平均损失g（R）达到极小。

基本方法：

g（R）八C（j|i）P（j|i,R）

i£j仝

八q「C（j|i）Rfi（x）dx

iijij

（、qC（j|i）fi（x））dX

jAji生

令vqiC（j|i）fi（x）=hj（x），则g（R）工為Lhj（x）dx

idj吕j

若有另一划分R*=（R*,R；,,R；），g（R*）八R*hj（x）dx

j#j

则在两种划分下的总平均损失之差为

g（R）-g（R*）八'山（x）-hj（x）]dx

i二jWRj

因为在Ri上hi（x）_hj（x）对一切j成立，故上式小于或等于零，是贝叶斯判别的解。

r—（rr…r）r={x山（x）=mjnkhj（x）}i—i；…k

从而得到的划分R-（R1，R2，,Rk）为Skj丨-1,；,,k

4.5简述费希尔判别法的基本思想和方法。

答：

基本思想：

从k个总体中抽取具有p个指标的样品观测数据，借助方差分析的思想构造一个线性判别函数

系数u=（U1，U2,…，Up）•可使得总体之间区别最大，而使每个总体内部的离差最小。

将新样

品的P个指标值代入线性判别函数式中求出U（X）值，然后根据判别一定的规则，就可以

判别新的样品属于哪个总体。

4.6试析距离判别法、贝叶斯判别法和费希尔判别法的异同。

答：

①费希尔判别与距离判别对判别变量的分布类型无要求。

二者只是要求有各类母体的两阶矩存在。

而贝叶斯判别必须知道判别变量的分布类型。

因此前两者相对来说较为简单。

②当k=2时，若-1<-则费希尔判别与距离判别等价。

当判别变量服从正态分布

时，二者与贝叶斯判别也等价。

3当时，费希尔判别用-11作为共同协差阵，实际看成等协差阵，此与

距离判别、贝叶斯判别不同。

4距离判别可以看为贝叶斯判别的特殊情形。

贝叶斯判别的判别规则是X

IG1IInd

，W（X）

距离判别的判别规则是

X，W（X）<0

二者的区别在于阈值点。

当4=^2，C（1|2）=C（2|1）时，d=1,Ind=o。

二者完全

相同。

4.7设有两个二元总体丄和丄,从中分别抽取样本计算得到

（5.82.1\

假设丄1二二，试用距离判别法建立判别函数和判别规则。

样品X

（6，0）'应属于哪个总体?

（xl口）=ffi.O|—（4,0.5）=（2.0.5）

即样品X属于总体''1

4.8某超市经销十种品牌的饮料，其中有四种畅销，三种滞销，三种平销。

下表是这十种品牌饮料的销售价格（元）和顾客对各种饮料的口味评分、信任度评分的平均数。

销售情况

产品序号

销售价格

口味评分

信任度评分

2.2

畅销

2.5

3.0

3.2

2.8

平销

3.5

4.8

1.7

滞销

2.2

2.7

⑴根据数据建立贝叶斯判别函数，并根据此判别函数对原样本进行回判。

⑵现有一新品牌的饮料在该超市试销，其销售价格为3.0，顾客对其口味的评分平均为

8，信任评分平均为5，试预测该饮料的销售情况。

解：

增加group变量，令畅销、平销、滞销分别为groupl、2、3;销售价格为％，口味评

分为冷，信任度评分为X3,用spss解题的步骤如下：

1.在SPSS窗口中选择Analyze^Classify—Discriminate,调出判别分析主界面，将左边的变量列表中的“group”变量选入分组变量中，将Xi、X2、X3变量选入自

变量中，并选择Enterindependentstogether单选按钮，即使用所有自变量进行判别分析。

2•点击DefineRange按钮，定义分组变量的取值范围。

本例中分类变量的范围为

1到3,所以在最小值和最大值中分别输入1和3。

单击Continue按钮，返回主界

面。

如图4.1

图4.1判别分析主界面

3.单击Statistics按钮，指定输出的描述统计量和判别函数系数。

选中Function

Coefficients栏中的Fisher:

给出Bayes判别函数的系数。

（注意：

这个选项不是要给出Fisher判别函数的系数。

这个复选框的名字之所以为Fishers是因为按判

别函数值最大的一组进行归类这种思想是由Fisher提出来的。

这里极易混淆，请

读者注意辨别。

）如图4.2。

单击Continue按钮，返回主界面。

图4.2statistics子对话框

4.单击Classify按钮，弹出classification子对话框，选中Display选项栏中的

Summarytable复选框，即要求输出错判矩阵，以便实现题中对原样本进行回判的要求。

如图4.3。

图4.3classification对话框

5.返回判别分析主界面，单击0K按钮，运行判别分析过程。

1）根据判别分析的结果建立Bayes判别函数：

Bayes判别函数的系数见表4.1。

表中每一列表示样本判入相应类的Bayes判别函数系数。

由

此可建立判别函数如下：

Groupl:

Y1=—81.843-11.689X112.297X216.761X3

Group2:

Y2--94.536-10.707X113.361X217.086X3

Group3:

Y3--17.4492.194<14.960C26.447X3

将各样品的自变量值代入上述三个Bayes判别函数，得到三个函数值。

比较这三个函数值，

哪个函数值比较大就可以判断该样品判入哪一类。

ClassificationFunctionCoefficients

group

-11.689

-10.707

-2.194

12.297

13.361

4.960

16.761

17.086

6.447

（Constant）

-81.843

-94.536

-17.449

Fisher'slineardiscriminantfunctions

表4.1Bayes判别函数系数

根据此判别函数对样本进行回判，结果如表4.2。

从中可以看出在4种畅销饮料中，有3种被

正确地判定，有1种被错误地判定为平销饮料，正确率为75%。

在3种平销饮料中，有2种被

正确判定，有1种被错误地判定为畅销饮料，正确率为66.7%。

3种滞销饮料均正确判定。

整

体的正确率为80.0%。

ClassificationResults

group

PredictedGroupMembership

Total

OriginalCount1

75.0

25.0

100.0

33.3

66.7

100.0

100.

展开阅读全文