多元统计分析课后习题解答第四章.docx
《多元统计分析课后习题解答第四章.docx》由会员分享,可在线阅读,更多相关《多元统计分析课后习题解答第四章.docx(16页珍藏版)》请在冰豆网上搜索。
![多元统计分析课后习题解答第四章.docx](https://file1.bdocx.com/fileroot1/2022-10/29/02a79965-8eda-4907-9c46-3c4c2e35af37/02a79965-8eda-4907-9c46-3c4c2e35af371.gif)
多元统计分析课后习题解答第四章
第四章判别分析
4.1简述欧几里得距离与马氏距离的区别和联系。
则欧几里得距离为
。
欧几里得距离的局限有①在多元数据分析中,其度量不合理。
②会受到实际问题中量纲的影响。
设X,Y是来自均值向量为!
<■|,协方差为
IEMBEDEquation.3l£
的总体G中的p维样本。
则马氏距离为
D(X,Y)=
即单位阵时,D(X,Y)=
因此,在一定程度上,欧几里得距离是马氏距离的特殊情况,马氏距离是欧几里得距离
的推广。
4.2试述判别分析的实质。
答:
判别分析就是希望利用已经测得的变量数据,找出一种判别函数,使得这一函数具有某
种最优性质,能把属于不同类别的样本点尽可能地区别开来。
设R1,R2,,,Rk是p维空
间Rp的k个子集,如果它们互不相交,且它们的和集为K,则称为瓯?
的
一个划分。
判别分析问题实质上就是在某种意义上,以最优的性质对p维空间卜f构造一个
“划分”,这个“划分”就构成了一个判别规则。
4.3简述距离判别法的基本思想和方法。
答:
距离判别问题分为①两个总体的距离判别问题和②多个总体的判别问题。
其基本思想都
是分别计算样本与各个总体的距离(马氏距离),将距离近的判别为一类。
1两个总体的距离判别问题
设有协方差矩阵刀相等的两个总体G和G2,其均值分别是卩i和卩2,对于一个新的样品X,要判断它来自哪个总体。
计算新样品X到两个总体的马氏距离D2(X,G)和D2(X,G),则
X,D2(X,G)ID2(X,G)
22
X,D(X,G)>D(X,G,
具体分析,
D2(X,GJ_D2(X,Q)
=(X—w)‘亍(X-w)—(X—订艺'(X-应)
=X勺‘X—2XWw+w;艺'w—(X空‘X—2X空+W艺'w2)
—2X艺(w2—w)+w艺w—w2艺w2
=2X工'(w一wi)'(wi'w>)工'(w一w)
(+$
=-2X—七坐I兰(w—w)
k2丿
-~2(X-wa=_2a(X-Q
记w(x)=a(x-w则判别规则为
W(X)
X,W(X)<0
2多个总体的判别问题。
设有k个总体G,G2,…,Gk,其均值和协方差矩阵分别是内,血,…,%和厶,工2,…,厶,
且厶=艺2二…=厶=艺。
计算样本到每个总体的马氏距离,于哪个总体。
具体分析,D2(X,G-.)=(X-出)1」(X-%)
二X才X-2%W」X•%.才%.
二X才X-2(IXC)
可以取线性判别函数为
W(X)=lXC.,=1,2,,k
相应的判别规则为XGi若Wi(X)=max(I?
XC)
4.4简述贝叶斯判别法的基本思想和方法。
基本思想:
设k个总体G1)G2/,Gk,其各自的分布密度函数
到哪个总体的距离最小就属
fi(X),f2(x),,fk(x),假设k
k
个总体各自出现的概率分别为q1,q2/,qk,qi一0,qi=1。
设将本来属于Gj总体的样品
im
错判到总体Gj时造成的损失为C(j|i),i,j=1,2,…,k。
设k个总体G,G2,…,Gk相应的p维样本空间为R=(R,,R2/,Rk)。
在规则R下,将属于Gj的样品错判为Gj的概率为
P(j|i,R)「rfi(x)dxi,j=1,2/,ki=j
Rj
则这种判别规则下样品错判后所造成的平均损失为
k
r(i|R)八[C(j|i)P(j|i,R)]i=12,k
j二
则用规则R来进行判别所造成的总平均损失为
k
g(R)八qir(i,R)
i二
kk
八q「C(j|i)P(j|i,R)
i4j4
贝叶斯判别法则,就是要选择一种划分Ri,R2,…,Rk,使总平均损失g(R)达到极小。
kk
基本方法:
g(R)八C(j|i)P(j|i,R)
i£j仝
kk
八q「C(j|i)Rfi(x)dx
iijij
kk
(、qC(j|i)fi(x))dX
jAji生
kk
令vqiC(j|i)fi(x)=hj(x),则g(R)工為Lhj(x)dx
idj吕j
k
若有另一划分R*=(R*,R;,,R;),g(R*)八R*hj(x)dx
j#j
则在两种划分下的总平均损失之差为
kk
g(R)-g(R*)八'山(x)-hj(x)]dx
i二jWRj
因为在Ri上hi(x)_hj(x)对一切j成立,故上式小于或等于零,是贝叶斯判别的解。
r—(rr…r)r={x山(x)=mjnkhj(x)}i—i;…k
从而得到的划分R-(R1,R2,,Rk)为Skj丨-1,;,,k
4.5简述费希尔判别法的基本思想和方法。
答:
基本思想:
从k个总体中抽取具有p个指标的样品观测数据,借助方差分析的思想构造一个线性判别函数
系数u=(U1,U2,…,Up)•可使得总体之间区别最大,而使每个总体内部的离差最小。
将新样
品的P个指标值代入线性判别函数式中求出U(X)值,然后根据判别一定的规则,就可以
判别新的样品属于哪个总体。
4.6试析距离判别法、贝叶斯判别法和费希尔判别法的异同。
答:
①费希尔判别与距离判别对判别变量的分布类型无要求。
二者只是要求有各类母体的两阶矩存在。
而贝叶斯判别必须知道判别变量的分布类型。
因此前两者相对来说较为简单。
②当k=2时,若-1<-则费希尔判别与距离判别等价。
当判别变量服从正态分布
时,二者与贝叶斯判别也等价。
3当时,费希尔判别用-11作为共同协差阵,实际看成等协差阵,此与
距离判别、贝叶斯判别不同。
4距离判别可以看为贝叶斯判别的特殊情形。
贝叶斯判别的判别规则是X
IG1IInd
,W(X)
,W(X)距离判别的判别规则是
X,W(X)<0
二者的区别在于阈值点。
当4=^2,C(1|2)=C(2|1)时,d=1,Ind=o。
二者完全
相同。
4.7设有两个二元总体丄和丄,从中分别抽取样本计算得到
(5.82.1\
假设丄1二二,试用距离判别法建立判别函数和判别规则。
样品X
(6,0)'应属于哪个总体?
(xl口)=ffi.O|—(4,0.5)=(2.0.5)
即样品X属于总体''1
4.8某超市经销十种品牌的饮料,其中有四种畅销,三种滞销,三种平销。
下表是这十种品牌饮料的销售价格(元)和顾客对各种饮料的口味评分、信任度评分的平均数。
销售情况
产品序号
销售价格
口味评分
信任度评分
1
2.2
5
8
畅销
2
2.5
6
7
3
3.0
3
9
4
3.2
8
6
5
2.8
7
6
平销
6
3.5
8
7
7
4.8
9
8
8
1.7
3
4
滞销
9
2.2
4
2
10
2.7
4
3
⑴根据数据建立贝叶斯判别函数,并根据此判别函数对原样本进行回判。
⑵现有一新品牌的饮料在该超市试销,其销售价格为3.0,顾客对其口味的评分平均为
8,信任评分平均为5,试预测该饮料的销售情况。
解:
增加group变量,令畅销、平销、滞销分别为groupl、2、3;销售价格为%,口味评
分为冷,信任度评分为X3,用spss解题的步骤如下:
1.在SPSS窗口中选择Analyze^Classify—Discriminate,调出判别分析主界面,将左边的变量列表中的“group”变量选入分组变量中,将Xi、X2、X3变量选入自
变量中,并选择Enterindependentstogether单选按钮,即使用所有自变量进行判别分析。
2•点击DefineRange按钮,定义分组变量的取值范围。
本例中分类变量的范围为
1到3,所以在最小值和最大值中分别输入1和3。
单击Continue按钮,返回主界
面。
如图4.1
图4.1判别分析主界面
3.单击Statistics按钮,指定输出的描述统计量和判别函数系数。
选中Function
Coefficients栏中的Fisher:
给出Bayes判别函数的系数。
(注意:
这个选项不是要给出Fisher判别函数的系数。
这个复选框的名字之所以为Fishers是因为按判
别函数值最大的一组进行归类这种思想是由Fisher提出来的。
这里极易混淆,请
读者注意辨别。
)如图4.2。
单击Continue按钮,返回主界面。
图4.2statistics子对话框
4.单击Classify按钮,弹出classification子对话框,选中Display选项栏中的
Summarytable复选框,即要求输出错判矩阵,以便实现题中对原样本进行回判的要求。
如图4.3。
图4.3classification对话框
5.返回判别分析主界面,单击0K按钮,运行判别分析过程。
1)根据判别分析的结果建立Bayes判别函数:
Bayes判别函数的系数见表4.1。
表中每一列表示样本判入相应类的Bayes判别函数系数。
由
此可建立判别函数如下:
Groupl:
Y1=—81.843-11.689X112.297X216.761X3
Group2:
Y2--94.536-10.707X113.361X217.086X3
Group3:
Y3--17.4492.194<14.960C26.447X3
将各样品的自变量值代入上述三个Bayes判别函数,得到三个函数值。
比较这三个函数值,
哪个函数值比较大就可以判断该样品判入哪一类。
ClassificationFunctionCoefficients
group
1
2
3
X1
-11.689
-10.707
-2.194
x2
12.297
13.361
4.960
x3
16.761
17.086
6.447
(Constant)
-81.843
-94.536
-17.449
Fisher'slineardiscriminantfunctions
表4.1Bayes判别函数系数
根据此判别函数对样本进行回判,结果如表4.2。
从中可以看出在4种畅销饮料中,有3种被
正确地判定,有1种被错误地判定为平销饮料,正确率为75%。
在3种平销饮料中,有2种被
正确判定,有1种被错误地判定为畅销饮料,正确率为66.7%。
3种滞销饮料均正确判定。
整
体的正确率为80.0%。
a
ClassificationResults
group
PredictedGroupMembership
Total
1
2
3
OriginalCount1
3
1
0
4
2
1
2
0
3
3
0
0
3
3
%
1
75.0
25.0
.0
100.0
2
33.3
66.7
.0
100.0
3
.0
.0
100.0
100.