应用多元统计分析课后答案.docx

资源描述

应用多元统计分析课后答案.docx

《应用多元统计分析课后答案.docx》由会员分享，可在线阅读，更多相关《应用多元统计分析课后答案.docx（32页珍藏版）》请在冰豆网上搜索。

应用多元统计分析课后答案.docx

应用多元统计分析课后答案

2.1.试叙述多元联合分布和边际分布之间的关系

解：

多元联合分布讨论多个随机变量联合到一起的概率分布状况，

X（X1,X2,LXp）的联合分布密

度函数是一个p维的函数，而边际分布讨论是X（X1,X2,LXp）

的子向量的概率分布，其概率密度

函数的维数小于p。

2.2设二维随机向量

（X1X2）服从二元正态分布，写出其联合分布。

解：

设（X1

X2）的均值向量为

2，协方差矩阵为

122，则其联合分布密

度函数为

f（x）2

1/2

exp

12（x

μ）

（xμ）。

2.3已知随机向量

（X1

X2）的联合密度函数为

f（x1,x2）

2[（d

c）（x1a）（ba）（x2c）

2（x1a）（x2

c）]

（ba）2（dc）2

其中ax1b，cx2d。

求

1）随机变量X1和X2的边缘密度函数、均值和方差；

2）随机变量X1和X2的协方差和相关系数；

3）判断X1和X2是否相互独立。

4）

1）解：

随机变量X1和X2的边缘密度函数、均值和方差；

为

cov（x1,x2）

x1x2

和X2由于f（x1,x2）fx1（x1）fx2（x2），所以不独立。

2.4设X（X1,X2,LXp）服从正态分布，已知其协方差矩阵为对角阵，证明其分量是相互独立的随机变量。

解：

因为X（X1,X2,LXp）的密度函数为

f（x1,...,xp）

11/2

2Σexp

2（xμ）Σ（xμ）

又由于Σ

Σ1222L

Σ1

则f（x1,...,xp）

22L

1/2

exp

12（x

μ）Σ1

（xμ）

exp

1（x1

1）2

1（x2

3）2

1（xp

i1i2exp

（xi

i）2

2.6渐近无偏性、有效性和一致性；

p）2

f（x1）...f（xp）则其分量是相互独立。

2.7设总体服从正态分布，X~Np（μ,Σ），有样本X1,X2,...,Xn。

由于X是相互独立的正态分布随

机向量之和，所以

X也服从正态分布。

又

E（X）

Xin

D（X）

Xinn12

所以X~Np（μ,Σ）。

2.8

方法

（Xi

X）（Xi

X）

XiXinXX

E（Σ?

）1

1E（

XiXi

nXX）

EXiXinEXXi1

n11（n

1）Σ

Σ。

方法2：

（Xi-X）（Xi-i1

X）

Xi-μ（X

μ）

Xi-μ

（Xμ）

（Xi

-μ）（Xi-μ）

2（Xi1

i-μ）（X-μ）

n（X

μ）（Xμ

Xμ）

（X

i-μ）（Xi-μ）

2n（X

μ）（Xμ）

n（X

μ）（X

μ）

（X

i-μ）（Xi-μ）

n（X

μ）（Xμ）

E（）

E（Xi-

μ）（Xi-

μ）n（Xμ）（X

μ）

1i1

E（Xi-μ）（Xi-

μ）nE（Xμ）（X

μ）

Σ。

故

为Σ的无偏估计。

2.9.设X

（1）,X

（2）,...,X（n）是从多元正态分布X~Np（μ,Σ）抽出的一个简单随机样本，试求S的分布

证明：

设Γ

*L*（ij）为一正交矩阵，即ΓΓI

1nL

由于Xi（i1,2,3,4,Ln）独立同正态分布,且Γ为正交矩阵

所以（12Ln）独立同正态分布。

且有

Ζn1Χi，E（Ζn）1E（Χi）nμ，Var（Zn）Σ。

ni1ni1

E（Ζa）E（rajΧj）（a1,2,3,L,n1）

Var（Ζa）Var（rajΧj）j1

ra2jVarΧjΣra2jΣ

j1j1n

所以Ζ1Ζ2LΖn1独立同N（0,Σ）分布。

又因为S（XjX）（XjX）i1

XjXjnXX

因为nXX

nn1

ZnZn

又因为

XjXj

X2L

XnΓΓ2

Zn2

所以原式

XjXj

ZnZ

ZjZjZ

nZn

Z1Z1

Z2Z2.

..ZnZn-ΖnΖn

j1j1

故Sjj，由于Z1,Z2,L,Zn1独立同正态分布Np（0,Σ），所以

Sjj~Wp（n1,）j1

2.10.设Xi（nip）是来自Np（μi,Σi）的简单随机样本，i1,2,3,L,k，

1）已知μ1μ2...μkμ且Σ1Σ2...ΣkΣ，求μ和Σ的估计

2）已知Σ1Σ2...ΣkΣ求μ1,μ2,...,,μk和Σ的估计

pn21knaa-1a

（2）lnL（μ1,L,μk,Σ）ln

（2）pΣexp[（xia-μa）Σ-1（xia-μa）]

lnL（μ,Σ）

1n1knaa-1a

一个正态总体H0：

μμ0

T2（n1）[n（Xμ0）S1n（Xμ0）]）

2pnln

（2）2lnΣ2a1i1（xi-μa）Σ（xi-μa）

两个正态总体H0：

μ1μ2

有共同已知协差阵T02nm（XY）Σ1（XY）~2（p）T022

有共同未知协差阵F（nm2）p1T2~F（p,nmp1）FF

（nm2）p

2nm1nm

其中T2（nm2）（XY）S1（XY））nmnm

协差阵不等nmF（np）nZS-1Z~F（p,np）FFp

（np）n-1

协差阵不等nmFZS-1Z~F（p,np）FF

多个正态总体H0：

单因素方差FSSSSEA（（nk1k））~F（k1,nk）FF

多因素方差

协差阵的检验

检验ΣΣ0

H0：

Σ0

exp

1n/2

12trSSn/2

np/2

n/2

np/2e

exp

trS*

Σ2L

检验Σ1Σ2L

ΣkH0：

Σ1

统计量k

Σk

np/2

pni/2nii

答：

（！

）霍特林分布是t分布对于多元变量的推广。

n（X）2

n（X

）（S2）1（X）而若设X~Np（μ,Σ），S~Wp（n,Σ）且X与S

相互独立，np，则称统计量的分布为非中心霍特林T2分布。

若X~Np（0,Σ），S~Wp（n,Σ）且X与S相互独立，令T2nXS1X，则

np1T2

F（p,n

p1）

（2）威尔克斯分布在实际应用中经常把统计量化为T2统计量进而化为F统计量，利用F统计量来解决多元统计分析中有关检验问题。

F统计量及分别

任意

n1p11（p,n1,1）

11~F（p,n1p1）p（p,n1,1）

任意

n1p1（p,n1,2）

n1p1~F（2p,2（n1p））p（p,n1,2）

任意

n11（1,n1,n2）~F（n,n）~F（n2,n1）n2（1,n1,n2）

任意

n111（2,n1,n2）~F（2n,2（n1））

~F（2n2,2（n11））n2（2,n1,n2）

与F统计量的关系

3.3试述威尔克斯统计量在多元方差分析中的重要意义。

答：

威尔克斯统计量在多元方差分析中是用于检验均值的统计量。

H0：

μ1μ2LμkH1：

至少存在ij使μiμj

用似然比原则构成的检验统计量为

E~（p,nk,k1）给定检验水平AE

，查

Wilks分布表，确定临界值，然后作出统计判断。

第四章

4.1简述欧几里得距离与马氏距离的区别和联系。

答：

设p维欧几里得空间中的两点X=和Y=。

则欧几里得距离为

。

欧几里得距离的局限有①在多元数据分析中，其度量不合理。

②会受到实际问题中量纲

的影响。

设X,Y是来自均值向量为，协方差为的总体G中的p维样本。

则马氏距离为

D（X,Y）=。

当即单位阵时，D（X,Y）==即欧几里得距离。

因此，在一定程度上，欧几里得距离是马氏距离的特殊情况，马氏距离是欧几里得距离的推广。

4.2试述判别分析的实质。

答：

判别分析就是希望利用已经测得的变量数据，找出一种判别函数，使得这一函数具有某种最优性质，能把属于不同类别的样本点尽可能地区别开来。

设R1，R2，⋯，Rk是p维空间Rp的k个子集，如果

它们互不相交，且它们的和集为，则称为的一个划分。

判别分析问题实质上就是在某种意义上，以最优的性质对p维空间构造一个“划分”，这个“划分”就构成了一个判别规则。

4.3简述距离判别法的基本思想和方法。

答：

距离判别问题分为①两个总体的距离判别问题和②多个总体的判别问题。

其基本思想都是分别计算样本与各个总体的距离（马氏距离），将距离近的判别为一类。

1两个总体的距离判别问题

设有协方差矩阵∑相等的两个总体G1和G2，其均值分别是1和2，对于一个新的样品X，要判断它来自哪个总体。

计算新样品X到两个总体的马氏距离D2（X，G1）和D2（X，G2），则

X，D2（X，G1）D2（X，G2）

X，D2（X，G1）>D2（X，G2，

具体分析，

D2（X,G1）D2（X,G2）

（Xμ1）Σ1（Xμ1）（Xμ2）Σ1（Xμ2）

XΣ1X2XΣ1μ1μ1Σ1μ1（XΣ1X2XΣ1μ2μ2Σ1μ2）

111

2XΣ（μ2μ1）μ1Σμ1μ2Σμ2

2XΣ1（

μ2μ1）（μ1μ2）Σ（μ1μ2）

μ1

μ2

Σ（μ1μ2）

2（X

μ）α

α（Xμ）

记W（X）

α（X

μ）

则判别规则为

X，W（X）<0

②多个总体的判别问题。

4.4

简述贝叶斯判别法的基本思想和方法。

4.5

造成的损失为C（j|i），i,j1,2,,k

在规则R下，将属于Gi的样品错判为Gj的概率为

P（j|i,R）Rfi（x）dxi,j1,2,,kijRj

则这种判别规则下样品错判后所造成的平均损失为

r（i|R）[C（j|i）P（j|i,R）]i1,2,,k

贝叶斯判别法则，就是要选择一种划分R1,R2,,Rk，使总平均损失g（R）达到极小。

kkkk

基本方法：

g（R）qiC（j|i）P（j|i,R）qiC（j|i）Rfi（x）dx

i1j1i1j1Rj

kkkk

j1Rj（i1qiC（j|i）fi（x））dx令i1qiC（j|i）fi（x）hj（x），则g（R）j1Rjhj（x）dx

若有另一划分R（R1,R2,,Rk），g（R）

R*hj（x）dx

则在两种划分下的总平均损失之差为g（R）g（R*）

RR*[hi（x）hj（x）]dxi1j1RiRj

因为在Ri上hi（x）hj（x）对一切j成立，故上式小于或等于零，是贝叶斯判别的解

从而得到的划分R（R1,R2,,Rk）为i

4.6

简述费希尔判别法的基本思想和方法。

答：

基本思想：

从k个总体中抽取具有p个指标的样品观测数据，借助方差分析的思想构造一个线性判别

函数

U（X）u1X1u2X2LupXpuX

系数u（u1,u2,,up）可使得总体之间区别最大，而使每个总体内部的离差最小。

将新样品的p个指标值代入线性判别函数式中求出U（X）值，然后根据判别一定的规则，就可以判别新的样品属于哪个总体。

4.7试析距离判别法、贝叶斯判别法和费希尔判别法的异同。

答：

①费希尔判别与距离判别对判别变量的分布类型无要求。

二者只是要求有各类母体的两阶矩存在。

而贝叶斯判别必须知道判别变量的分布类型。

因此前两者相对来说较为简单。

2当k=2时，若则费希尔判别与距离判别等价。

当判别变量服从正态分布时，二者与贝叶斯判别也等价。

3当时，费希尔判别用作为共同协差阵，实际看成等协差阵，此与距离判别、贝叶斯判别不同。

4距离判别可以看为贝叶斯判别的特殊情形。

贝叶斯判别的判别规则是X，W（X）

X，W（X）

距离判别的判别规则是

X，W（X）

X，W（X）<0

二者的区别在于阈值点。

当q1q2，C（1|2）C（2|1）时，d1，lnd0。

二者完全相同。

,假设，试用距离判别法建立判别函数和判别规则。

样品X=（6，0）'应属于哪个总体？

解：

=，=，==

即样品X属于总体

第五章

5.1判别分析和聚类分析有何区别？

答：

即根据一定的判别准则，判定一个样本归属于哪一类。

具体而言，设有n个样本，对每个样本测得p项指标（变量）的数据，已知每个样本属于k个类别（或总体）中的某一类，通过找出一个最优的划分，使得不同类别的样本尽可能地区别开，并判别该样本属于哪个总体。

聚类分析是分析如何对样品（或变量）进行量化分类的问题。

在聚类之前，我们并不知道总体，而是通过一次次的聚类，使相近的样品（或变量）聚合形成总体。

通俗来讲，判别分析是在已知有多少类及是什么类的情况下进行分类，而聚类分析是在不知道类的情况下进行分类。

5.2试述系统聚类的基本思想。

答：

系统聚类的基本思想是：

距离相近的样品（或变量）先聚成类，距离相远的后聚成类，过程一直进行下去，每个样品（或变量）总能聚到合适的类中。

5.3对样品和变量进行聚类分析时，所构造的统计量分别是什么？

简要说明为什么这样构造？

答：

对样品进行聚类分析时，用距离来测定样品之间的相似程度。

因为我们把n个样本看作p维空间的n个点。

点之间的距离即可代表样品间的相似度。

常用的距离为

一）闵可夫斯基距离：

dij（q）（Xik

q取不同值，分为

1）绝对距离（q1），

dij

（1）XikXjk

dij

（2）（Xik

二）马氏距离

dij（L）

三）兰氏距离

di2j（M）（XiXj）Σ1（XiXj）

对变量的相似性，我们更多地要了解变量的变化趋势或变化方向，因此用相关性进行衡量。

将变量看作p维空间的向量，一般用

（一）

夹角余弦

cos

XikXjkk1p

Xik2）（Xj2k）

二）