应用多元统计分析课后答案.docx

上传人:b****4 文档编号:3938044 上传时间:2022-11-26 格式:DOCX 页数:32 大小:346.45KB
下载 相关 举报
应用多元统计分析课后答案.docx_第1页
第1页 / 共32页
应用多元统计分析课后答案.docx_第2页
第2页 / 共32页
应用多元统计分析课后答案.docx_第3页
第3页 / 共32页
应用多元统计分析课后答案.docx_第4页
第4页 / 共32页
应用多元统计分析课后答案.docx_第5页
第5页 / 共32页
点击查看更多>>
下载资源
资源描述

应用多元统计分析课后答案.docx

《应用多元统计分析课后答案.docx》由会员分享,可在线阅读,更多相关《应用多元统计分析课后答案.docx(32页珍藏版)》请在冰豆网上搜索。

应用多元统计分析课后答案.docx

应用多元统计分析课后答案

2.1.试叙述多元联合分布和边际分布之间的关系

解:

多元联合分布讨论多个随机变量联合到一起的概率分布状况,

X(X1,X2,LXp)的联合分布密

度函数是一个p维的函数,而边际分布讨论是X(X1,X2,LXp)

的子向量的概率分布,其概率密度

函数的维数小于p。

2.2设二维随机向量

(X1X2)服从二元正态分布,写出其联合分布。

解:

设(X1

X2)的均值向量为

2,协方差矩阵为

21

12

122,则其联合分布密

2

度函数为

1

f(x)2

21

12

2

2

1/2

exp

12(x

μ)

21

12

2

2

(xμ)。

2.3已知随机向量

(X1

X2)的联合密度函数为

f(x1,x2)

2[(d

c)(x1a)(ba)(x2c)

2(x1a)(x2

c)]

22

(ba)2(dc)2

 

其中ax1b,cx2d。

1)随机变量X1和X2的边缘密度函数、均值和方差;

2)随机变量X1和X2的协方差和相关系数;

3)判断X1和X2是否相互独立。

4)

1)解:

随机变量X1和X2的边缘密度函数、均值和方差;

dc

12

cov(x1,x2)

36

cov(x1,x2)

x1x2

 

X1

和X2由于f(x1,x2)fx1(x1)fx2(x2),所以不独立。

2.4设X(X1,X2,LXp)服从正态分布,已知其协方差矩阵为对角阵,证明其分量是相互独立的随机变量。

解:

因为X(X1,X2,LXp)的密度函数为

f(x1,...,xp)

p

11/2

2Σexp

11

2(xμ)Σ(xμ)

2

1

2

又由于Σ

2

O

2

p

Σ1222L

2p

Σ1

则f(x1,...,xp)

22L

1/2

exp

12(x

μ)Σ1

(xμ)

exp

1(x1

1)2

2

1

1(x2

2

3)2

1(xp

p1

i1i2exp

(xi

2i

i)2

2

2.6渐近无偏性、有效性和一致性;

p)2

2

p

f(x1)...f(xp)则其分量是相互独立。

2.7设总体服从正态分布,X~Np(μ,Σ),有样本X1,X2,...,Xn。

由于X是相互独立的正态分布随

机向量之和,所以

X也服从正态分布。

E(X)

Xin

i1

n

E

i1

Xi

i1

D(X)

Xinn12

Xi

所以X~Np(μ,Σ)。

2.8

方法

n1

(Xi

X)(Xi

X)

n1

XiXinXX

1

E(Σ?

)1

n

1E(

XiXi

nXX)

n1

n

EXiXinEXXi1

n1

i1

n11(n

n1

1)Σ

Σ。

 

方法2:

S

(Xi-X)(Xi-i1

X)

i1

Xi-μ(X

μ)

Xi-μ

(Xμ)

n

i

(Xi

1

-μ)(Xi-μ)

n

2(Xi1

i-μ)(X-μ)

n(X

μ)(Xμ

Xμ)

n

(X

i1

i-μ)(Xi-μ)

2n(X

μ)(Xμ)

n(X

μ)(X

μ)

n

(X

i1

i-μ)(Xi-μ)

n(X

μ)(Xμ)

S

1

n

E()

E(Xi-

μ)(Xi-

μ)n(Xμ)(X

μ)

n1

n

1i1

1

n

S

n1

E(Xi-μ)(Xi-

μ)nE(Xμ)(X

μ)

Σ。

为Σ的无偏估计。

i1

n1

2.9.设X

(1),X

(2),...,X(n)是从多元正态分布X~Np(μ,Σ)抽出的一个简单随机样本,试求S的分布

证明:

设Γ

*L

*L*(ij)为一正交矩阵,即ΓΓI

1nL

 

由于Xi(i1,2,3,4,Ln)独立同正态分布,且Γ为正交矩阵

所以(12Ln)独立同正态分布。

且有

Ζn1Χi,E(Ζn)1E(Χi)nμ,Var(Zn)Σ。

ni1ni1

n

E(Ζa)E(rajΧj)(a1,2,3,L,n1)

j1

n

Var(Ζa)Var(rajΧj)j1

ra2jVarΧjΣra2jΣ

j1j1n

所以Ζ1Ζ2LΖn1独立同N(0,Σ)分布。

又因为S(XjX)(XjX)i1

n

XjXjnXX

j1

因为nXX

nn1

ni

n

Xi

1

n1

ni

n

Xi

1

ZnZn

X1

X1

n

X2

X2

又因为

XjXj

X1

X2

Xn

X1

X2L

XnΓΓ2

j1

nM

Xn

Xn

Z1

Z2

Z1

Z2

L

Zn2

nM

Zn

n

n

所以原式

XjXj

ZnZ

n

ZjZjZ

nZn

Z1Z1

Z2Z2.

..ZnZn-ΖnΖn

j1j1

n1

故Sjj,由于Z1,Z2,L,Zn1独立同正态分布Np(0,Σ),所以

j1

n1

Sjj~Wp(n1,)j1

2.10.设Xi(nip)是来自Np(μi,Σi)的简单随机样本,i1,2,3,L,k,

1)已知μ1μ2...μkμ且Σ1Σ2...ΣkΣ,求μ和Σ的估计

2)已知Σ1Σ2...ΣkΣ求μ1,μ2,...,,μk和Σ的估计

pn21knaa-1a

(2)lnL(μ1,L,μk,Σ)ln

(2)pΣexp[(xia-μa)Σ-1(xia-μa)]

lnL(μ,Σ)

1n1knaa-1a

一个正态总体H0:

μμ0

T2(n1)[n(Xμ0)S1n(Xμ0)])

2pnln

(2)2lnΣ2a1i1(xi-μa)Σ(xi-μa)

两个正态总体H0:

μ1μ2

有共同已知协差阵T02nm(XY)Σ1(XY)~2(p)T022

nm

有共同未知协差阵F(nm2)p1T2~F(p,nmp1)FF

(nm2)p

2nm1nm

其中T2(nm2)(XY)S1(XY))nmnm

协差阵不等nmF(np)nZS-1Z~F(p,np)FFp

(np)n-1

协差阵不等nmFZS-1Z~F(p,np)FF

p

多个正态总体H0:

1

单因素方差FSSSSEA((nk1k))~F(k1,nk)FF

多因素方差

协差阵的检验

检验ΣΣ0

H0:

Σ

H0:

Σ

Σ0

Ip

exp

1n/2

12trSSn/2

en

np/2

1*

*

n/2

np/2e

exp

trS*

S*

2

n

Σ2L

检验Σ1Σ2L

ΣkH0:

Σ1

统计量k

Σk

np/2

n

k

i1

pni/2nii

 

答:

(!

)霍特林分布是t分布对于多元变量的推广。

n(X)2

S2

n(X

21

)(S2)1(X)而若设X~Np(μ,Σ),S~Wp(n,Σ)且X与S

相互独立,np,则称统计量的分布为非中心霍特林T2分布。

21

若X~Np(0,Σ),S~Wp(n,Σ)且X与S相互独立,令T2nXS1X,则

np1T2

np

F(p,n

p1)

(2)威尔克斯分布在实际应用中经常把统计量化为T2统计量进而化为F统计量,利用F统计量来解决多元统计分析中有关检验问题。

p

n1

n2

F统计量及分别

任意

任意

1

n1p11(p,n1,1)

11~F(p,n1p1)p(p,n1,1)

任意

任意

2

n1p1(p,n1,2)

n1p1~F(2p,2(n1p))p(p,n1,2)

1

任意

任意

n11(1,n1,n2)~F(n,n)~F(n2,n1)n2(1,n1,n2)

2

任意

任意

n111(2,n1,n2)~F(2n,2(n1))

~F(2n2,2(n11))n2(2,n1,n2)

与F统计量的关系

3.3试述威尔克斯统计量在多元方差分析中的重要意义。

答:

威尔克斯统计量在多元方差分析中是用于检验均值的统计量。

H0:

μ1μ2LμkH1:

至少存在ij使μiμj

用似然比原则构成的检验统计量为

E~(p,nk,k1)给定检验水平AE

,查

Wilks分布表,确定临界值,然后作出统计判断。

第四章

4.1简述欧几里得距离与马氏距离的区别和联系。

答:

设p维欧几里得空间中的两点X=和Y=。

则欧几里得距离为

欧几里得距离的局限有①在多元数据分析中,其度量不合理。

②会受到实际问题中量纲

 

的影响。

设X,Y是来自均值向量为,协方差为的总体G中的p维样本。

则马氏距离为

D(X,Y)=。

当即单位阵时,D(X,Y)==即欧几里得距离。

因此,在一定程度上,欧几里得距离是马氏距离的特殊情况,马氏距离是欧几里得距离的推广。

4.2试述判别分析的实质。

答:

判别分析就是希望利用已经测得的变量数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来。

设R1,R2,⋯,Rk是p维空间Rp的k个子集,如果

它们互不相交,且它们的和集为,则称为的一个划分。

判别分析问题实质上就是在某种意义上,以最优的性质对p维空间构造一个“划分”,这个“划分”就构成了一个判别规则。

4.3简述距离判别法的基本思想和方法。

答:

距离判别问题分为①两个总体的距离判别问题和②多个总体的判别问题。

其基本思想都是分别计算样本与各个总体的距离(马氏距离),将距离近的判别为一类。

1两个总体的距离判别问题

设有协方差矩阵∑相等的两个总体G1和G2,其均值分别是1和2,对于一个新的样品X,要判断它来自哪个总体。

计算新样品X到两个总体的马氏距离D2(X,G1)和D2(X,G2),则

X,D2(X,G1)D2(X,G2)

X,D2(X,G1)>D2(X,G2,

具体分析,

22

D2(X,G1)D2(X,G2)

(Xμ1)Σ1(Xμ1)(Xμ2)Σ1(Xμ2)

XΣ1X2XΣ1μ1μ1Σ1μ1(XΣ1X2XΣ1μ2μ2Σ1μ2)

111

2XΣ(μ2μ1)μ1Σμ1μ2Σμ2

2XΣ1(

μ2μ1)(μ1μ2)Σ(μ1μ2)

2X

μ1

2

μ2

1

Σ(μ1μ2)

2(X

μ)α

2

α(Xμ)

记W(X)

α(X

μ)

则判别规则为

X,W(X)<0

②多个总体的判别问题。

4.4

简述贝叶斯判别法的基本思想和方法。

4.5

造成的损失为C(j|i),i,j1,2,,k

在规则R下,将属于Gi的样品错判为Gj的概率为

P(j|i,R)Rfi(x)dxi,j1,2,,kijRj

则这种判别规则下样品错判后所造成的平均损失为

k

r(i|R)[C(j|i)P(j|i,R)]i1,2,,k

j1

贝叶斯判别法则,就是要选择一种划分R1,R2,,Rk,使总平均损失g(R)达到极小。

kkkk

基本方法:

g(R)qiC(j|i)P(j|i,R)qiC(j|i)Rfi(x)dx

i1j1i1j1Rj

kkkk

j1Rj(i1qiC(j|i)fi(x))dx令i1qiC(j|i)fi(x)hj(x),则g(R)j1Rjhj(x)dx

k

若有另一划分R(R1,R2,,Rk),g(R)

j1

R*hj(x)dx

则在两种划分下的总平均损失之差为g(R)g(R*)

kk

RR*[hi(x)hj(x)]dxi1j1RiRj

因为在Ri上hi(x)hj(x)对一切j成立,故上式小于或等于零,是贝叶斯判别的解

从而得到的划分R(R1,R2,,Rk)为i

4.6

简述费希尔判别法的基本思想和方法。

答:

基本思想:

从k个总体中抽取具有p个指标的样品观测数据,借助方差分析的思想构造一个线性判别

函数

U(X)u1X1u2X2LupXpuX

系数u(u1,u2,,up)可使得总体之间区别最大,而使每个总体内部的离差最小。

将新样品的p个指标值代入线性判别函数式中求出U(X)值,然后根据判别一定的规则,就可以判别新的样品属于哪个总体。

4.7试析距离判别法、贝叶斯判别法和费希尔判别法的异同。

答:

①费希尔判别与距离判别对判别变量的分布类型无要求。

二者只是要求有各类母体的两阶矩存在。

而贝叶斯判别必须知道判别变量的分布类型。

因此前两者相对来说较为简单。

2当k=2时,若则费希尔判别与距离判别等价。

当判别变量服从正态分布时,二者与贝叶斯判别也等价。

3当时,费希尔判别用作为共同协差阵,实际看成等协差阵,此与距离判别、贝叶斯判别不同。

4距离判别可以看为贝叶斯判别的特殊情形。

贝叶斯判别的判别规则是X,W(X)

X,W(X)

距离判别的判别规则是

X,W(X)

X,W(X)<0

二者的区别在于阈值点。

当q1q2,C(1|2)C(2|1)时,d1,lnd0。

二者完全相同。

,假设,试用距离判别法建立判别函数和判别规则。

样品X=(6,0)'应属于哪个总体?

解:

=,=,==

 

即样品X属于总体

第五章

5.1判别分析和聚类分析有何区别?

答:

即根据一定的判别准则,判定一个样本归属于哪一类。

具体而言,设有n个样本,对每个样本测得p项指标(变量)的数据,已知每个样本属于k个类别(或总体)中的某一类,通过找出一个最优的划分,使得不同类别的样本尽可能地区别开,并判别该样本属于哪个总体。

聚类分析是分析如何对样品(或变量)进行量化分类的问题。

在聚类之前,我们并不知道总体,而是通过一次次的聚类,使相近的样品(或变量)聚合形成总体。

通俗来讲,判别分析是在已知有多少类及是什么类的情况下进行分类,而聚类分析是在不知道类的情况下进行分类。

5.2试述系统聚类的基本思想。

答:

系统聚类的基本思想是:

距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。

5.3对样品和变量进行聚类分析时,所构造的统计量分别是什么?

简要说明为什么这样构造?

答:

对样品进行聚类分析时,用距离来测定样品之间的相似程度。

因为我们把n个样本看作p维空间的n个点。

点之间的距离即可代表样品间的相似度。

常用的距离为

p

一)闵可夫斯基距离:

dij(q)(Xik

k1

q取不同值,分为

p

1)绝对距离(q1),

dij

(1)XikXjk

k1

p

dij

(2)(Xik

k1

 

二)马氏距离

dij(L)

 

三)兰氏距离

21

di2j(M)(XiXj)Σ1(XiXj)

对变量的相似性,我们更多地要了解变量的变化趋势或变化方向,因此用相关性进行衡量。

将变量看作p维空间的向量,一般用

(一)

夹角余弦

cos

ij

p

XikXjkk1p

p

Xik2)(Xj2k)

1

k1

二)

相关系数

rij

p

(Xik

k1

p

(Xik

k1

Xi)(XjkXj)

p

Xi)2(XjkXj)2

k1

5.4

答:

(1)

在进行系统聚类时,不同类间距离计算方法有何区别?

选择距离公式应遵循哪些原则?

设dij表示样品.最短距离法

D

ij

Xi与Xj之间距离,用Dij表示类Gi与Gj之间的距离。

2)

Dkr

Xi

minXiGi,XjminGk,XjGr

d

Gjdij

dijmin{Dkp,Dkq}

最长距离法

Dpq

Xi

max

Gp,XjG

dij

Dkrmax

krXiGk,Xj

Gr

dij

max{Dkp,Dkq}

3)中间距离法

212

Dk2r21Dk2p

Dk2q

D2pq

其中

4)重心法D2pq

(Xp

Xq)(Xp

Xq)

1

Xr(npXpnqXq)

nr

2

5)类平均法Dpq

nqDk2q

nr

npnqD2

2Dpq

npnqX

GpXj

di2jijGj

Dk2r

nndi2j

nknrXiGkXjGr

npDk2pkpnr

nq2

qDk2q

nr

Dk2r

(1)(npDk2p

nr

nqDk2q)D2pq

 

其中是可变的且<1

(7)可变法

Dk2r

12(Dk2p

Dk2q)

2

Dpq

其中

是可变的且<1

8)

离差平方和法

St

nt

(Xitt1

Xt)(Xit

Xt)

2nknp2nknq2nk2

DkrDkpDkqDpq

nrnknrnknrnk

通常选择距离公式应注意遵循以下的基本原则:

(1)要考虑所选择的距离公式在实际应用中有明确的意义。

如欧氏距离就有非常明确的空间距离概念。

氏距离有消除量纲影响的作用。

(2)要综合考虑对样本观测数据的预处理和将要采用的聚类分析方法。

如在进行聚类分析之前已经对变量

作了标准化处理,则通常就可采用欧氏距离。

(3)要考虑研究对象的特点和计算量的大小。

样品间距离公式的选择是一个比较复杂且带有一定主观性的问题,我们应根据研究对象的特点不同做出具体分折。

实际中,聚类分析前不妨试探性地多选择几个距离公式分别进行聚类,然后对聚类分析的结果进行对比分析,以确定最合适的距离测度方法。

5.5试述K均值法与系统聚类法的异同。

答:

相同:

K—均值法和系统聚类法一样,都是以距离的远近亲疏为标准进行聚类的。

不同:

系统聚类对不同的类数产生一系列的聚类结果,而K—均值法只能产生指定类数的聚类结果。

具体类数的确定,离不开实践经验的积累;有时也可以借助系统聚类法以一部分样品为对象进行聚类,其结果作为K—均值法确定类数的参考。

5.6试述K均值法与系统聚类有何区别?

试述有序聚类法的基本思想。

答:

K均值法的基本思想是将每一个样品分配给最近中心(均值)的类中。

系统聚类对不同的类数产生一系列的聚类结果,而K—均值法只能产生指定类数的聚类结果。

具体类数的确定,有时也可以借助系统聚类法以一部分样品为对象进行聚类,其结果作为K均值法确定类数的参考。

有序聚类就是解决样品的次序不能变动时的聚类分析问题。

如果用X

(1),X

(2),,X(n)表示n个有序的

样品,则每一类必须是这样的形式,即X(i),X(i1),,X(j),其中1in,且jn,简记为

Gi{i,i1,,j}。

在同一类中的样品是次序相邻的。

一般的步骤是

(1)计算直径{D(i,j)}。

(2)

计算最小分类损失函数{L[p(l,k)]}。

(3)确定分类个数k。

(4)最优分类。

5.7检测某类产品的重量,抽了六个样品,每个样品只测了一个指标,分别为1,2,3,6,9,11.

试用最短距离法,重心法进行聚类分析。

(1)用最短距离法进行聚类分析。

采用绝对值距离,计算样品间距离阵

0

1

0

2

1

0

5

4

3

0

8

7

6

3

0

10

9

8

5

2

0

由上表易知中最小元素是于是将,,聚为一类,记为

计算距离阵

0

3

0

6

30

8

520

中最小元素是=2于是将,聚为一类,记为

计算样本距离阵

中最小元素是于是将,聚为一类,记为

计算样品间平方距离阵

0

1

0

4

1

0

25

16

9

0

64

49

36

9

0

100

81

64

25

4

0

易知

中最小元素是

于是将,,聚为一类,记为

计算距离阵

16

4990

812540

注:

计算方法,其他以此类推。

中最小元素是=4于是将,聚为一类,记为

计算样本距离阵

0

16

0

64

160

中最小元素是于是将,聚为一类,记为

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 法律文书 > 辩护词

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1