应用多元统计分析课后答案Word文件下载.docx

上传人:b****4 文档编号:16844984 上传时间:2022-11-26 格式:DOCX 页数:32 大小:346.45KB
下载 相关 举报
应用多元统计分析课后答案Word文件下载.docx_第1页
第1页 / 共32页
应用多元统计分析课后答案Word文件下载.docx_第2页
第2页 / 共32页
应用多元统计分析课后答案Word文件下载.docx_第3页
第3页 / 共32页
应用多元统计分析课后答案Word文件下载.docx_第4页
第4页 / 共32页
应用多元统计分析课后答案Word文件下载.docx_第5页
第5页 / 共32页
点击查看更多>>
下载资源
资源描述

应用多元统计分析课后答案Word文件下载.docx

《应用多元统计分析课后答案Word文件下载.docx》由会员分享,可在线阅读,更多相关《应用多元统计分析课后答案Word文件下载.docx(32页珍藏版)》请在冰豆网上搜索。

应用多元统计分析课后答案Word文件下载.docx

f(x1,...,xp)

p

11/2

2Σexp

11

2(xμ)Σ(xμ)

又由于Σ

O

Σ1222L

2p

Σ1

则f(x1,...,xp)

22L

μ)Σ1

(xμ)

1(x1

1)2

1(x2

3)2

1(xp

p1

i1i2exp

(xi

2i

i)2

2.6渐近无偏性、有效性和一致性;

p)2

f(x1)...f(xp)则其分量是相互独立。

2.7设总体服从正态分布,X~Np(μ,Σ),有样本X1,X2,...,Xn。

由于X是相互独立的正态分布随

机向量之和,所以

X也服从正态分布。

E(X)

Xin

i1

n

E

Xi

D(X)

Xinn12

所以X~Np(μ,Σ)。

2.8

方法

n1

(Xi

X)(Xi

X)

XiXinXX

E(Σ?

)1

1E(

XiXi

nXX)

EXiXinEXXi1

n11(n

1)Σ

Σ。

方法2:

S

(Xi-X)(Xi-i1

Xi-μ(X

Xi-μ

(Xμ)

i

-μ)(Xi-μ)

2(Xi1

i-μ)(X-μ)

n(X

μ)(Xμ

Xμ)

(X

i-μ)(Xi-μ)

2n(X

μ)(Xμ)

μ)(X

S

E()

E(Xi-

μ)(Xi-

μ)n(Xμ)(X

1i1

E(Xi-μ)(Xi-

μ)nE(Xμ)(X

为Σ的无偏估计。

2.9.设X

(1),X

(2),...,X(n)是从多元正态分布X~Np(μ,Σ)抽出的一个简单随机样本,试求S的分布

证明:

设Γ

*L

*L*(ij)为一正交矩阵,即ΓΓI

1nL

由于Xi(i1,2,3,4,Ln)独立同正态分布,且Γ为正交矩阵

所以(12Ln)独立同正态分布。

且有

Ζn1Χi,E(Ζn)1E(Χi)nμ,Var(Zn)Σ。

ni1ni1

E(Ζa)E(rajΧj)(a1,2,3,L,n1)

j1

Var(Ζa)Var(rajΧj)j1

ra2jVarΧjΣra2jΣ

j1j1n

所以Ζ1Ζ2LΖn1独立同N(0,Σ)分布。

又因为S(XjX)(XjX)i1

XjXjnXX

因为nXX

nn1

ni

ZnZn

X2

又因为

XjXj

Xn

X2L

XnΓΓ2

nM

Z1

Z2

L

Zn2

Zn

所以原式

XjXj

ZnZ

ZjZjZ

nZn

Z1Z1

Z2Z2.

..ZnZn-ΖnΖn

j1j1

故Sjj,由于Z1,Z2,L,Zn1独立同正态分布Np(0,Σ),所以

Sjj~Wp(n1,)j1

2.10.设Xi(nip)是来自Np(μi,Σi)的简单随机样本,i1,2,3,L,k,

1)已知μ1μ2...μkμ且Σ1Σ2...ΣkΣ,求μ和Σ的估计

2)已知Σ1Σ2...ΣkΣ求μ1,μ2,...,,μk和Σ的估计

pn21knaa-1a

(2)lnL(μ1,L,μk,Σ)ln

(2)pΣexp[(xia-μa)Σ-1(xia-μa)]

lnL(μ,Σ)

1n1knaa-1a

一个正态总体H0:

μμ0

T2(n1)[n(Xμ0)S1n(Xμ0)])

2pnln

(2)2lnΣ2a1i1(xi-μa)Σ(xi-μa)

两个正态总体H0:

μ1μ2

有共同已知协差阵T02nm(XY)Σ1(XY)~2(p)T022

nm

有共同未知协差阵F(nm2)p1T2~F(p,nmp1)FF

(nm2)p

2nm1nm

其中T2(nm2)(XY)S1(XY))nmnm

协差阵不等nmF(np)nZS-1Z~F(p,np)FFp

(np)n-1

协差阵不等nmFZS-1Z~F(p,np)FF

多个正态总体H0:

1

单因素方差FSSSSEA((nk1k))~F(k1,nk)FF

多因素方差

协差阵的检验

检验ΣΣ0

H0:

Σ

H0:

Σ

Σ0

Ip

1n/2

12trSSn/2

en

np/2

1*

*

n/2

np/2e

trS*

S*

Σ2L

检验Σ1Σ2L

ΣkH0:

Σ1

统计量k

Σk

k

pni/2nii

答:

(!

)霍特林分布是t分布对于多元变量的推广。

n(X)2

S2

)(S2)1(X)而若设X~Np(μ,Σ),S~Wp(n,Σ)且X与S

相互独立,np,则称统计量的分布为非中心霍特林T2分布。

若X~Np(0,Σ),S~Wp(n,Σ)且X与S相互独立,令T2nXS1X,则

np1T2

np

F(p,n

p1)

(2)威尔克斯分布在实际应用中经常把统计量化为T2统计量进而化为F统计量,利用F统计量来解决多元统计分析中有关检验问题。

n2

F统计量及分别

任意

n1p11(p,n1,1)

11~F(p,n1p1)p(p,n1,1)

n1p1(p,n1,2)

n1p1~F(2p,2(n1p))p(p,n1,2)

n11(1,n1,n2)~F(n,n)~F(n2,n1)n2(1,n1,n2)

n111(2,n1,n2)~F(2n,2(n1))

~F(2n2,2(n11))n2(2,n1,n2)

与F统计量的关系

3.3试述威尔克斯统计量在多元方差分析中的重要意义。

答:

威尔克斯统计量在多元方差分析中是用于检验均值的统计量。

μ1μ2LμkH1:

至少存在ij使μiμj

用似然比原则构成的检验统计量为

E~(p,nk,k1)给定检验水平AE

,查

Wilks分布表,确定临界值,然后作出统计判断。

第四章

4.1简述欧几里得距离与马氏距离的区别和联系。

设p维欧几里得空间中的两点X=和Y=。

则欧几里得距离为

欧几里得距离的局限有①在多元数据分析中,其度量不合理。

②会受到实际问题中量纲

的影响。

设X,Y是来自均值向量为,协方差为的总体G中的p维样本。

则马氏距离为

D(X,Y)=。

当即单位阵时,D(X,Y)==即欧几里得距离。

因此,在一定程度上,欧几里得距离是马氏距离的特殊情况,马氏距离是欧几里得距离的推广。

4.2试述判别分析的实质。

判别分析就是希望利用已经测得的变量数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来。

设R1,R2,⋯,Rk是p维空间Rp的k个子集,如果

它们互不相交,且它们的和集为,则称为的一个划分。

判别分析问题实质上就是在某种意义上,以最优的性质对p维空间构造一个“划分”,这个“划分”就构成了一个判别规则。

4.3简述距离判别法的基本思想和方法。

距离判别问题分为①两个总体的距离判别问题和②多个总体的判别问题。

其基本思想都是分别计算样本与各个总体的距离(马氏距离),将距离近的判别为一类。

1两个总体的距离判别问题

设有协方差矩阵∑相等的两个总体G1和G2,其均值分别是1和2,对于一个新的样品X,要判断它来自哪个总体。

计算新样品X到两个总体的马氏距离D2(X,G1)和D2(X,G2),则

X,D2(X,G1)D2(X,G2)

X,D2(X,G1)>

D2(X,G2,

具体分析,

D2(X,G1)D2(X,G2)

(Xμ1)Σ1(Xμ1)(Xμ2)Σ1(Xμ2)

XΣ1X2XΣ1μ1μ1Σ1μ1(XΣ1X2XΣ1μ2μ2Σ1μ2)

111

2XΣ(μ2μ1)μ1Σμ1μ2Σμ2

2XΣ1(

μ2μ1)(μ1μ2)Σ(μ1μ2)

2X

μ1

μ2

Σ(μ1μ2)

2(X

μ)α

α(Xμ)

记W(X)

α(X

则判别规则为

X,W(X)<

②多个总体的判别问题。

4.4

简述贝叶斯判别法的基本思想和方法。

4.5

造成的损失为C(j|i),i,j1,2,,k

在规则R下,将属于Gi的样品错判为Gj的概率为

P(j|i,R)Rfi(x)dxi,j1,2,,kijRj

则这种判别规则下样品错判后所造成的平均损失为

r(i|R)[C(j|i)P(j|i,R)]i1,2,,k

贝叶斯判别法则,就是要选择一种划分R1,R2,,Rk,使总平均损失g(R)达到极小。

kkkk

基本方法:

g(R)qiC(j|i)P(j|i,R)qiC(j|i)Rfi(x)dx

i1j1i1j1Rj

j1Rj(i1qiC(j|i)fi(x))dx令i1qiC(j|i)fi(x)hj(x),则g(R)j1Rjhj(x)dx

若有另一划分R(R1,R2,,Rk),g(R)

R*hj(x)dx

则在两种划分下的总平均损失之差为g(R)g(R*)

kk

RR*[hi(x)hj(x)]dxi1j1RiRj

因为在Ri上hi(x)hj(x)对一切j成立,故上式小于或等于零,是贝叶斯判别的解

从而得到的划分R(R1,R2,,Rk)为i

4.6

简述费希尔判别法的基本思想和方法。

基本思想:

从k个总体中抽取具有p个指标的样品观测数据,借助方差分析的思想构造一个线性判别

函数

U(X)u1X1u2X2LupXpuX

系数u(u1,u2,,up)可使得总体之间区别最大,而使每个总体内部的离差最小。

将新样品的p个指标值代入线性判别函数式中求出U(X)值,然后根据判别一定的规则,就可以判别新的样品属于哪个总体。

4.7试析距离判别法、贝叶斯判别法和费希尔判别法的异同。

①费希尔判别与距离判别对判别变量的分布类型无要求。

二者只是要求有各类母体的两阶矩存在。

而贝叶斯判别必须知道判别变量的分布类型。

因此前两者相对来说较为简单。

2当k=2时,若则费希尔判别与距离判别等价。

当判别变量服从正态分布时,二者与贝叶斯判别也等价。

3当时,费希尔判别用作为共同协差阵,实际看成等协差阵,此与距离判别、贝叶斯判别不同。

4距离判别可以看为贝叶斯判别的特殊情形。

贝叶斯判别的判别规则是X,W(X)

lnd

距离判别的判别规则是

X,W(X)

二者的区别在于阈值点。

当q1q2,C(1|2)C(2|1)时,d1,lnd0。

二者完全相同。

,假设,试用距离判别法建立判别函数和判别规则。

样品X=(6,0)'

应属于哪个总体?

=,=,==

即样品X属于总体

第五章

5.1判别分析和聚类分析有何区别?

即根据一定的判别准则,判定一个样本归属于哪一类。

具体而言,设有n个样本,对每个样本测得p项指标(变量)的数据,已知每个样本属于k个类别(或总体)中的某一类,通过找出一个最优的划分,使得不同类别的样本尽可能地区别开,并判别该样本属于哪个总体。

聚类分析是分析如何对样品(或变量)进行量化分类的问题。

在聚类之前,我们并不知道总体,而是通过一次次的聚类,使相近的样品(或变量)聚合形成总体。

通俗来讲,判别分析是在已知有多少类及是什么类的情况下进行分类,而聚类分析是在不知道类的情况下进行分类。

5.2试述系统聚类的基本思想。

系统聚类的基本思想是:

距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。

5.3对样品和变量进行聚类分析时,所构造的统计量分别是什么?

简要说明为什么这样构造?

对样品进行聚类分析时,用距离来测定样品之间的相似程度。

因为我们把n个样本看作p维空间的n个点。

点之间的距离即可代表样品间的相似度。

常用的距离为

一)闵可夫斯基距离:

dij(q)(Xik

k1

q取不同值,分为

1)绝对距离(q1),

dij

(1)XikXjk

dij

(2)(Xik

二)马氏距离

dij(L)

三)兰氏距离

di2j(M)(XiXj)Σ1(XiXj)

对变量的相似性,我们更多地要了解变量的变化趋势或变化方向,因此用相关性进行衡量。

将变量看作p维空间的向量,一般用

(一)

夹角余弦

cos

ij

XikXjkk1p

Xik2)(Xj2k)

二)

相关系数

rij

(Xik

Xi)(XjkXj)

Xi)2(XjkXj)2

5.4

(1)

在进行系统聚类时,不同类间距离计算方法有何区别?

选择距离公式应遵循哪些原则?

设dij表示样品.最短距离法

D

Xi与Xj之间距离,用Dij表示类Gi与Gj之间的距离。

2)

Dkr

minXiGi,XjminGk,XjGr

d

Gjdij

dijmin{Dkp,Dkq}

最长距离法

Dpq

max

Gp,XjG

dij

Dkrmax

krXiGk,Xj

Gr

max{Dkp,Dkq}

3)中间距离法

212

Dk2r21Dk2p

Dk2q

D2pq

其中

4)重心法D2pq

(Xp

Xq)(Xp

Xq)

Xr(npXpnqXq)

nr

5)类平均法Dpq

nqDk2q

npnqD2

2Dpq

npnqX

GpXj

di2jijGj

Dk2r

nndi2j

nknrXiGkXjGr

npDk2pkpnr

nq2

qDk2q

Dk2r

(1)(npDk2p

nqDk2q)D2pq

其中是可变的且<

(7)可变法

12(Dk2p

Dk2q)

是可变的且<

8)

离差平方和法

St

nt

(Xitt1

Xt)(Xit

Xt)

2nknp2nknq2nk2

DkrDkpDkqDpq

nrnknrnknrnk

通常选择距离公式应注意遵循以下的基本原则:

(1)要考虑所选择的距离公式在实际应用中有明确的意义。

如欧氏距离就有非常明确的空间距离概念。

氏距离有消除量纲影响的作用。

(2)要综合考虑对样本观测数据的预处理和将要采用的聚类分析方法。

如在进行聚类分析之前已经对变量

作了标准化处理,则通常就可采用欧氏距离。

(3)要考虑研究对象的特点和计算量的大小。

样品间距离公式的选择是一个比较复杂且带有一定主观性的问题,我们应根据研究对象的特点不同做出具体分折。

实际中,聚类分析前不妨试探性地多选择几个距离公式分别进行聚类,然后对聚类分析的结果进行对比分析,以确定最合适的距离测度方法。

5.5试述K均值法与系统聚类法的异同。

相同:

K—均值法和系统聚类法一样,都是以距离的远近亲疏为标准进行聚类的。

不同:

系统聚类对不同的类数产生一系列的聚类结果,而K—均值法只能产生指定类数的聚类结果。

具体类数的确定,离不开实践经验的积累;

有时也可以借助系统聚类法以一部分样品为对象进行聚类,其结果作为K—均值法确定类数的参考。

5.6试述K均值法与系统聚类有何区别?

试述有序聚类法的基本思想。

K均值法的基本思想是将每一个样品分配给最近中心(均值)的类中。

系统聚类对不同的类数产生一系列的聚类结果,而K—均值法只能产生指定类数的聚类结果。

具体类数的确定,有时也可以借助系统聚类法以一部分样品为对象进行聚类,其结果作为K均值法确定类数的参考。

有序聚类就是解决样品的次序不能变动时的聚类分析问题。

如果用X

(1),X

(2),,X(n)表示n个有序的

样品,则每一类必须是这样的形式,即X(i),X(i1),,X(j),其中1in,且jn,简记为

Gi{i,i1,,j}。

在同一类中的样品是次序相邻的。

一般的步骤是

(1)计算直径{D(i,j)}。

(2)

计算最小分类损失函数{L[p(l,k)]}。

(3)确定分类个数k。

(4)最优分类。

5.7检测某类产品的重量,抽了六个样品,每个样品只测了一个指标,分别为1,2,3,6,9,11.

试用最短距离法,重心法进行聚类分析。

(1)用最短距离法进行聚类分析。

采用绝对值距离,计算样品间距离阵

5

4

3

8

7

6

10

9

由上表易知中最小元素是于是将,,聚为一类,记为

计算距离阵

30

520

中最小元素是=2于是将,聚为一类,记为

计算样本距离阵

中最小元素是于是将,聚为一类,记为

计算样品间平方距离阵

25

16

64

49

100

81

易知

中最小元素是

于是将,,聚为一类,记为

4990

812540

注:

计算方法,其他以此类推。

中最小元素是=4于是将,聚为一类,记为

160

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > PPT模板

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1