应用多元统计分析课后答案-Word下载.doc
《应用多元统计分析课后答案-Word下载.doc》由会员分享,可在线阅读,更多相关《应用多元统计分析课后答案-Word下载.doc(38页珍藏版)》请在冰豆网上搜索。
和由于,所以不独立。
2.4设服从正态分布,已知其协方差矩阵S为对角阵,证明其分量是相互独立的随机变量。
因为的密度函数为
又由于
则
则其分量是相互独立。
2.6渐近无偏性、有效性和一致性;
2.7设总体服从正态分布,,有样本。
由于是相互独立的正态分布随机向量之和,所以也服从正态分布。
又
所以。
2.8方法1:
。
方法2:
。
故为的无偏估计。
2.9.设是从多元正态分布抽出的一个简单随机样本,试求的分布。
证明:
设为一正交矩阵,即。
令,
所以。
且有
,,。
所以独立同分布。
又因为
因为
所以原式
故,由于独立同正态分布,所以
2.10.设是来自的简单随机样本,,
(1)已知且,求和的估计。
(2)已知求和的估计。
(1),
(2)
解之,得
,
第三章
3.1试述多元统计分析中的各种均值向量和协差阵检验的基本思想和步骤。
其基本思想和步骤均可归纳为:
第一,提出待检验的假设和H1;
第二,给出检验的统计量及其服从的分布;
第三,给定检验水平,查统计量的分布表,确定相应的临界值,从而得到否定域;
第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或接受)。
均值向量的检验:
统计量拒绝域
在单一变量中
当已知
当未知
(作为的估计量)
一个正态总体
协差阵已知
协差阵未知
()
两个正态总体
有共同已知协差阵
有共同未知协差阵
(其中)
协差阵不等
多个正态总体
单因素方差
多因素方差
协差阵的检验
检验
检验
统计量
3.2试述多元统计中霍特林分布和威尔克斯分布分别与一元统计中t分布和F分布的关系。
答:
(!
)霍特林分布是t分布对于多元变量的推广。
而若设,且与相互独立,,则称统计量的分布为非中心霍特林T2分布。
若,且与相互独立,令,则。
(2)威尔克斯分布在实际应用中经常把统计量化为统计量进而化为统计量,利用统计量来解决多元统计分析中有关检验问题。
与统计量的关系
统计量及分别
任意
1
2
3.3试述威尔克斯统计量在多元方差分析中的重要意义。
威尔克斯统计量在多元方差分析中是用于检验均值的统计量。
用似然比原则构成的检验统计量为给定检验水平,查Wilks分布表,确定临界值,然后作出统计判断。
第四章
4.1简述欧几里得距离与马氏距离的区别和联系。
设p维欧几里得空间中的两点X=和Y=。
则欧几里得距离为。
欧几里得距离的局限有①在多元数据分析中,其度量不合理。
②会受到实际问题中量纲的影响。
设X,Y是来自均值向量为,协方差为的总体G中的p维样本。
则马氏距离为D(X,Y)=。
当即单位阵时,D(X,Y)==即欧几里得距离。
因此,在一定程度上,欧几里得距离是马氏距离的特殊情况,马氏距离是欧几里得距离的推广。
4.2试述判别分析的实质。
判别分析就是希望利用已经测得的变量数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来。
设R1,R2,…,Rk是p维空间Rp的k个子集,如果它们互不相交,且它们的和集为,则称为的一个划分。
判别分析问题实质上就是在某种意义上,以最优的性质对p维空间构造一个“划分”,这个“划分”就构成了一个判别规则。
4.3简述距离判别法的基本思想和方法。
距离判别问题分为①两个总体的距离判别问题和②多个总体的判别问题。
其基本思想都是分别计算样本与各个总体的距离(马氏距离),将距离近的判别为一类。
①两个总体的距离判别问题
设有协方差矩阵∑相等的两个总体G1和G2,其均值分别是m1和m2,对于一个新的样品X,要判断它来自哪个总体。
计算新样品X到两个总体的马氏距离D2(X,G1)和D2(X,G2),则
X,D2(X,G1)D2(X,G2)
X,D2(X,G1)>
D2(X,G2,
具体分析,
记则判别规则为
X,W(X)
X,W(X)<
②多个总体的判别问题。
设有个总体,其均值和协方差矩阵分别是和,且。
计算样本到每个总体的马氏距离,到哪个总体的距离最小就属于哪个总体。
取,,。
可以取线性判别函数为,
相应的判别规则为若
4.4简述贝叶斯判别法的基本思想和方法。
基本思想:
设k个总体,其各自的分布密度函数,假设k个总体各自出现的概率分别为,,。
设将本来属于总体的样品错判到总体时造成的损失为,。
设个总体相应的维样本空间为。
在规则下,将属于的样品错判为的概率为
则这种判别规则下样品错判后所造成的平均损失为
则用规则来进行判别所造成的总平均损失为
贝叶斯判别法则,就是要选择一种划分,使总平均损失达到极小。
基本方法:
令,则
若有另一划分,
则在两种划分下的总平均损失之差为
因为在上对一切成立,故上式小于或等于零,是贝叶斯判别的解。
从而得到的划分为
4.5简述费希尔判别法的基本思想和方法。
从个总体中抽取具有个指标的样品观测数据,借助方差分析的思想构造一个线性判别函数
系数可使得总体之间区别最大,而使每个总体内部的离差最小。
将新样品的个指标值代入线性判别函数式中求出值,然后根据判别一定的规则,就可以判别新的样品属于哪个总体。
4.6试析距离判别法、贝叶斯判别法和费希尔判别法的异同。
①费希尔判别与距离判别对判别变量的分布类型无要求。
二者只是要求有各类母体的两阶矩存在。
而贝叶斯判别必须知道判别变量的分布类型。
因此前两者相对来说较为简单。
②当k=2时,若则费希尔判别与距离判别等价。
当判别变量服从正态分布时,二者与贝叶斯判别也等价。
③当时,费希尔判别用作为共同协差阵,实际看成等协差阵,此与距离判别、贝叶斯判别不同。
④距离判别可以看为贝叶斯判别的特殊情形。
贝叶斯判别的判别规则是X,W(X)
lnd
距离判别的判别规则是
二者的区别在于阈值点。
当,时,,。
二者完全相同。
4.7设有两个二元总体和,从中分别抽取样本计算得到,,假设,试用距离判别法建立判别函数和判别规则。
样品X=(6,0)’应属于哪个总体?
=,=,==
,
,
即样品X属于总体
第五章
5.1判别分析和聚类分析有何区别?
即根据一定的判别准则,判定一个样本归属于哪一类。
具体而言,设有n个样本,对每个样本测得p项指标(变量)的数据,已知每个样本属于k个类别(或总体)中的某一类,通过找出一个最优的划分,使得不同类别的样本尽可能地区别开,并判别该样本属于哪个总体。
聚类分析是分析如何对样品(或变量)进行量化分类的问题。
在聚类之前,我们并不知道总体,而是通过一次次的聚类,使相近的样品(或变量)聚合形成总体。
通俗来讲,判别分析是在已知有多少类及是什么类的情况下进行分类,而聚类分析是在不知道类的情况下进行分类。
5.2试述系统聚类的基本思想。
系统聚类的基本思想是:
距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。
5.3对样品和变量进行聚类分析时,所构造的统计量分别是什么?
简要说明为什么这样构造?
对样品进行聚类分析时,用距离来测定样品之间的相似程度。
因为我们把n个样本看作p维空间的n个点。
点之间的距离即可代表样品间的相似度。
常用的距离为
(一)闵可夫斯基距离:
q取不同值,分为
(1)绝对距离(),
(2)欧氏距离(),
(3)切比雪夫距离(),
(二)马氏距离
(三)兰氏距离
对变量的相似性,我们更多地要了解变量的变化趋势或变化方向,因此用相关性进行衡量。
将变量看作p维空间的向量,一般用
(一)夹角余弦
(二)相关系数
5.4在进行系统聚类时,不同类间距离计算方法有何区别?
选择距离公式应遵循哪些原则?
设dij表示样品Xi与Xj之间距离,用Dij表示类Gi与Gj之间的距离。
(1).最短距离法
(2)最长距离法
(3)中间距离法
其中
(4)重心法
(5)类平均法
(6)可变类平均法
其中b是可变的且b<
(7)可变法
其中b是可变的且b<
(8)离差平方和法
通常选择距离公式应注意遵循以下的基本原则:
(1)要考虑所选择的距离公式在实际应用中有明确的意义。
如欧氏距离就有非常明确的空间距离概念。
马氏距离有消除量纲影响的作用。
(2)要综合考虑对样本观测数据的预处理和将要采用的聚类分析方法。
如在进行聚类分析之前已经对变量作了标准化处理,则通常就可采用欧氏距离。
(3)要考虑研究对象的特点和计算量的大小。
样品间距离公式的选择是一个比较复杂且带有一定主观性的问题,我们应根据研究对象的特点不同做出具体分折。
实际中,聚类分析前不妨试探性地多选择几个距离公式分别进行聚类,然后对聚类分析的结果进行对比分析,以确定最合适的距离测度方法。
5.