(完整版)多元统计分析课后练习答案.doc

资源描述

(完整版)多元统计分析课后练习答案.doc

《(完整版)多元统计分析课后练习答案.doc》由会员分享，可在线阅读，更多相关《(完整版)多元统计分析课后练习答案.doc（11页珍藏版）》请在冰豆网上搜索。

(完整版)多元统计分析课后练习答案.doc

第1章多元正态分布

1、在数据处理时，为什么通常要进行标准化处理？

数据的标准化是将数据按比例缩放，使之落入一个小的特定区间。

在某些比较和评价的指标处理中经常会用到，去除数据的单位限制，将其转化为无量纲的纯数值，便于不同单位或量级的指标能够进行比较和加权。

其中最典型的就是0-1标准化和Z标准化。

2、欧氏距离与马氏距离的优缺点是什么？

欧氏距离也称欧几里得度量、欧几里得度量，是一个通常采用的距离定义，它是在m维空间中两个点之间的真实距离。

在二维和三维空间中的欧氏距离的就是两点之间的距离。

缺点：

就大部分统计问题而言，欧氏距离是不能令人满意的。

每个坐标对欧氏距离的贡献是同等的。

当坐标表示测量值时，它们往往带有大小不等的随机波动，在这种情况下，合理的方法是对坐标加权，使变化较大的坐标比变化较小的坐标有较小的权系数，这就产生了各种距离。

当各个分量为不同性质的量时，“距离”的大小与指标的单位有关。

它将样品的不同属性之间的差别等同看待，这一点有时不能满足实际要求。

没有考虑到总体变异对距离远近的影响。

马氏距离表示数据的协方差距离。

为两个服从同一分布并且其协方差矩阵为Σ的随机变量与的差异程度:

如果协方差矩阵为单位矩阵,那么马氏距离就简化为欧氏距离,如果协方差矩阵为对角阵,则其也可称为正规化的欧氏距离。

优点：

它不受量纲的影响，两点之间的马氏距离与原始数据的测量单位无关。

由标准化数据和中心化数据计算出的二点之间的马氏距离相同。

马氏距离还可以排除变量之间的相关性的干扰。

缺点：

夸大了变化微小的变量的作用。

受协方差矩阵不稳定的影响，马氏距离并不总是能顺利计算出。

3、当变量X1和X2方向上的变差相等，且与互相独立时，采用欧氏距离与统计距离是否一致？

统计距离区别于欧式距离，此距离要依赖样本的方差和协方差，能够体现各变量在变差大小上的不同，以及优势存在的相关性，还要求距离与各变量所用的单位无关。

如果各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵,则马氏距离就退化为用各个观测指标的标准差的倒数作为权数的加权欧氏距离。

4、如果正态随机向量的协方差阵S为对角阵，证明X的分量是相互独立的随机变量。

解：

因为的密度函数为

又由于

则

则其分量是相互独立。

5.和是相互独立的随机变量，且～，～。

（a）求的分布。

（b）如果，写出关于与的表达式，并写出的分布。

（c）如果且～，写出关于与的表达式，并写出的分布。

解：

（a）由于～，所以～。

（b）由于～，～；

所以～；

故，且～

第2章均值向量和协方差阵的检验

1、略

2、试谈Wilks统计量在多元方差分析中的重要意义。

3、题目此略

多元均值检验,从题意知道，容量为9的样本，总体协方差未知

假设H0：

，H1：

（n=9p=5）

检验统计量/（n-1）

服从P，n-1的分布

统计量实际上是样本均值与已知总体均值之间的马氏距离再乘以n*（n-1）,这个值越大，相等的可能性越小，备择假设成立时，有变大的趋势，所以拒绝域选择值较大的右侧部分，也可以转变为F统计量

零假设的拒绝区域{（n-p）/[（n-1）*p]}*>

1/10*>F5,4（5）

μ0=（6212.0132.8729729.5 15.78）’

样本均值（4208.78 35.12 1965.89 12.21 27.79）’

（样本均值-μ0）’=（-2003.23 2.25 -1006.11 2.71 12.01）

协方差矩阵（降维——因子分析——抽取）

Inter-ItemCovarianceMatrix

人均GDP（元）

三产比重（%）

人均消费（元）

人口增长（%）

文盲半文盲（%）

人均GDP（元）

1020190.840

582.460

331693.531

-599.784

-6356.325

三产比重（%）

582.460

19.480

-105.464

6.625

43.697

人均消费（元）

331693.531

-105.464

125364.321

-213.634

-3130.038

人口增长（%）

-599.784

6.625

-213.634

6.099

25.410

文盲半文盲（%）

-6356.325

43.697

-3130.038

25.410

196.884

协方差的逆矩阵

1.88034E-05

-0.000440368

-6.09781E-05

0.00279921

-0.000625893

-0.00044037

0.207023949

-0.000210374

-0.0237044

-0.06044981

-6.0978E-05

-0.000210374

0.00022733

-0.0105019

0.003047474

0.002799208

-0.023704352

-0.010501881

0.85288927

-0.18139981

-0.00062589

-0.06044981

0.003047474

-0.1813998

0.070148804

计算：

边远及少数民族聚居区社会经济发展水平的指标数据.xls

=9*（-2003.23 2.25 -1006.11 2.71 12.01）*s^-1*（-2003.23 2.25 -1006.11 2.71 12.01）’=9*50.11793817=451,06144353

F统计量=45.2>6.2拒绝零假设，边缘及少数民族聚居区的社会经济发展水平与全国平均水平有显著差异。

4、略

第3章聚类分析

1.、聚类分析的基本思想和功能是什么？

聚类分析的基本思想是研究的样品或指标之间存着程度不同的相似性，于是根据一批样品的多个观测指标，具体找出一些能够度量样品或指标之间的相似程度的统计量，以这些统计量作为划分类型的依据，把一些相似程度较大的样品聚合为一类，把另外一些彼此之间相似程度较大的样品又聚合为另外一类，直到把所有的样品聚合完毕，形成一个有小到大的分类系统，最后再把整个分类系统画成一张分群图，用它把所有样品间的亲疏关系表示出来。

功能是把相似的研究对象归类。

2、试述系统聚类法的原理和具体步骤。

系统聚类是将每个样品分成若干类的方法，其基本思想是先将各个样品各看成一类，然后规定类与类之间的距离，选择距离最小的一对合并成新的一类，计算新类与其他类之间的距离，再将距离最近的两类合并，这样每次减少一类，直至所有的样品合为一类为止。

具体步骤：

1、对数据进行变换处理；（不是必须的，当数量级相差很大或指标变量具有不同单位时是必要的）

2、构造n个类，每个类只包含一个样本；

3、计算n个样本两两间的距离ijd；

4、合并距离最近的两类为一新类；

5、计算新类与当前各类的距离，若类的个数等于1，转到6；否则回4；

6、画聚类图；

7、决定类的个数，从而得出分类结果。

3、试述K-均值聚类的方法原理。

K-均值法是一种非谱系聚类法，把每个样品聚集到其最近形心（均值）类中，它是把样品聚集成K个类的集合，类的个数k可以预先给定或者在聚类过程中确定，该方法应用于比系统聚类法大得多的数据组。

步骤是把样品分为K个初始类，进行修改，逐个分派样品到期最近均值的类中（通常采用标准化数据或非标准化数据计算欧氏距离）重新计算接受新样品的类和失去样品的类的形心。

重复这一步直到各类无元素进出。

4、试述模糊聚类的思想方法。

模糊聚类分析是根据客观事物间的特征、亲疏程度、相似性，通过建立模糊相似关系对客观事物进行聚类的分析方法，实质是根据研究对象本身的属性构造模糊矩阵，在此基础上根据一定的隶属度来确定其分类关系。

基本思想是要把需要识别的事物与模板进行模糊比较，从而得到所属的类别。

简单地说，模糊聚类事先不知道具体的分类类别，而模糊识别是在已知分类的情况下进行的。

模糊聚类分析广泛应用在气象预报、地质、农业、林业等方面。

它有两种基本方法:

系统聚类法和逐步聚类法。

该方法多用于定性变量的分类。

5、略

第4章判别分析

1、应用判别分析应该具备什么样的条件？

答：

判别分析最基本的要求是，分组类型在两组以上，每组案例的规模必须至少在一个以上，解释变量必须是可测量的，才能够计算其平均值和方差。

对于判别分析有三个假设：

（1）每一个判别变量不能是其他判别变量的线性组合。

有时一个判别变量与另外的判别变量高度相关，或与其的线性组合高度相关，也就是多重共线性。

（2）各组变量的协方差矩阵相等。

判别分析最简单和最常用的的形式是采用现行判别函数，他们是判别变量的简单线性组合，在各组协方差矩阵相等的假设条件下，可以使用很简单的公式来计算判别函数和进行显著性检验。

（3）各判别变量之间具有多元正态分布，即每个变量对于所有其他变量的固定值有正态分布，在这种条件下可以精确计算显著性检验值和分组归属的概率。

2、试述贝叶斯判别法的思路。

答：

贝叶斯判别法的思路是先假定对研究的对象已有一定的认识，常用先验概率分布来描述这种认识，然后我们取得一个样本，用样本来修正已有的认识（先验概率分布），得到后验概率分布，各种统计推断都通过后验概率分布来进行。

将贝叶斯判别方法用于判别分析，就得到贝叶斯判别。

3、试述费歇判别法的基本思想。

答：

费歇判别法的基本思想是将高维数据点投影到低维空间上来，然而利用方差分析的思想选出一个最优的投影方向。

因此，严格的说费歇判别分析本身不是一种判别方法，只是利用费歇统计量进行数据预处理的方法，以使更有利于用判别分析方法解决问题。

为了有利于判别，我们选择投影方向a应使投影后的k个一元总体能尽量分开（同一总体中的样品的投影值尽量靠近）。

k要做到这一点，只要投影后的k个一元总体均值有显著差异，即可利用方差分析的方法使组间平方和尽可能的大。

则选取投影方向a使Δ（a）达极大即可。

4、什么是逐步判别分析？

答：

具有筛选变量能力的判别方法称为逐步判别分析法。

逐步判别分析法就是先从所有因子中挑选一个具有最显著判别能力的因子，然后再挑选第二个因子，这因子是在第一因子的基础上具有最显著判别能力的因子，即第一个和第二个因子联合起来有显著判别能力的因子；接着挑选第三个因子，这因子是在第一、第二因子的基础上具有最显著判别能力的因子。

由于因子之间的相互关系，当引进了新的因子之后，会使原来已引入的因子失去显著判别能力。

因此，在引入第三个因子之后就要先检验已经引入的因子是否还具有显著判别能力，如果有就要剔除这个不显著的因子；接着再继续引入，直到再没有显著能力的因子可剔除为止，最后利用已选中的变量建立判别函数。

5、简要叙述判别分析的步骤及流程

答：

（1）研究问题：

选择对象，评估一个多元问题各组的差异，将观测个体归类，确定组与组之间的判别函数。

（2）设计要点：

选择解释变量，样本量的考虑，建立分析样本的保留样本。

（3）假定：

解释变量的正态性，线性关系，解释变量间不存在多重共线性，协方差阵相等。

（4）估计判别函数：

联立估计或逐步估计，判别函数的显著性。

（5）使用分类矩阵评估预测的精度：

确定最优临界得分，确定准则来评估判对比率，预测精确的统计显著性。

（6）判别函数的解释：

需要多少个函数。

评价单个函数主要从判别权重、判别载荷、偏F值几个方面；评价两个以上的判别函数，分为评价判别的函数和评价合并的函数。

（7）判别结果的验证：

分开样本或交叉验证，刻画组间的差异。

6、略

第5章主成分分析

1、主成

展开阅读全文