何晓群版多元统计课后作业答案.docx

资源描述

何晓群版多元统计课后作业答案.docx

《何晓群版多元统计课后作业答案.docx》由会员分享，可在线阅读，更多相关《何晓群版多元统计课后作业答案.docx（23页珍藏版）》请在冰豆网上搜索。

何晓群版多元统计课后作业答案.docx

何晓群版多元统计课后作业答案

第一章多元正态分布在数据处理时，为什么通常要进行标准化处理？

1.）是将数据按比例缩放，使之落入一个小的特normalization数据的标准化（将去除数据的单位限制，定区间。

在某些比较和评价的指标处理中经常会用到，其其转化为无量纲的纯数值，便于不同单位或量级的指标能够进行比较和加权。

标准化。

标准化和Z中最典型的就是0-1（0-1normalization）

标准化）0-1（1区间，转换函[0,1]也叫离差标准化，是对原始数据的线性变换，使结果落到

数如下：

为样本数据的最小值。

这种方法有一个为样本数据的最大值，min其中max

min的变化，需要重新定义。

缺陷就是当有新数据加入时，可能导致max和（zero-meannormalization）

Z-score标准化

（2），标准也叫标准差标准化，经过处理的数据符合标准正态分布，即均值为0

中最为常用的标准化方法，其转化函数为，也是SPSS差为1：

为所有样本数据的标准差。

μ为所有样本数据的均值，σ其中

、欧氏距离与马氏距离的优缺点是什么？

2）也称欧几里得度量、欧几里得度量，是一个Euclideandistance欧氏距离（

通常采用的距离定义，它是在m维空间中两个点之间的真实距离。

在二维和三维空间中的欧氏距离的就是两点之间的距离。

缺点：

就大部分统计问题而言，欧氏距离是不能令人满意的。

（每个坐标对欧氏距离的贡献是同等的。

当坐标表示测量值时，它们往往带有大小不等的随机波动，在这种情况下，合理的方法是对坐标加权，使变化较大的坐标比变化较小的坐标有较小的权系数，这就产生了各种距离。

当各个分量为不同性质的量时，“距离”的大小与指标的单位有关。

它将样品的不同属性（即各指标或各变量）之间的差别等同看待，这一点有时不能满足实际要求。

没有考虑到总体变异对距离远近的影响。

马氏距离（Mahalanobisdistance）是由印度统计学家马哈拉诺比斯提出的，表示数据的协方差距离。

为两个服从同一分布并且其协方差矩阵为Σ的随机变量与的差异程度:

如果协方差矩阵为单位矩阵,那么马氏距离就简化为欧氏距离,如果协方差矩阵为对角阵,则其也可称为正规化的欧氏距离。

它是一种有效的计算两个未知样本集的相似度的方法。

对于一个均值为μ，协方差矩阵为Σ的多变量向量，样本与总体的马氏距离为（dm）^2=（x-μ）'Σ^（-1）（x-μ）。

在绝大多数情况下，马氏距离是可以顺利计算的，但是马氏距离的计算是不稳定的，不稳定的来源是协方差矩阵，这也是马氏距离与欧式距离的最大差异之处。

优点：

它不受量纲的影响，两点之间的马氏距离与原始数据的测量单位无关。

（它一条关于身高的信息会带来一条关于体重的（例如：

考虑到各种特性之间的联系

，即独立于测量（scale-invariant）信息，因为两者是有关联的）并且是尺度无关的即原始数据与均值之差）计算出的二点之间；由标准化数据和中心化数据（尺度）的马氏距离相同。

马氏距离还可以排除变量之间的相关性的干扰。

缺点：

夸大了变化微小的变量的作用。

受协方差矩阵不稳定的影响，马氏距离并不总是能顺利计算出。

3、当变量X1和X2方向上的变差相等，且与互相独立时，采用欧氏距离与统计距离是否一致？

统计距离区别于欧式距离，此距离要依赖样本的方差和协方差，能够体现各变量在变差大小上的不同，以及优势存在的相关性，还要求距离与各变量所用的单位无关。

如果各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵,则马氏距离就退化为用各个观测指标的标准差的倒数作为权数的加权欧氏距离。

第二章均值向量和协方差阵的检验

3、多元均值检验,从题意知道，容量为9的样本，总体协方差未知

（n=9，H1：

p=5）

H0假设：

检验统计量/（n-1）

22?

）?

ST（?

n（X?

）X的分布服从P，n-1T002实际上是样本均值与已知总体均值之间的马氏距离再乘以n*（n-1统计量）,T2有变大的趋势，所以拒这个值越大，相等的可能性越小，备择假设成立时，T2值较大的右侧部分，也可以转变为F统计量绝域选择T2?

）F（>）零假设的拒绝区域{（n-p/[（n-1）*p]}*Tpn?

p,2>F5,4（5）

1/10*T（6212.0132.8729729.5

15.78）'μ0=1965.8912.21

27.794208.7835.12

）'样本均值（）（-2003.232.25-1006.112.71-12.01）

（样本均值μ'=0协方差矩阵（降维——因子分析——抽取）

Inter-ItemCovarianceMatrix15.0008.104731538.9261

人均GDP（元）11.1713

三产比重（%）7.85636

人均消费（元）15.00015

人口增长（%）

文盲半文盲（%）

元）GDP（人均%三产比重（）（人均消费元）（%）

人口增长AnalysisCaseProcessingSummaryX3X4X5X6

1020190.840582.460331693.531-599.7841.707316.8027115.076066.9767

582.46019.480-105.4646.6251.6189710.8230629.227932.49735

331693.531-105.464125364.321-213.63415.00015

15.00015

15.000

-599.7846.625-213.6346.099

-6356.32543.697-3130.03825.410

文盲半文盲（%）-6356.32543.697-3130.03825.410196.884

协方差的逆矩阵

1.88034E-05-0.000440368-6.09781E-050.00279921-0.000625893

-0.000440370.207023949-0.000210374-0.0237044-0.06044981

-6.0978E-05-0.0002103740.00022733-0.01050190.003047474

0.002799208-0.023704352-0.0105018810.85288927-0.18139981

-0.00062589-0.060449810.003047474-0.18139980.070148804

计算：

边远及少数民族聚居区社会经济发展水平的指标数据.xls

9*2（-2003.232.25-1006.112.7112.01）*s^-1*（-2003.232.25T=-1006.112.7112.01）'=9*50.11793817=451,06144353

F统计量=45.2>6.2拒绝零假设，边缘及少数民族聚居区的社会经济发展水平与全国平均水平有显著差异。

第三章聚类分析

1.聚类分析的基本思想和功能是什么？

研究的样品或指标之间存着程度不同的相似性，于是根据一批样品的多个观测指标，具体找出一些能够度量样品或指标之间的相似程度的统计量，以这些统计量作为划分类型的依据，把一些相似程度较大的样品聚合为一类，把另外一些彼此之间相似程度较大的样品又聚合为另外一类，直到把所有的样品聚合完毕，形成一个有小到大的分类系统，最后再把整个分类系统画成一张分群图，用它把所有样品间的亲疏关系表示出来。

作用是把相似的研究对象归类。

2.试述系统聚类法的原理和具体步骤。

首先将n个样品看成n类（一类包含一个样品）,然后将性质最接近的两类合并成一个新类，得到n-1类，再从中找出最接近的两类加以合并变成n-2类，如此下去，最后所有的样品均在一类，将上述并类过程画成一张图便可决定分多少类，每类各有哪些样品。

3.试述K-均值聚类的方法原理

K-均值法是一种非谱系聚类法，把每个样品聚集到其最近形心（均值）类中，它是把样品聚集成K个类的集合，类的个数k可以预先给定或者在聚类过程中确定，该方法应用于比系统聚类法大得多的数据组。

把样品分为K个初始类，进行修改，逐个分派样品到期最近均值的类中（通常采用标准化数据或非标准化数据计算欧氏距离）重新计算接受新样品的类和失去样品的类的形心。

重复这一步直到各类无元素进出。

第四章判别分析

1.应用判别分析应该具备什么样的条件

被解释变量是属性变量而解释变量是度量变量，判别分析最基本的要求是，分组类型在两组以上，每组案例的规模必须至少在一个以上，解释变量必须是可测量的，才能够计算其平均值和方差，使其能合理地应用于统计函数。

假设之一是：

每一个判别变量（解释变量）不能是其他判别变量的线性组合。

这．

时，为其他变量线性组合的判别变量不能提供新的信息，更重要的是在这种情况下无法估计判别函数。

不仅如此，有时一个判别变量与另外的判别变量高度相关，或与另外的判别变量的线性组合高度相关，虽然能求解，但是参数估计的标准误差很大，以至于参数估计统计上不显著，这就是常说的，多重共线性问题。

假设之二：

各组变量的协方差矩阵相等，判别分析最简单和最常用的的形式是采用现行判别函数，他们是判别变量的简单线性组合，在各组协方差矩阵相等的假设条件下，可以使用很简单的公式来计算判别函数和进行显著性检验。

假设之三：

各判别变量之间具有多元正态分布，即每个变量对于所有其他变量的固定值有正态分布，在这种条件下可以精确计算显著性检验值和分组归属的概率，党委被该假设时，计算的概率将非常不准确。

2.试述贝叶斯判别法的思路

贝叶斯判别法的思路是先假定对研究的对象已有一定的认识，常用先验概率分布来描述这种认识，然后我们取得一个样本，用样本来修正已有的认识，（先验概率分布），得到后验概率分布，各种统计推断都通过后验概率分布来进行。

将贝叶斯判别方法用于判别分析得到贝叶斯判别。

（1）最大后验概率准则

i（X），具有概率密度函数，并且知道根据以往的统计分（i=1,2,…k）设有总体i?

x发生时，求属于某类的概率，由贝叶斯Pi析，知道。

当样本出现的概率为0i公式计算后验概率

ff?

i（X）,i=1,2,…,k

i（X）/ΣP（Pi*｜x）=Pi*0imax?

最大后验概率准则采用的判别规则是：

）xp,p（（x）x?

ill1?

（2）最小误判代价准则

p（x）,p,...,（x）,...,p（x,），已知出p分别具有设有K个总体维密度函数，k212k1q,q,...q个总体的先验概率分布为现这kk21kppRD?

DD,...,DD,,...,DD,，互不相交，且表示样本用的一个划分，R

ik112k21i?

如果这个划分取得适当，正好对应于k个总体，这时判别规则可以采用如下方法

）（jicDx?

落入x的损失，表示来自样本用这一误判的而被误判为jkii,?

1,2,3...i,i

p（x）ji）?

dxp（由以上判别规则带来的平均损失ECM

概率为iDjkk?

）jij（i）p）,...,DECM（,DD?

（qc

DD,...,,D0c）?

（ii，定义，目的是求i2k1k121j?

1i?

使得ECM最小

3.试述费歇判别法的思想

将k组P维数据投影到某一方向，使得它们的投影组与

展开阅读全文