何晓群版多元统计课后作业答案.docx

上传人:b****1 文档编号:23147189 上传时间:2023-05-08 格式:DOCX 页数:24 大小:119.29KB
下载 相关 举报
何晓群版多元统计课后作业答案.docx_第1页
第1页 / 共24页
何晓群版多元统计课后作业答案.docx_第2页
第2页 / 共24页
何晓群版多元统计课后作业答案.docx_第3页
第3页 / 共24页
何晓群版多元统计课后作业答案.docx_第4页
第4页 / 共24页
何晓群版多元统计课后作业答案.docx_第5页
第5页 / 共24页
点击查看更多>>
下载资源
资源描述

何晓群版多元统计课后作业答案.docx

《何晓群版多元统计课后作业答案.docx》由会员分享,可在线阅读,更多相关《何晓群版多元统计课后作业答案.docx(24页珍藏版)》请在冰豆网上搜索。

何晓群版多元统计课后作业答案.docx

何晓群版多元统计课后作业答案

第一章多元正态分布

1.在数据处理时,为什么通常要进行标准化处理?

数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。

在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。

其中最典型的就是0-1标准化和Z标准化。

(1)0-1标准化(0-1normalization)也叫离差标准化,是对原始数据的线性变换,使结果落到[0,1]区间,转换函数如下:

其中max为样本数据的最大值,min为样本数据的最小值。

这种方法有一个缺陷就是当有新数据加入时,可能导致max和min的变化,需要重新定义。

(2)Z-score标准化(zero-meannormalization)

也叫标准差标准化,经过处理的数据符合标准正态分布,即均值为0,标准差为1,也是SPSS中最为常用的标准化方法,其转化函数为:

其中μ为所有样本数据的均值,σ为所有样本数据的标准差。

2、欧氏距离与马氏距离的优缺点是什么?

欧氏距离(Euclideandistance)也称欧几里得度量、欧几里得度量,是一个通常采用的距离定义,它是在m维空间中两个点之间的真实距离。

在二维和三维空间中的欧氏距离的就是两点之间的距离。

缺点:

就大部分统计问题而言,欧氏距离是不能令人满意的。

(每个坐标对欧氏距离的贡献是同等的。

当坐标表示测量值时,它们往往带有大小不等的随机波动,在这种情况下,合理的方法是对坐标加权,使变化较大的坐标比变化较小的坐标有较小的权系数,这就产生了各种距离。

当各个分量为不同性质的量时,“距离”的大小与指标的单位有关。

它将样品的不同属性(即各指标或各变量)之间的差别等同看待,这一点有时不能满足实际要求。

没有考虑到总体变异对距离远近的影响。

马氏距离(Mahalanobisdistance)是由印度统计学家马哈拉诺比斯提出的,表示数据的协方差距离。

为两个服从同一分布并且其协方差矩阵为Σ的随机变量与的差异程度:

如果协方差矩阵为单位矩阵,那么马氏距离就简化为欧氏距离,如果协方差矩阵为对角阵,则其也可称为正规化的欧氏距离。

它是一种有效的计算两个未知样本集的相似度的方法。

对于一个均值为μ,协方差矩阵为Σ的多变量向量,样本与总体的马氏距离为(dm)^2=(x-μ)'Σ^(-1)(x-μ)。

在绝大多数情况下,马氏距离是可以顺利计算的,但是马氏距离的计算是不稳定的,不稳定的来源是协方差矩阵,这也是马氏距离与欧式距离的最大差异之处。

优点:

它不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关。

(它考虑到各种特性之间的联系(例如:

一条关于身高的信息会带来一条关于体重的

信息,因为两者是有关联的)并且是尺度无关的(scale-invariant),即独立于测量尺度);由标准化数据和中心化数据(即原始数据与均值之差)计算出的二点之间的马氏距离相同。

马氏距离还可以排除变量之间的相关性的干扰。

缺点:

夸大了变化微小的变量的作用。

受协方差矩阵不稳定的影响,马氏距离并不总是能顺利计算出。

3、当变量X1和X2方向上的变差相等,且与互相独立时,采用欧氏距离与统计距离是否一致?

统计距离区别于欧式距离,此距离要依赖样本的方差和协方差,能够体现各变量在变差大小上的不同,以及优势存在的相关性,还要求距离与各变量所用的单位无关。

如果各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵,则马氏距离就退化为用各个观测指标的标准差的倒数作为权数的加权欧氏距离。

第二章均值向量和协方差阵的检验

3、多元均值检验,从题意知道,容量为9的样本,总体协方差未知假设H0:

0,H1:

0(n=9p=5)

T2n(X0)S1(X0)服从P,n-1的T2分布

统计量T2实际上是样本均值与已知总体均值之间的马氏距离再乘以n*(n-1)

这个值越大,相等的可能性越小,备择假设成立时,T2有变大的趋势,所以拒

绝域选择T2值较大的右侧部分,也可以转变为F统计量

零假设的拒绝区域{(n-p)/[(n-1)*p]}*T2>Fp,np()

2

1/10*T2>F5,4(5)

μ0=(6212.0132.8729729.515.78)'

样本均值(4208.7835.121965.8912.2127.79)'

(样本均值-μ0)'=(-2003.232.25-1006.112.7112.01)

协方差矩阵(降维——因子分析——抽取)

Inter-ItemCovarianceMatrix

人均GDP(元)

三产比重(%)

人均消费(元)

人口增长(%)

文盲半文盲(%)

人均GDP(元)

1020190.840

582.460

331693.531

-599.784

-6356.325

三产比重(%)

582.460

19.480

-105.464

6.625

43.697

人均消费(元)

331693.531

-105.464

125364.321

-213.634

-3130.038

人口增长(%)

-599.784

6.625

-213.634

6.099

25.410

文盲半文盲(%)

-6356.325

43.697

-3130.038

25.410

196.884

计算:

边远及少数民族聚居区社会经济发展水平的指标数据.xls

T2=9*(-2003.232.25-1006.112.7112.01)*s^-1*(-2003.232.25-1006.112.7112.01)'=9*50.11793817=451,06144353

F统计量=45.2>6.2拒绝零假设,边缘及少数民族聚居区的社会经济发展水平与全国平均水平有显著差异。

第三章聚类分析

1.聚类分析的基本思想和功能是什么?

研究的样品或指标之间存着程度不同的相似性,于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间的相似程度的统计量,以这些统计量作为划分类型的依据,把一些相似程度较大的样品聚合为一类,把另外一些彼此之间相似程度较大的样品又聚合为另外一类,直到把所有的样品聚合完毕,形成一个有小到大的分类系统,最后再把整个分类系统画成一张分群图,用它把所有样品间的亲疏关系表示出来。

作用是把相似的研究对象归类。

2.试述系统聚类法的原理和具体步骤。

首先将n个样品看成n类(一类包含一个样品),然后将性质最接近的两类合并成一个新类,得到n-1类,再从中找出最接近的两类加以合并变成n-2类,如此下去,最后所有的样品均在一类,将上述并类过程画成一张图便可决定分多少类,每类各有哪些样品。

3.试述K-均值聚类的方法原理K-均值法是一种非谱系聚类法,把每个样品聚集到其最近形心(均值)类中,它是把样品聚集成K个类的集合,类的个数k可以预先给定或者在聚类过程中确定,该方法应用于比系统聚类法大得多的数据组。

把样品分为K个初始类,进行修改,逐个分派样品到期最近均值的类中(通常采用标准化数据或非标准化数据计算欧氏距离)重新计算接受新样品的类和失去样品的类的形心。

重复这一步直到各类无元素进出。

第四章判别分析

1.应用判别分析应该具备什么样的条件被解释变量是属性变量而解释变量是度量变量,判别分析最基本的要求是,分组类型在两组以上,每组案例的规模必须至少在一个以上,解释变量必须是可测量的,才能够计算其平均值和方差,使其能合理地应用于统计函数。

假设之一是:

每一个判别变量(解释变量)不能是其他判别变量的线性组合。

这时,为其他变量线性组合的判别变量不能提供新的信息,更重要的是在这种情况下无法估计判别函数。

不仅如此,有时一个判别变量与另外的判别变量高度相关,或与另外的判别变量的线性组合高度相关,虽然能求解,但是参数估计的标准误差很大,以至于参数估计统计上不显著,这就是常说的,多重共线性问题。

假设之二:

各组变量的协方差矩阵相等,判别分析最简单和最常用的的形式是采用现行判别函数,他们是判别变量的简单线性组合,在各组协方差矩阵相等的假设条件下,可以使用很简单的公式来计算判别函数和进行显著性检验。

假设之三:

各判别变量之间具有多元正态分布,即每个变量对于所有其他变量的固定值有正态分布,在这种条件下可以精确计算显著性检验值和分组归属的概率,党委被该假设时,计算的概率将非常不准确。

2.试述贝叶斯判别法的思路贝叶斯判别法的思路是先假定对研究的对象已有一定的认识,常用先验概率分布来描述这种认识,然后我们取得一个样本,用样本来修正已有的认识,(先验概率分布),得到后验概率分布,各种统计推断都通过后验概率分布来进行。

将贝叶斯判别方法用于判别分析得到贝叶斯判别。

(1)最大后验概率准则

设有总体i(i=1,2,⋯k),具有概率密度函数fi(X),并且知道根据以往的统计分

析,知道i出现的概率为Pi。

当样本x0发生时,求属于某类的概率,由贝叶斯

公式计算后验概率

P(i|x0)=Pi*fi(X)/ΣPi*fi(X),i=1,2,⋯,k

xl,p(lx)maxp(ix)X

最大后验概率准则采用的判别规则是:

(2)最小误判代价准则

设有K个总体1,2,...,k分别具有p维密度函数,p1(x),p2(x),...,pk(x),已知出

现这k个总体的先验概率分布为q1,q2,...qkk

用D1,D2,...,Dk表示样本Rp的一个划分,D1,D2,...,Dk互不相交,且DiRp,

i1如果这个划分取得适当,正好对应于k个总体,这时判别规则可以采用如下方法xi,x落入Di,i1,2,3...k用c(ji)表示来自样本i而被误判为j的损失,这一误判的概率为p(ji)Djpi(x)dx由以上判别规则带来的平均损失ECM

kk

ECM(D1,D2,...,Dk)qic(ji)p(ji)定义c(ii)0,目的是求D1,D2,...,Dk,

i1j1

使得ECM最小

3.试述费歇判别法的思想

将k组P维数据投影到某一方向,使得它们的投影组与组之间尽可能地分开K个总体分别取得k组P维观察值

G1:

x1

(1),...,xn(11)

nn1n2...nk

G:

x(k),...,x(k)

Gk:

x1,...,xnk

令a为Rp中的任一向量,u(x)a'xn(11)为x向以a为法线方向的投影,这时,上

(k)nk

述数据的投影为

Gk:

a'x1(k),...,a'x

k

组间平方和SSGa'[ni(X(i)X)(X(i)X)']aa'BaX(i)为第i组均值X为总i1

体均值向量

kk

组内平方和SSEa'[(Xj(i)X(i))(Xj(i)X(i))']aa'Ea

i1j1

如果K组均值有显著差异,则

FSSG/(k1)nka'Ba应该充分地大,或者(a)a'Ba应充分大

SSE/(nk)k1a'Eaa'Ea

(.)的极大值为1,它是BE0的最大特征根,l1,l2,...,lr为相应的特征向量,

当al1时,可使(.)达到最大值,由于(a)的大小可以衡量u(x)a'x判别的效

果,所以称(a)为判别效率。

得到以下定理:

费歇准则下的线性判别函数u(x)a'x的解a为方程BE0的

最大特征根1所对应的特征向量l1,且相应的判别效率为(l1)1

4.什么是逐步判别分析

如果在某个判别问题中,将起最重要的变量忽略了,相应的判别函数的效果一定不好。

而另一方面,如果判别变量的个数太多,计算量必然大,会影响估计的精度,特别当引入了一些判别能力不强的变量时,还会严重影响到判别的效果。

变量的选择关系到判别函数的效果,适当筛选变量是一个很重要的问题。

凡是具有筛选变量能力的判别方法统称为逐步判别法。

1)在x1,x2,..xm中选出一个自变量,它使维尔克斯统计量i(i1,2,..m)达到最

1mini,考察1是否落入接受域,如果不显著则表明一个变量也不选中,,不能用判别分析,如显著则进入下一步。

(2)在未选中的变量中,计算它们与已选中变量x1配合的值,选择使

计算1,2,...,r,l(rlm),使其最小的为第r1个变量,检验第r1个变量能否提供附加信息,如果能则进入第四部,不能进入第三步。

(3)在已选入的r个变量中,要考虑较早选中的变量中重要性有没有较大的变化,应及时把不能提供附加信息的变量剔除出去,剔除的原则等同于引进的原则。

例如在已进入的r个变量中要考察xl(1lr)是否应剔除,就是计算l.1,..l1,l1,...r选择达到极小(大)的,看是否显著,如不显著将该变量剔除,回到第三步,继续对于下的变量进行考察是否需要剔除,如果显著则回到第二步。

(4)这时既不能选进新变量,又不能剔除已选进的变量,将已选中的变量简历判别函数。

5.简要叙述判别分析的步骤及流程

(1)研究问题:

选择对象,评估一个多元问题各组的差异,将观测(个体)归类,确定组与组之间的判别函数

(2)设计要点:

选择解释变量,样本的考虑,建立分析样本的保留样本

(3)假定:

解释变量的整体性,线性关系,解释变量间不存在多重共线性,协方差相等

(4)估计判别函数:

联立估计或者逐步估计,判别函数的显著性

(5)使用分类矩阵评估预测的精度:

确定最优临界得分,确定准则来评估判对比率,预测精确的统计显著性

(6)判别函数的解释,需要多个函数,评价单个函数主要从判别权重、判别载荷、偏F值几个方面,(评价两个以上的判别函数也需要,并且还要评价合并的函数,函数的旋转、能力指数,各组重心的图示、判别载荷的图示,)

(7)判别结果的验证:

分开样本或者交叉验证,刻画组间的差异。

6.为研究某地区人口死亡状况,已按某种方法将15个一直样品分为三类,指标

及原始数据见下表,试建立判别函数,并判定另外四个带判样品属于哪类

AnalysisCaseProcessingSummary

UnweightedCases

N

Percent

Valid

15

78.9

ExcludedMissingorout-of-range

0

.0

groupcodes

Total

AtleastonemissingdiscriminatingvariableBothmissingorout-of-rangegroupcodesandatleastonemissingdiscriminatingvariable

Total

4

19

.0

21.1

21.1

100.0

 

 

GroupStatistics

y

Mean

Std.Deviation

ValidN(listwise)

Unweighted

Weighted

1X1

X2

X3

X4

X5

X6

38.7420

11.9000

1.5000

12.2460

100.0580

67.4600

6.88434

6.78528

.75931

6.97585

7.47740

2.69685

5

5

5

5

5

5

5.000

5.000

5.000

5.000

5.000

5.000

2X1

X2

X3

X4

X5

X6

39.5364

11.4960

2.9380

27.8300

151.2240

66.0500

8.37206

8.44911

2.12530

6.11971

17.62219

1.90722

5

5

5

5

5

5

5.000

5.000

5.000

5.000

5.000

5.000

3X1

X2

X3

X4

X5

X6

38.5000

10.1180

.6840

10.3320

93.9460

67.4200

10.56801

9.81930

.90790

9.67360

12.25276

3.05074

5

5

5

5

5

5

5.000

5.000

5.000

5.000

5.000

5.000

TotalX1

X2

X3

X4

X5

X6

38.9261

11.1713

1.7073

16.8027

115.0760

66.9767

8.10473

7.85636

1.61897

10.82306

29.22793

2.49735

15

15

15

15

15

15

15.000

15.000

15.000

15.000

15.000

15.000

Wilks'Lambda

F

df1

df2

Sig.

X1

.997

.019

2

12

.981

X2

.990

.061

2

12

.941

X3

.645

3.301

2

12

.072

X4

.438

7.690

2

12

.007

X5

.173

28.728

2

12

.000

X6

.926

.478

2

12

.631

对各组均值是否相等的检验,在0.01的显著性水平上,X4、X5在三组的均值有显著差异

反映协方差矩阵的秩和行列式的对数值,后者对各种体协方差阵是否相等的统计检验,由F值及其显著水平,我们在0.05的显著性水平下接受原假设(原假设假定各总体协方差阵相等)

Eigenvalues

Function

Eigenvalue

%ofVariance

Cumulative%

CanonicalCorrelation

1

60.267a

98.9

98.9

.992

2

.678a

1.1

100.0

.636

a.First2canonicaldiscriminantfunctionswereusedintheanalysis.

第一判别函数解释了98.9%的方差,第二判别函数解释了1.1%的方差

Wilks'Lambda

TestofFunction(s)

Wilks'Lambda

Chi-square

df

Sig.

1through2

.010

44.014

12

.000

2

.596

4.919

5

.426

第一判别函数在0.05的显著性水平上是显著的

标准化的判别函数

StandardizedCanonical

DiscriminantFunction

Coefficients

Function

1

2

X1

-17.048

-7.685

X2

14.710

9.793

X3

-1.301

-.513

X4

6.403

-.566

X5

1.344

.657

X6

4.311

1.813

CanonicalDiscriminantFunction

Coefficients

Function

1

2

X1

-1.951

-.879

X2

1.742

1.160

X3

-.927

-.366

X4

.827

-.073

X5

.102

.050

X6

1.661

.698

(Constant)

-78.860

-29.413

Unstandardizedcoefficients

非标准化的判别函数

Y1=-78.860+-1.951X1+1.742X2+-0.927X3+0.827X4+0.102X5+1.661X6根据这个判别函数计算每个观测的判别Z得分后者是判别函数在各组的重心各组的先验概率

Unstandardizedcanonicaldiscriminantfunctionsevaluatedatgroupmeans

ClassificationFunctionCoefficients

y

1

2

3

X1

-158.299

-181.006

-148.660

X2

166.206

186.018

156.942

X3

-97.779

-108.631

-93.291

X4

59.026

69.217

55.718

X5

11.522

12.710

11.009

X6

201.552

220.946

193.435

(Constant)

-5586.484

-6553.476

-5227.094

Fisher'slineardiscriminantfunctions

每组的费歇线性判别函数

Y=1这组

F1=-5586.484+-158.299X1+166.206X2+-97.779X3+59.026X4+11.522X5+201.552X6

Y=2这组

F2=-6553.476+-181.006X1+186.018X2+-108.631X3+69.217X4+12.710+X5220.946X6

Y=3这组

F3=-5227.094+-148.660X1+156.942X2+-93.291X3+55.718X4+11.009X5+193.435X6

将观测分到较大的函数值中

带判样品f1f2f3

分别如下

3902.361

3612.117

3997.661

5563.003

5478.957

5556.303

7015.192

7149.351

6931.574

5013.921

4877.544

5030.734

1号待判

判为第三组

2号待判

判为第一组

3号待判

判为第二组

4号待判

判为第三组

 

a,cClassificationResults

y

PredictedGroupMembership

Total

1

2

3

Original

Count

1

5

0

0

5

2

0

5

0

5

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 工程科技 > 交通运输

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1