多元统计期末复习题精品doc.docx

资源描述

多元统计期末复习题精品doc.docx

《多元统计期末复习题精品doc.docx》由会员分享，可在线阅读，更多相关《多元统计期末复习题精品doc.docx（16页珍藏版）》请在冰豆网上搜索。

多元统计期末复习题精品doc.docx

多元统计期末复习题精品doc

多元数据分析练习题

第二章多元正态的参数估计

一.判断题

（1）若X=（Xl,X2,---,XpY~NpUM是对角矩阵，则X-X2,…,Xp相互独立。

（）

（2）多元正态分布的任何边缘分布为正态分布，反之也成立。

（）

（3）对任意的随机向量X=（X「X2,…,来说，其协方差矩阵E是对称矩阵，并且总是半正定的。

（）

（4）对标准化的随机向量来说，它的协方差矩阵与原来变量的相关系数阵相同。

（）

（5）若X=（,Xl,X„---,Xp）T~2V//z,E）,乂，S分别为样木均值和样木协差阵，则

—1

X,—S分别为哗的无偏估计。

（）n

二•计算题

16-4

2,试求相关系

假设随机向量X=（Xl,X2,X3y的协方差矩阵为-44

3-2

数矩阵R。

R=--

X=2“+x2,y2=xY-x2,试求y=（y,,y2）r的协方差矩阵。

60-3

-327

3.假设

0.5-10.5

-0.50-0.5

（4一2）

n2（

）

<0/

-22

-1

试求y=Ax的分布。

S=12

1-1

三.证明题

1.设X⑴,X⑵,…,x（,»是来自N的随机样本，乂为样本均值。

试证明：

——1

E（X）=“，D（X）=-So

2.设是来自Ng）的随机样本，亠S为样本协差阵。

试证明：

n—1

E（^—S）=E。

n—1

3.证明：

若卩维正态随机向量x=（xl,x2,---,xpy的协差阵为对角矩阵，则x的各分量是相互独立的随机变量。

第四章判别分析

一•判断题

1.从某种意义上讲，距离判别是Bayes判别的一种特例。

（）

2.距离判别的思想是分别计算样本到各个总体的欧几里得距离，根据距离的大小判别样本属于哪个总体。

（）

3.量纲的变化对欧几里得距离的计算结果有影响，而马氏距离则克服了这种影响。

欧氏距离是马氏距离的一种特例。

（）

4.贝叶斯判别法是一种考虑了总体出现的先验概率和误判损失的判别方法。

（）

5.在贝叶斯判别法中，R=（&尺,…，RQ是一个划分，仏（x）是将样品误判给总体G：

的加

权平均损失，则R,={x\h,（x）=min/z7=1,2,---,k.（）

6.费希尔判别法是借助方差分析的思想构造线性判别函数，使得总体之间区别最大，而使每

个个体内部的离差最小。

（）

二•计算题

设有两个正态总体GpG2,已知:

（1）建立距离判别法的判别准则;

（2）判断：

样品：

，应归属于哪-类

（答案:

+51）,

）

D（x,G]）=—（4旺2+3x22-4兀]兀2+4旺一22x28

1°

D（x,G2）=—（xl+4x2~+2兀*2-10兀1-28*2

2.设G1,G2为两个二元总体，从中分别抽取容量为3的样木如下:

（1）求两样本的样本均值元⑴,元⑵及协方差矩阵S],S?

；

―T一T（23）（21）

x（i）=（3,6），兀⑵=（5,8）S]=q,S2=

（36丿（12丿

（2）假定两总体协方差矩阵相等，记为用S”S2联合估计：

S；

<11、

厂2-P

2=2

Q=-

<12丿

jTb

（3）建立距离判别法则；

兀2）=一2（旺+3兀2一25）,W（旺，兀2）<°,兀wG];,勺）〉°,兀wG?

（4）假设有一新样品x0=（xl,x2）r=（2,7）r,进行距离判别。

xeG2

3.已知两总体的概率密度分别为£（劝和/2（x）,且总体的先验分布为Pl=0.2,血=0.8,误判损失为c（2|l）=50,c（l|2）=100-

（1）建立Bayes判别准则；

（2）假设有一新样品％满足齐（％）=6・3和Mo）=O・5,判定兀°的归属问题。

4.假设两总体G1,G2的概率密度分别为/!

（%）=l-|x|,|x|

f2（x）=l-|x-0.5|,—0.5

（1）做出_/i（x）和©（x）的图像。

若假定先验概率Pl=p2，c（2|l）=c（l|2）,求Bayes判别区间的临界点；（0.25）

（2）若P]=0.2,/?

2=0.8，c（2|l）=c（l|2）,求Bayes判别区间的临界点；（-0.33）

5.假定有Gy,G2,G3三个组，已知P1=0.05,p2=0.65,p3=0.30,yi（xo）=O.lO和/2（x0）=0.63,/3（x0）=2.4o

（1）若不计误判损失，判定X。

属于哪个组；（G3）（后验概率分别为0.004,0.361,0.635）

（2）假定误判代价矩阵为

误判为

真实组G]

c（ll）=0

c（21）=10

c（31）=200

c（12）=20

c（22）=0

c（32）=100

G3c（1|3）=60c（2|3）=50c（3|3）=0

判定属于哪个组。

（误判的平均损失为51.39,36.05,41.95GJ

6.已知两总体的概率密度分别为£（x）和/2（x）,且总体的先验分布为pi=0.6,P2=0.4,误判损失为c（2|l）=4,c（l|2）=12o

（.1）建立Bayes判别准则；

（2）假设有一新样品X。

满足=0.36f2（x0）=0.24,判定的归属问题。

（G2）

7.假设先验概率，误判代价及概率密度值已列于下表。

试用贝叶斯判别法将样品分到组

gpg2,g3中的一个。

若不考虑误判代价，

则判别结果又将如何？

判别为

真实组

c（ll）=0

c（21）=20

c（31）=80

c（12）=400

c（22）=0

c（32）=200

c（13）=100

c（23）=50

c（33）=0

先验概率

p1=0.55

p2=0.15

p3=0.3

概率密度

/1（XO）=0.46

f2（x0）=1.5

Mo）=0.70

&金融分析员需要有两项重要指标来衡量，设总体G1为“金融分析员满足要求”；总体G2为“金融分析员不满足要求”（两个总体均服从正态分布，协差阵相等），今测得两个总体的若干数据，并由这些数据得到

，=

，乞=

（1）假设对某一金融分析员进行测量得到两个指标为*=（5,4）丁，判别这一分析员是否能满足这项工作。

（满足）

（2）当两组先验概率分别为弘=0.269,么=0.731,损失相同。

问该金融分析员满足要求吗？

为什么？

（不满足）

第五章聚类分析

一•判断题

1.快速（动态）聚类分析中，分类的个数是确定的，不可改变。

（）

2.K均值聚类分析中，样品一旦划入某一类就不可改变。

（）

3.判别分析，聚类分析和主成分分析都不要求数据来自正态总体。

（）

4.系统聚类可以对不同的类数产生一系列的聚类结果。

（）

5.K均值聚类和系统聚类一样，可以用不同的方法定义点点间的距离。

（）

6.K均值聚类和系统聚类一样，都是以距离的远近亲疏为标准进彳丁聚类的。

（）二.计算题

1.下面是5个样品两两间的距离矩阵

690

17100

63580

试用最长距离法作系统聚类，并画出谱系聚类图。

2.假设有6个样木，每个样木只测量一个指标，数据如表。

样本点间使用绝对值距离，类间使用最长距离，利用系统聚类法对这6个样本进行分类。

要求：

（1）写出距离矩阵及类的合并过程；

（2）画出聚类的谱系图；

（3）写出样/

卜分成两类时的结果。

样本编号

指标1

-4

-2

3.假定我们对A,B,C二个样品分别测量两个变量X,和X?

得到结果如表:

用快速聚类法将以上样品聚成两类。

样品

变量

-1

4.检验某产品的重量，抽了6个样品，每个样品只测了一个指标，分别为1,2,3,6,9,

11,试用最短距离法，重心法进行聚类分析。

对这4个样品进行聚类，并画出谱系图。

6.有8个样本，每个样本两个指标，数据如表。

样本点间使用欧氏距离，类间使用最短距离法，利用系统聚类法对这8个样本进行分类。

样本编号

指标1

-4

-2

-3

-1

指标2

-3

7.检验某产品的重量，抽了5个样品，每个样品只测了一个指标，分别为1,2,6,11,试用快速聚类法将样品分为两类。

三•简答题

1.判别分析与聚类分析有何区别？

判别分析是对于n个给定的样本，已知每个样本属于k个类别中的某一类，利用这些数据，找到一种判别方法，使得这种判别方法具有某种最优性质，能把属于不同种类的样本点尽可能的区别开来，并对测得同样指标数据的新样本，能够判别这个样本归属于哪一类。

聚类分析是在样品和类之间定义一种距离，按照距离的大小对样品进行聚类，距离相近的样品先聚成类，距离相远的后聚成类，过程一直进行下去，每个样品总能聚到合适的类中。

聚类分析没有判别函数，对新的样品无法判别它应该归属哪一类，必须重新进行聚类过程，才能判别它属于哪类。

系统聚类分析能够得到样品从最小的分类（每个样品自成一类）到最大的分类的情况，而判别分析没有这种功能，但判别分析的距离判别法与聚类分析非常相似，也是根据距离的远近判别样本的归属问题。

2.K均值法与系统聚类法的异同

（1）K均值法事先必须确定分类的个数，分类的个数确定，而系统聚类分析系统聚类分析能够得到样品从最小的分类（每个样品自成一类）到最大的分类的情况，可以根据需要将样品分为几类。

（2）K均值法可以随意将样品分为K类，根据样品到类中心的距离远近重新进行分类,而系统聚类中样品一旦划入某一类就不能更改。

（3）K均值法样品与不同类间的距离采用点到类中心的平方欧氏距离，而系统聚类中点间距离有很多种定义方法。

3.简述系统聚类法的思想。

4.简述快速聚类法的思想。

第六章主成分分析

一•判断题

1.主成分分析数学模型中的正交变换，在几何上就是做一个坐标旋转。

（）

2.假设笔，兀,...,乂”为某实际问题所涉及的卩个变量，Yl,Y2,...,Yp是其卩个主成分，判断下列说法是否正确：

（1）山原始变量Xj,X2,…,X”的协方差矩阵和相关矩阵出发，求得的主成分是一致的。

（）

（2）对变量做主成分分析之前，必须对原始数据进行标准化。

（）

（3）由标准化数据的协方差矩阵出发求得的主成分与由原始数据的相关系数矩阵出发求得的主成分一致。

（）

（4）cov（y,.,y;）-o,z*jo（）

（5）由于乙,匕，…,Y”包含原始变量的信息量递减，因而实际应用中选取前几个主成分代替

原来的原始变量。

（）

（6）当各个变量取值范围相差不大或者是度量单位相同的指标时，一般选择直接从协方差矩阵求解。

（）

（7）工畑（YJ=》VMX,）。

（）

i=1z=1

（8）假设Xl,X2,...,Xp的协方差矩阵为E,&A，…，九为E的非零特征根，

=为对应的单位化的特征向量，则第2•个主成分为Y严打=

（）

（9）乙是Xj,X2，...,X”的线性组合。

（）

（10）D（y.）=^,1=1,2,...,po（）

（11）主成分的协方差矩阵是对角阵。

（）

（12）方差贡献率表明了主成分综合原始变量的能力。

（）

3.主成分分析中的信息，是用变量期望的大小来表示的。

（）

二.计算题

t「521

1.假设总体X=（Xl,X.）T的协方差矩阵为22，求X的主成分乙，丫2,并计算第一

主成分乙的累计贡献率。

1PP

2.假设总体X=（Xl,X2,X3Y的相关矩阵为7?

=p\p,（―1<°<1）求X的标准

PP1_

化变量的主成分乙,乙，5，并计算各主成分的贡献率和累计贡献率。

入=1+（p—1）/7,2,=希=1一Q

111._.1-1n.11

3.假设总体X=（X15X2,X3）r的协方差矩阵为04

-20

丫1，丫2，丫3,并计算各主成分的贡献率和累计贡献率，确定应取几个主成分。

4.设X=（X|,X2,…,X”）「的协方差矩阵为

，其中an>cr22>...>cr”，试求X的主成分及主成分具有

的特征值。

（x=兀,方差为a,）三•简答题

1.试述主成分分析的基本思想及求解步骤。

2.简述主成分分析中累积贡献率的具体意义。

第七章因子分析

一•判断题

1.因子载荷矩阵经过旋转后，每个公因子对原始变量的贡献度gj不变。

（）

2.因子分析模型中公共因子耳是互不相关、不可测的变量，并且V"（耳）=1。

（）

3.因子分析一般从变量的相关系数阵出发求因子模型。

（）

4.因子载荷矩阵经过旋转后，变量X,的共同度％$不变。

（）

5.因子分析模型中特殊因子与公共因子是不相关的。

（）

6.因子分析与主成分分析都是一种降维，简化数据的方法，都是通过把原变量转化为新变量的线性组合达到降维的目的。

（）

7.主成分分析中，主成分是不唯一的，但在因子分析中，因子模型是唯一的。

（）

二.计算题

‘10.630.45、

1.设标准化变量XPX2,X3的协差阵（即相关阵）为R=0.6310.35

、0.450.351丿

R的特征值和相应的单位正交化的特征向量分别为：

入=1.96,入=0.6&珞=0.36

=（0.63,0.59,0.51）,仇=（-0.22,0.49,0.84）,Z3=（0.75,-0.64,-0.18）,

要求：

1）计算因子载荷矩阵A,并建立因子模型；

2）计算变量X3的共同度居2和公因子竹的方差贡献g2?

并说明其各自的统计意义。

2.为研究某一片树叶的叶片形态，选取50片叶测量其长度xl（mm）和宽度x2（mm）,按样本数

「9048]

据求得其平均值和协差阵为%,=134,x2=92,S=45，求相关系数矩阵虑，并由虑

出发进行因了分析。

三•简答题

1.简述因了模型X=AY+s中载荷矩阵A的统计意义。

2.因子分析与主成分分析的区别与联系

（1）因子分析从变量的相关性出发，根据相关性的大小将变量进行分组，同组变量的相关性较强，不同组变量的相关性较弱，每组代表一个结构，这个结构用一个公因子表示，将变量表示成公因子的线性组合和特殊因子的和。

主成分分析是从空间生成的角度寻找能解释诸多变量变异绝大部分的几组彼此不相关的新变量。

（2）因子分析是把变量表示成公因子的线性组合和特殊因子的和，主成分分析是把主成分表示成各变量的线性组合。

（3）抽取因子的方法不仅有主成分法，还有主轴因子法，极大似然估计法等，主成分分析只有主成分法抽取主成分。

（4）主成分分析中当给定的协差阵或相关系数阵的特征值唯一时，主成分一般是固定的，而因子分析中的因子不是固定的，可以旋转得到不同的因子。

四.下表是以学生六门考试成绩为变量，从相关系数阵出发，以主成分法抽取因子，进行因了分析的部分结果，根据表格回答下列问题：

表1TotalVarianceExplained

Component

InitialEigenvalues

Total

%ofVariance

Cumulative%

3.735

62.254

1.133

18.887

81.142

.457

7.619

88.761

.323

5.376

94.137

.199

3.320

97.457

.153

2.543

100.000

（1）写出变量XPX2的相关系数阵R的特征根及xPx2,---,x6的方差和；

（2）假设用乙表示主成分，写出前二个主成分的表达式及乙的贡献率和前两个主成分的

累计贡献率并说明累计贡献率的统计意义；

（3）写出旋转后的因子载荷矩阵4及因子模型；

（4）求变量math的共同度％$及因子九的方差贡献g2?

并解释衬，g2?

的统计意义;

（5）对因子许，竹进行合理的命名和解释。

第八章相应分析

一•判断题

1.相应分析中，彳亍惯量与列惯量相同。

（）

2.对变量进行相应分析时，应首先检验变量之间的独立性，只有当变量不独立时，进行相应分析才有意义。

（）

3.相应分析实际是对两组高维空间的点的二维投影进行分析，并且相应分析主要是建立在图形分析的基础上，因此，相应分析的结果带有一定的主观性。

（）

二•计算题

1.假定有两个因素A,B,每个因素各有两个水平，随机考察100个样品，得到一个二维的列

联表如下，求:

（1）频率矩阵尸；

（2）因素4的第一个水平的分布轮廓；

（3）因素4两个水平之间的力$距离；

（4）检验因素4,B是否独立。

（tz=0.05,z0052（l）=3.841）

因素

因素B

第九章典型相关分

一•判断题

1.典型相关分析是研究多组多元统计方法。

（）

析

变量之间相关关系的一种

2.典型相关分析是识别并量化两组变量之间的关系，将两组变量的相关关系的研究转化为一

组变量的线性组合与另一组变量的线性组合之间的相关关系的研究。

（）

3.若U=a'X,V=b'Y是两组变量X,Y的第一对典型相关变量，则〃,V是X,Y的所有

线性组合对中相关系数最大的一对。

（）

4.进行典型相关分析时，若变量的量纲不同时，需要对变量进行标准化或从相关阵出发求典型相关变量；而若变量的单位相同时，则不需要对数据进行标准化，直接分析即可。

（）

5.若Uk,Vk,k=1,2，…丿是变量X,Y的典型相关变量，贝U

D（UJ=l,D（yj=l,k=l,2,---,r,并且Cov（U,,[/,）=Cov（V,,VJ）=（）

6.若Uk,Vk,k=l,2,---,r是变量X,Y的典型相关变量，Sn,S22分别是变量X,Y的方差阵，纭2是变量X』的协方差阵，2;2,z=l,2,---,r是矩阵纺厂％%「吃21的特征根，则

（1）Cov（S，匕）=2,工Q,i=j,i=1,2,…,r.Cov（S，匕）=0,z工j^j>r。

其中r为矩阵纭厂％%"%的秩。

（）

（2）若V>2/则第一典型相关系数为入S（）

（3）若2/>2/>--->2r2,am,bm分别为矩阵Ej%%「吃21，£22哉2»「吃12相

应于入2的特征向量，则am，Xm,bm，X⑵即为第一对典型相关变量。

（）

7.典型相关分析中，分别求出两组变量的第一主成分，两个第一主成分即构成第一对典型相关变量。

（）

&利用样本对两组变量X⑴,X⑵进行典型相关分析时，即使X

（1）,X⑵互不相关，也有可能得到的典型相关变量的协差阵不为零，因而利用样本数据进行典型相关分析时要对原始变量的协差阵是否为零进行检验。

（）

9.典型载荷分析是了解每组变量提取的典型变量解释的该组样本总方差的比例，从而定量的测度典型变量所包含的原始信息量的大小；典型冗余分析是指原始变量与典型变量之间的相关性分析。

（）

10.对变量进行相应分析时，应首先检验变量之间的独立性，只有当变量不独立时，进行相应分析才有意义。

（）

以下是对一对二维变量的典型相关分析的结果，请根据结果回答下列问题。

表1CanonicalCorrelations

.788

.054

表2Testthatremainingcorrelationsarezero

Wilk'sChi-SQ

DFSig.

.37820.930

4.000.000

.997.062

1.000.803

表3RawCanonicalCoefficientsforSet-1

表4RawCanonicalCoefficientsforSet-2

x1-.057-.140

y1-.051-.174

x2-.071.187

y2-.080.262

表5CanonicalLoadingsforSet-1

表6ProportionofVarianceofSet-1

ExplainedbyItsOwnCan.Var.

PropVar

x1-.935

-.354

CV1-1.867

x2-.927

.375

CV1-2.133

（1）写出两对典型相关变量的相关系数；

（2）应该选几对典型相关变量，为什么？

并写出典型相关变量；

（3）xl与其典型相关变量的相关系数是多少？

（4）第一组变量被自身的典型变量解释的方差比例是多少？

三•简答题

1•针对典型相关分析而言，简述典型变量与典型相关系数的概念。

2.简述典型相关分析中典型载荷分析及典型兀余分析的内容与作用。

第十章多维标度法

一•判断题

1.古典多维标度法中，若距离矩阵D为欧几里得矩阵，则D的构图唯一。

（）

2.所有的距离矩阵都是欧几里得矩阵。

（）

3.多维标度分析中，若内积距离阵B的特征根全部大于零，则距离阵D为欧几里得矩阵。

（）二•计算题

01V32V3

01V32

1.假设距离矩阵》=

0173

三.简答题

1•简述古典多维标度分析的思想。

2.论述古典多维标度法的求解步骤。

展开阅读全文