实用多元统计分析相关习题学习资料.docx
《实用多元统计分析相关习题学习资料.docx》由会员分享,可在线阅读,更多相关《实用多元统计分析相关习题学习资料.docx(12页珍藏版)》请在冰豆网上搜索。
实用多元统计分析相关习题学习资料
实用多元统计分析相
关习题
练习题
一、填空题
1•人们通过各种实践,发现变量之间的相互关系可以分成(相关)和(不相关)两种
类型。
多元统计中常用的统计量有:
样本均值、样本方差、样本协方差和样本相关系数。
2•总离差平方和可以分解为(回归离差平方和)和(剩余离差平方和)两个部分,其中(回归离差平方和)在总离差平方和中所占比重越大,则线性回归效果越显著。
3•回归方程显著性检验时通常采用的统计量是(SR/p)/[Se/(n-p-1)]。
4•偏相关系数是指多元回归分析中,(当其他变量固定时,给定的两个变量之间的)
的相关系数。
5.Spss中回归方程的建模方法有(一元线性回归、多元线性回归、岭回归、多对多线性回归)等。
6•主成分分析是通过适当的变量替换,使新变量成为原变量的(线性组合),并寻求
(降维)的一种方法。
7•主成分分析的基本思想是(设法将原来众多具有一定相关性(比如P个指标),重
新组合成一组新的互相无关的综合指标来替代原来的指标)。
8•主成分表达式的系数向量是(相关系数矩阵)的特征向量。
9•样本主成分的总方差等于
(1)。
10•在经济指标综合评价中,应用主成分分析法,则评价函数中的权数为(方差贡献
度)。
主成分的协方差矩阵为(对称)矩阵。
主成分表达式的系数向量是(相关矩阵特征值)的特征向量。
11.SPSS中主成分分析采用(analyze—datareduction—facyor)命令过程。
12•因子分析是把每个原始变量分解为两部分因素,一部分是(公共因子),另一部
分为(特殊因子)。
13•变量共同度是指因子载荷矩阵中(第i行元素的平方和)。
14•公共因子方差与特殊因子方差之和为
(1)。
15•聚类分析是建立一种分类方法,它将一批样品或变量按照它们在性质上的(亲疏
程度)进行科学的分类。
16.Q型聚类法是按(样品)进行聚类,R型聚类法是按(变量)进行聚类。
17.Q型聚类统计量是(距离),而R型聚类统计量通常采用(相关系数)。
18.六种Q型聚类方法分别为(最长距离法)、(最短距离法)、(中间距离法)、(类平均法)、(重心法)、(离差平方和法)。
19.快速聚类在SPSS中由(k-均值聚类(analyze—classify—kmeanscluste))过程实现。
20.判别分析是要解决在研究对象已(已分成若干类)的情况下,确定新的观测数据属于已知类别中哪一类的多元统计方法。
21.用判别分析方法处理问题时,通常以(判别函数)作为衡量新样本点与各已知组别接近程度的指标。
22.进行判别分析时,通常指定一种判别规则,用来判定新样本的归属,常见的判别准则有(Fisher准则)、(贝叶斯准则)。
23.类内样本点接近,类间样本点疏远的性质,可以通过(类与类之间的距离)与(类内样本的距离)的大小差异表现出来,而两者的比值能把不同的类区别开来。
这
个比值越大,说明类与类间的差异越(类与类之间的距离越大),分类效果越
(好)
24.Fisher判别法就是要找一个由p个变量组成的(线性判别函数),使得各自组内点的(离差)尽可能接近,而不同组间点的尽可能疏远。
二、简答题
1、简述复相关系数与偏相关系数。
答:
复相关系数:
又叫多重相关系数。
复相关是指因变量与多个自变量之间的相关关系。
例如,某种商品的需求量与其价格水平、职工收入水平等现象之间呈现复相关关系。
偏相关系数:
又叫部分相关系数。
部分相关系数反映校正其它变量后某一变量与另一变量的相关关系。
偏相关系数是指多元回归分析中,当其他变量固定后,给定的两个变量之间的的相关系数。
偏相关系数的假设检验等同于偏回归系数的t检验。
复相关系数的假设检验等同于回归方程的方差分析。
2、简述逐步回归分析方法的具体实施步骤。
答:
逐步回归过程如下:
1)自变量的剔除;
2)重新进行少一个自变量的多元线性回归分析;
3)重新进行多一个自变量的多元线性回归分析;
4)重新进行上述步骤,直至无法再删除和再引入自变量为止。
3、提取样本主成分的原则。
答:
主成分个数提取原则为主成分对应的特征值大于1的前m个主成分。
特征值在某
种程度上可以被看成是表示主成分影响力度大小的指标,如果特征值小于1,说明该主成分的解释力度还不如直接引入一个原变量的平均解释力度大,因此,一般可以用特
征值大于1作为纳入标准。
4、简述系统聚类法的基本思想及主要步骤。
答:
系统聚类的基本思想是:
距离相近的样品(或变量)先聚成类,距离相远的后聚
成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。
系统聚类过程是:
假设总共有n个样品(或变量),第一步将每个样品(或变量)独
自聚成一类,共有n类;第二步根据所确定的样品(或变量)“距离”公式,把距离较近的两个样品(或变量)聚合为一类,其它的样品(或变量)仍各自聚为一类,共聚成n1类;第三步将“距离”最近的两个类进一步聚成一类,共聚成n2类;……,以上步骤一直进行下去,最后将所有的样品(或变量)全聚成一类,也简称聚集法。
还有与以上方法相反的称分解法。
5、简述快速聚类(k—均值聚类)的基本思想及主要步骤。
答:
基本思想:
1.一个样品分配给最近中心(均值)的类中,将所有样品分成k个初始
类。
2.通过欧式距离将每个样品划入离中心最近的类中,并对得到样品或失去样品的类重新计算中心坐标。
3.重复步骤2,直到所有样品都不能再分配时为止。
6判别分析的分类。
答:
判别分析是多元统计分析中用于判别样本所属类型的一种统计分析方法。
判别分析按判别的组数来分,有两组判别分析和多组判别分析;按区分不同总体所用的数学模型来分,有线性判别和非线性判别;按判别对所处理的变量方法不同,有逐步判别、序贯判别等;按判别准则不同,有距离判别、贝叶斯判别(Bayes)、费歇
(Fisher)判别等。
7、简述Fisher判别规则及具体判别步骤。
答:
Fisher判别法的基本思想:
从多个总体(类)抽取一定的样本,借助方差分析的思
想,建立p个指标的线性判别函数,把待判样品代入线性判别函数,然后与临界值比
较,就可判样品属于哪个类。
*1*Fisher判别法的具体算法步骤:
由Fisher线性判别式SMlM2求解向量的步
骤:
1
①把来自两类-训练样本集X分成1和2两个子集X1和X2。
Mi
②由
1
Xk,I
nixkXi
1,2
,计算Mi。
XkMi
Xk
M
T
■—•i
③由
xkXi
计算各类的类内离散度矩阵Si,i=1,2。
④计算类内总离散度矩阵
S
S1S2。
i-■
1
5计算S的逆矩阵S。
*1*
6由SM1M2求解。
三、计算题
1.现收集了92组合金钢中的碳含量x及强度y,且求得:
X0.1255,y45.7989Lxx0.3019Lxy26.5126Lyy2941.03
(1)求y关于x的一元线性回归方程;
⑵求y与x的相关系数;
(3)列出对方程作显著性检验的方差分析表;
⑷在x=0.1时,求?
的点估计。
(1珠y装于莖的一^线性回归方程;
L265126--
網:
h=亠==87.8191:
口=屮―占工=45肿幼-S7S151仁记=U.7776
L0.3019”
_夕
A4h
v--34.7776+V8191h;即’y-34.7776487.8191x
(2KRy与x的f目关系毎
初在xNl.1时,求y的虫估计。
由
(1)知:
尸=34.7776+57.S19Lz
得当xT」时*y=34.7776
+S7.8191x0.1=43,5596
2.某地区通过一个样本容量为722的调查数据得到劳动力受教育年数的一个回归方程为
eda10.360.094sibSj0.131medui0.210feduiR20.214
式中,edu为劳动力受教育年数,sibs为劳动力家庭中兄弟姐妹的个数,medu与fedu分别为母亲与父亲受到教育的年数。
问
(1)若medu与fedu保持不变,为了使预测的受教育水平减少一年,需要sibs增加多少?
(2)请对medu的系数给予适当的解释。
(3)如果两个劳动力都没有兄弟姐妹,但其中一个的父母受教育的年数均为12年,另一个的父母受教育的年数均为16年,则两人受教育的年数预期相差多少年
首先计算两人受萌的10.3M,131x12-0.210x12=14,451
10.364043lxl«21M6=11816因出两人根敎育年®的差别为1:
816-14452=1.364操作:
1岀种不同射的玉米避行产is批实鑑假韻实軀鸵紂翩目画
品种、\
1
1
4
5
A1
4?
.5
45
4殆
466
45.2
£
45
4S.5
44.5
肛9
47.1
A3
血
Ml
-5-
範1
45.S
A4
441
41.6
3S.S
43.2
42.5
i^HWPl品种的平均声蚩是酩显苦差卑
AM07A
平方和
df
均方
F
lira
组间
66.662
3
22.951
9.L7B
.001
蛆内
40.064
16
2.504
总教
108.946
19
筍冋闻<価拒细朝侵故环同品种的平妒毘有显著差异
2下面列竝不R1里下腰的长躲
ii说
5
10
15
20
30
殛y(泗
8.12
S.95
5.90
i(m
11.80
⑴在醐坐标系下倆点图,并蜩丫矣于X的做矣親否卿;(幅馭旧対话框、就点,間单
分布M析'回归、线性、绕计里中选择相应的)
(2)茨出Y关于X的一元线性回归方程;
根型
菲标准出京褻
标准窮数
1
Sig.
B
标准吟
试版
1(常量>
6.233
.053
117.624
.000
重星X
.田$
.003
1.000
66-745
.000
a”因变皐;
鯛’Y=0.1£jX-6J83;
(3>吋所求得审回归方程作显蓍性检验!
列出方羞分析表:
Anowtta
棍型
平珀
d.f
均方
F
Wig.
1
回归
14加
1
14.665
4454,915
000*
□13
4
.003
息计
U.679
5
&一预测变虽:
〔常呈):
,重星}(*
X因喪量:
慣度丫
C4)求出丫与犹间的棺关緊输匚
砖注
重■Sit
蚩虽叢Peairson相矣摆
1
1.000F,
显着性(叹侧)
000
N
5
6
氏虞HFearson相矢性
1.000**
1
显著性(叹测)
.000
hJ
5
5
**・在41水平(驳侧)上显善拒天•
3.下表给出一二元模型的回归结果
方差来源
平方和(SS)
自由度(d.f.)
来自回归(ESS)
65965
——
来自残差(RSS)
——
——
总离差(TSS)
66042
14
求:
(1)样本容量是多少?
RSS是多少?
ESS和RSS的自由度各是多少?
2
(2)R2和R?
(3)检验假设:
解释变量总体上对丫有无影响。
你用什么假设检验?
为什么?
解:
C1)样本容童为
n=14.+l=15
KSS=ISS-ESS=66O42-&5965=77
ES5的自宙度知
RSS的自由度为:
df=n21-12
(2)R'=ESSTSS=fi5965Sti042=0,9988
=1<1-K2)(ii-1)(n-kJ>l-0.0012*1412-O.W86
(3)应该采用方稈显著性检验'即T检验,理由是只有这样才能剽断瓦1、屯一起是否
对T有影响o
4.在一项研究中,测量了376只鸡的骨骼,并利用相关系数矩阵进行主成分分析,见
F表:
Y1
Y2
Y3
Y4
Y5
Y6
头长x1
0.35
0.53
0.76
-0.05
-0.04
0.00
头宽x2
0.33
0.70
-0.64
0.00
0.00
-0.04
肱骨x3
0.44
-0.19
-0.05
0.53
0.19
0.59
尺骨x4
0.44
-0.25
-0.02
0.48
-0.15
-0.63
股骨x5
0.43
-0.28
-0.06
-0.51
-0.67
0.48
胫骨x6
0.44
-0.22
-0.05
-0.48
-0.70
0.15
特征值
4.57
0.71
0.41
0.17
0.08
0.06
(1)计算前三个主成分各自的贡献率和累积贡献率。
⑵对于y4,y5,y6的方差很小这一点,你怎样对实际情况作出推断
解:
5.在一项对杨树的性状的研究中,测定了20株杨树树叶,每个叶片测定了四个变
量:
叶长(x1),2/3处宽(x2),1/3处宽(x3),1/2处宽(x4)。
这四个变量的相关系数矩阵的特征根和标准正交特征向量分别为:
1
2.920
U1
(0.1485,0.5735,0.5577,0.5814)
2
1.024
U2
(0.9544,0.0984,0.2695,0.0824)
3
0.049
U3
(0.2516,0.7733,0.5589,0.1624)
4
0.007
U4
(0.0612,0.2519,0.5513,0.7930)
写出四个主成分,计算它们的贡献率解:
各自的主成分为:
Z1=0.1485Xi-0.5735X2-0.5577X3-0.5814X4
Z2=0.9544X仁0.0984X2+0.2695X3+0.0824X4
Z3=0.2516Xi+0.7733X2-0.5589X3-0.1624X4
Z4=-0.0612Xi+0.2519X2+0.5513X3-0.7930X4
则各自的贡献率为:
W1=2.920/(2.920+1.024+0.049+0.007)=0.73
W2=1.024/(2.920+1.024+0.049+0.007)=0.256
W2=0.049/(2.920+1.024+0.049+0.007)=0.01225
W2=0.007/(2.920+1.024+0.049+0.007)=0.00175
6.对纽约股票市场上的五种股票的周回升率x1,x2,x3,x4,x5进行了主成分分析,其中
x1,x2,x3分别表示三个化学工业公司的股票回升率,x4,x5表示两个石油公司的股票回
升率,主成分分析是从相关系数矩阵出发进行的,前两个特征根和对应的标准正交特征向量为:
12.857U1(0.464,0.457,0.470,0.421,0.421)
20.809U2(0.240,0.509,0.260,0.526,0.582)
(1)计算这两个主成分的方差贡献率。
解:
各自的主成分为:
Z1=0.464Xi+0.457X2+0.470X3+0.421X4+0.421X5
Z2=0.240Xi+0.509X2+0.260X3-0.526X4-0.582X5
则各自的贡献率为:
W仁2.587/(2.587+0.809)=0.762
W2=0.809/(2.587+0.809)=0.238
(2)能否对这两个主成分的意义作一个合理的解释,并给两个主成分命名。
答:
解释:
由SPSS抽取的两个主成分,其特征值分别为2.857和0.809,。
根据主成分分析得知:
各自的贡献率为W仁76.2%,W2=23.8%。
由此可知,第一个主成分对变量(股票回升率)影响较大。
命名:
一、化学工业公司股票回升率
二、石油公司股票回升率
7、下面给出了八个样品的两个指标数据
\样指标\
1
2
3
4
5
6
7
8
X1
2
4
0
1
3
5
2
3
X2
4
7
13
12
9
11
14
16
使用按动态聚类法进行聚类,采用欧氏距离(取1、3、7号样本为聚点)
解:
四、上机操作
会进行回归、聚类、因子、主成分、判别分析基本操作,上级题目随机抽取
★请指出下面SPSS软件操作分别代表多元统计分析中什么分析:
(1)Analysis—Regression^Linearregression回归分析
(2)Analysis—Classify—HierachicalCluster系统聚类分析
聚类分析
(3)Analysis—Classify—KmeanClusterK-均值聚类分析
(4)Analysis—DataReduction^Factor因子分析
(5)Analysis—DataReduction—Faactor主成分分析
(6)Analysis—Classify—Discriminant判别分析