实用多元统计分析相关习题学习资料Word格式文档下载.docx
《实用多元统计分析相关习题学习资料Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《实用多元统计分析相关习题学习资料Word格式文档下载.docx(12页珍藏版)》请在冰豆网上搜索。
二、简答题
1、简述复相关系数与偏相关系数。
答:
复相关系数:
又叫多重相关系数。
复相关是指因变量与多个自变量之间的相关关系。
例如,某种商品的需求量与其价格水平、职工收入水平等现象之间呈现复相关关系。
偏相关系数:
又叫部分相关系数。
部分相关系数反映校正其它变量后某一变量与另一变量的相关关系。
偏相关系数是指多元回归分析中,当其他变量固定后,给定的两个变量之间的的相关系数。
偏相关系数的假设检验等同于偏回归系数的t检验。
复相关系数的假设检验等同于回归方程的方差分析。
2、简述逐步回归分析方法的具体实施步骤。
逐步回归过程如下:
1)自变量的剔除;
2)重新进行少一个自变量的多元线性回归分析;
3)重新进行多一个自变量的多元线性回归分析;
4)重新进行上述步骤,直至无法再删除和再引入自变量为止。
3、提取样本主成分的原则。
主成分个数提取原则为主成分对应的特征值大于1的前m个主成分。
特征值在某
种程度上可以被看成是表示主成分影响力度大小的指标,如果特征值小于1,说明该主成分的解释力度还不如直接引入一个原变量的平均解释力度大,因此,一般可以用特
征值大于1作为纳入标准。
4、简述系统聚类法的基本思想及主要步骤。
系统聚类的基本思想是:
距离相近的样品(或变量)先聚成类,距离相远的后聚
成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。
系统聚类过程是:
假设总共有n个样品(或变量),第一步将每个样品(或变量)独
自聚成一类,共有n类;
第二步根据所确定的样品(或变量)“距离”公式,把距离较近的两个样品(或变量)聚合为一类,其它的样品(或变量)仍各自聚为一类,共聚成n1类;
第三步将“距离”最近的两个类进一步聚成一类,共聚成n2类;
……,以上步骤一直进行下去,最后将所有的样品(或变量)全聚成一类,也简称聚集法。
还有与以上方法相反的称分解法。
5、简述快速聚类(k—均值聚类)的基本思想及主要步骤。
基本思想:
1.一个样品分配给最近中心(均值)的类中,将所有样品分成k个初始
类。
2.通过欧式距离将每个样品划入离中心最近的类中,并对得到样品或失去样品的类重新计算中心坐标。
3.重复步骤2,直到所有样品都不能再分配时为止。
6判别分析的分类。
判别分析是多元统计分析中用于判别样本所属类型的一种统计分析方法。
判别分析按判别的组数来分,有两组判别分析和多组判别分析;
按区分不同总体所用的数学模型来分,有线性判别和非线性判别;
按判别对所处理的变量方法不同,有逐步判别、序贯判别等;
按判别准则不同,有距离判别、贝叶斯判别(Bayes)、费歇
(Fisher)判别等。
7、简述Fisher判别规则及具体判别步骤。
Fisher判别法的基本思想:
从多个总体(类)抽取一定的样本,借助方差分析的思
想,建立p个指标的线性判别函数,把待判样品代入线性判别函数,然后与临界值比
较,就可判样品属于哪个类。
*1*Fisher判别法的具体算法步骤:
由Fisher线性判别式SMlM2求解向量的步
骤:
1
①把来自两类-训练样本集X分成1和2两个子集X1和X2。
Mi
②由
Xk,I
nixkXi
1,2
,计算Mi。
XkMi
Xk
M
T
■—•i
③由
xkXi
计算各类的类内离散度矩阵Si,i=1,2。
④计算类内总离散度矩阵
S
S1S2。
i-■
5计算S的逆矩阵S。
*1*
6由SM1M2求解。
三、计算题
1.现收集了92组合金钢中的碳含量x及强度y,且求得:
X0.1255,y45.7989Lxx0.3019Lxy26.5126Lyy2941.03
(1)求y关于x的一元线性回归方程;
⑵求y与x的相关系数;
(3)列出对方程作显著性检验的方差分析表;
⑷在x=0.1时,求?
的点估计。
(1珠y装于莖的一^线性回归方程;
L265126--
網:
h=亠==87.8191:
口=屮―占工=45肿幼-S7S151仁记=U.7776
L0.3019”
_夕
A4h
v--34.7776+V8191h;
即’y-34.7776487.8191x
(2KRy与x的f目关系毎
初在xNl.1时,求y的虫估计。
由
(1)知:
尸=34.7776+57.S19Lz
得当xT」时*y=34.7776
+S7.8191x0.1=43,5596
2.某地区通过一个样本容量为722的调查数据得到劳动力受教育年数的一个回归方程为
eda10.360.094sibSj0.131medui0.210feduiR20.214
式中,edu为劳动力受教育年数,sibs为劳动力家庭中兄弟姐妹的个数,medu与fedu分别为母亲与父亲受到教育的年数。
问
(1)若medu与fedu保持不变,为了使预测的受教育水平减少一年,需要sibs增加多少?
(2)请对medu的系数给予适当的解释。
(3)如果两个劳动力都没有兄弟姐妹,但其中一个的父母受教育的年数均为12年,另一个的父母受教育的年数均为16年,则两人受教育的年数预期相差多少年
首先计算两人受萌的10.3M,131x12-0.210x12=14,451
10.364043lxl«
21M6=11816因出两人根敎育年®
的差别为1:
816-14452=1.364操作:
1岀种不同射的玉米避行产is批实鑑假韻实軀鸵紂翩目画
品种、\
4
5
A1
4?
.5
45
4殆
466
45.2
£
4S.5
44.5
肛9
47.1
A3
血
Ml
-5-
範1
45.S
A4
441
41.6
3S.S
43.2
42.5
i^HWPl品种的平均声蚩是酩显苦差卑
AM07A
平方和
df
均方
F
lira
组间
66.662
3
22.951
9.L7B
.001
蛆内
40.064
16
2.504
总教
108.946
19
筍冋闻<価拒细朝侵故环同品种的平妒毘有显著差异
2下面列竝不R1里下腰的长躲
ii说
10
15
20
30
殛y(泗
8.12
S.95
5.90
i(m
11.80
⑴在醐坐标系下倆点图,并蜩丫矣于X的做矣親否卿;
(幅馭旧対话框、就点,間单
分布M析'
回归、线性、绕计里中选择相应的)
(2)茨出Y关于X的一元线性回归方程;
根型
菲标准出京褻
标准窮数
Sig.
B
标准吟
试版
1(常量>
6.233
.053
117.624
.000
重星X
.田$
.003
1.000
66-745
a”因变皐;
鯛’Y=0.1£
jX-6J83;
(3>吋所求得审回归方程作显蓍性检验!
列出方羞分析表:
Anowtta
棍型
平珀
d.f
Wig.
回归
14加
14.665
4454,915
000*
□13
息计
U.679
&
一预测变虽:
〔常呈):
,重星}(*
X因喪量:
慣度丫
C4)求出丫与犹间的棺关緊输匚
砖注
重■Sit
蚩虽叢Peairson相矣摆
1.000F,
显着性(叹侧)
000
N
6
氏虞HFearson相矢性
1.000**
显著性(叹测)
hJ
**・在41水平(驳侧)上显善拒天•
3.下表给出一二元模型的回归结果
方差来源
平方和(SS)
自由度(d.f.)
来自回归(ESS)
65965
——
来自残差(RSS)
总离差(TSS)
66042
14
求:
(1)样本容量是多少?
RSS是多少?
ESS和RSS的自由度各是多少?
2
(2)R2和R?
(3)检验假设:
解释变量总体上对丫有无影响。
你用什么假设检验?
为什么?
解:
C1)样本容童为
n=14.+l=15
KSS=ISS-ESS=66O42-&
5965=77
ES5的自宙度知<
i£
"
RSS的自由度为:
df=n21-12
(2)R'
=ESSTSS=fi5965Sti042=0,9988
=1<
1-K2)(ii-1)(n-kJ>
l-0.0012*1412-O.W86
(3)应该采用方稈显著性检验'
即T检验,理由是只有这样才能剽断瓦1、屯一起是否
对T有影响o
4.在一项研究中,测量了376只鸡的骨骼,并利用相关系数矩阵进行主成分分析,见
F表:
Y1
Y2
Y3
Y4
Y5
Y6
头长x1
0.35
0.53
0.76
-0.05
-0.04
0.00
头宽x2
0.33
0.70
-0.64
肱骨x3
0.44
-0.19
0.19
0.59
尺骨x4
-0.25
-0.02
0.48
-0.15
-0.63
股骨x5
0.43
-0.28
-0.06
-0.51
-0.67
胫骨x6
-0.22
-0.48
-0.70
0.15
特征值
4.57
0.71
0.41
0.17
0.08
0.06
(1)计算前三个主成分各自的贡献率和累积贡献率。
⑵对于y4,y5,y6的方差很小这一点,你怎样对实际情况作出推断
解:
5.在一项对杨树的性状的研究中,测定了20株杨树树叶,每个叶片测定了四个变
量:
叶长(x1),2/3处宽(x2),1/3处宽(x3),1/2处宽(x4)。
这四个变量的相关系数矩阵的特征根和标准正交特征向量分别为:
2.920
U1
(0.1485,0.5735,0.5577,0.5814)
1.024
U2
(0.9544,0.0984,0.2695,0.0824)
0.049
U3
(0.2516,0.7733,0.5589,0.1624)
0.007
U4
(0.0612,0.2519,0.5513,0.7930)
写出四个主成分,计算它们的贡献率解:
各自的主成分为:
Z1=0.1485Xi-0.5735X2-0.5577X3-0.5814X4
Z2=0.9544X仁0.0984X2+0.2695X3+0.0824X4
Z3=0.2516Xi+0.7733X2-0.5589X3-0.1624X4
Z4=-0.0612Xi+0.2519X2+0.5513X3-0.7930X4
则各自的贡献率为:
W1=2.920/(2.920+1.024+0.049+0.007)=0.73
W2=1.024/(2.920+1.024+0.049+0.007)=0.256
W2=0.049/(2.920+1.024+0.049+0.007)=0.01225
W2=0.007/(2.920+1.024+0.049+0.007)=0.00175
6.对纽约股票市场上的五种股票的周回升率x1,x2,x3,x4,x5进行了主成分分析,其中
x1,x2,x3分别表示三个化学工业公司的股票回升率,x4,x5表示两个石油公司的股票回
升率,主成分分析是从相关系数矩阵出发进行的,前两个特征根和对应的标准正交特征向量为:
12.857U1(0.464,0.457,0.470,0.421,0.421)
20.809U2(0.240,0.509,0.260,0.526,0.582)
(1)计算这两个主成分的方差贡献率。
Z1=0.464Xi+0.457X2+0.470X3+0.421X4+0.421X5
Z2=0.240Xi+0.509X2+0.260X3-0.526X4-0.582X5
W仁2.587/(2.587+0.809)=0.762
W2=0.809/(2.587+0.809)=0.238
(2)能否对这两个主成分的意义作一个合理的解释,并给两个主成分命名。
解释:
由SPSS抽取的两个主成分,其特征值分别为2.857和0.809,。
根据主成分分析得知:
各自的贡献率为W仁76.2%,W2=23.8%。
由此可知,第一个主成分对变量(股票回升率)影响较大。
命名:
一、化学工业公司股票回升率
二、石油公司股票回升率
7、下面给出了八个样品的两个指标数据
\样指标\
7
8
X1
X2
13
12
9
11
使用按动态聚类法进行聚类,采用欧氏距离(取1、3、7号样本为聚点)
四、上机操作
会进行回归、聚类、因子、主成分、判别分析基本操作,上级题目随机抽取
★请指出下面SPSS软件操作分别代表多元统计分析中什么分析:
(1)Analysis—Regression^Linearregression回归分析
(2)Analysis—Classify—HierachicalCluster系统聚类分析
聚类分析
(3)Analysis—Classify—KmeanClusterK-均值聚类分析
(4)Analysis—DataReduction^Factor因子分析
(5)Analysis—DataReduction—Faactor主成分分析
(6)Analysis—Classify—Discriminant判别分析