应用多元分析实验报告_精品文档.doc
《应用多元分析实验报告_精品文档.doc》由会员分享,可在线阅读,更多相关《应用多元分析实验报告_精品文档.doc(8页珍藏版)》请在冰豆网上搜索。
应用多元分析方法应用
应用多元分析就是要会利用多元统计的方法对数据进行分析,下面分别用方差分析,线性回归分析,主成分分析,因子分析和聚类分析来来分析不同的数据。
一方差分析
方差分析是一种假设检验,它是对全部样本观测值的变动进行分解,将某种控制因素下各组样本观测值之间可能存在的由该因素导致的系统性误差与随即误差加以比较,据以推断各组样本之间是否存在显著差异。
若存在显著差异,则说明该因素对各总体的影响是显著的。
根据观测变量的个数,可将方差分析分为单变量方差分析和多变量方差分析;根据因素个数,可分为单因素方差分析和多因素方差分析。
在SPSS中,有One-wayANOVA(单变量-单因素方差分析)、GLMUnivariate(单变量多因素方差分析);GLMMultivariate (多变量多因素方差分析),不同的方差分析方法适用于不同的实际情况。
现在举一个多因素方差分析的例子:
为了考察材质和淬火温度对某种钢材淬火后的弯曲变形的影响,对4种不同材质分别用5种不同的淬火温度进行试验,测得其淬火后试件的延伸率数据如下:
符号约定:
在材质中,1-甲2-乙3-丙4-丁
在温度中,1-8002-8203-8404-8605-880
1.写出这个试验的统计模型:
选用可加主效应模型,设为第种材质第种温度下试验的观测值(钢材延伸率),μ为一般平均,为第种材质的效应,为第种温度的效应,为第种材质第种温度试验的随机误差。
其中。
统计模型如下:
2.不同材质对延伸率有显著影响吗?
不同温度对延伸率有显著影响吗?
()
用SPSS做多因素方差分析的方差分析表如表2:
表2
TestsofBetween-SubjectsEffects
DependentVariable:
延伸率
Source
TypeIIISumofSquares
df
MeanSquare
F
Sig.
CorrectedModel
36.717a
7
5.245
38.498
.000
724.808
1
724.808
5319.692
.000
材质
.320
3
.107
.783
.526
温度
36.397
4
9.099
66.783
.000
Error
1.635
12
.136
Total
763.160
20
CorrectedTotal
38.352
19
a.RSquared=.957(AdjustedRSquared=.933)
在上表2中:
材质对应的P=0.526>0.05,故接受原假设,认为不同材质对延伸率没有显著影响。
温度对应的P=0.000<0.05,故拒绝原假设,认为不同温度对延伸率有显著影响。
二回归分析
相关关系不等于因果关系,要明确因果关系必须借助于回归分析。
回归分析是研究两个变量或多个变量之间因果关系的统计方法。
其基本思想是,在相关分析的基础上,对具有相关关系的两个或多个变量之间数量变化的一般关系进行测定,确立一个合适的数据模型,以便从一个已知量推断另一个未知量。
回归分析的主要任务就是根据样本数据估计参数,建立回归模型,对参数和模型进行检验和判断,并进行预测等。
下面进行一元线性回归分析:
利用统计出的全国“年人均可支配收入”与“年人均消费性支出”数据,确定他们之间的关系。
(1)绘制散点图
首先确定两者之间的大致关系,于是画出散点图:
从图上可以看出可支配收入与消费性支出存在线性相关关系。
(2)简单相关分析
由上图可知可支配收入与消费性支出存在显著的相关关系。
在此前提下进一步进行回归分析,建立一元线性回归方程。
(3)线性回归分析
从上图分析的回归线性方程为:
y=1.315x-185.021
三聚类分析
聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。
聚类分析的目标就是在相似的基础上收集数据来分类。
聚类源于很多领域,包括数学,统计学,生物学和经济学。
在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。
下面举出一个例子:
数据给出了1999年全国31个省,直辖市和自治区的城镇居民家庭平均每人全年消费性支出的八个主要变量数据,这八个变量是
x1:
食品x2:
衣着x3:
家庭设备用品及服务x4:
医疗保健x5:
交通和通讯x6:
娱乐教育文化服务
x7:
居住x8:
杂项商品和服务。
用Ward方法对各地区做聚类分析。
案例处理汇总a,b
案例
有效
缺失
总计
N
百分比
N
百分比
N
百分比
31
100.0
0
.0
31
100.0
a.平方Euclidean距离已使用
b.Ward联结
上表给出了样本量,有效值,缺失值等相关数据。
聚类表
阶
群集组合
系数
首次出现阶群集
下一阶
群集1
群集2
群集1
群集2
1
4
28
9207.006
0
0
8
2
8
30
19355.562
0
0
6
3
3
31
30436.462
0
0
10
4
6
29
44531.726
0
0
7
5
18
23
59343.916
0
0
12
6
5
8
75652.615
0
2
8
7
6
7
96349.911
4
0
19
8
4
5
121483.939
1
6
20
9
10
25
150445.144
0
0
14
10
3
27
179580.106
3
0
15
11
14
16
209078.102
0
0
19
12
17
18
240129.879
0
5
16
13
15
24
274249.450
0
0
15
14
10
22
316063.546
9
0
24
15
3
15
363327.088
10
13
23
16
12
17
413053.222
0
12
21
17
2
11
466693.274
0
0
24
18
20
21
532727.752
0
0
21
19
6
14
630543.228
7
11
20
20
4
6
754299.359
8
19
23
21
12
20
887368.393
16
18
28
22
13
26
1035650.725
0
0
27
23
3
4
1233686.438
15
20
28
24
2
10
1480362.754
17
14
27
25
1
9
1841100.438
0
0
26
26
1
19
2249972.566
25
0
29
27
2
13
2668132.246
24
22
29
28
3
12
3558617.947
23
21
30
29
1
2
5762426.002
26
27
30
30
1
3
14613999.585
29
28
0
上表是聚类表给出了把样本聚为一类的过程。
群集成员
案例
5群集
4群集
3群集
1:
北京
1
1
1
2:
天津
2
2
2
3:
河北
3
3
3
4:
山西
3
3
3
5:
内蒙古
3
3
3
6:
辽宁
3
3
3
7:
吉林
3
3
3
8:
黑龙江
3
3
3
9:
上海
1
1
1
10:
江苏
2
2
2
11:
浙江
2
2
2
12:
安徽
4
4
3
13:
福建
5
2
2
14:
江西
3
3
3
15:
山东
3
3
3
16:
河南
3
3
3
17:
湖北
4
4
3
18:
湖南
4
4
3
19:
广东
1
1
1
20:
广西
4
4
3
21:
海南
4
4
3
22:
重庆
2
2
2
23:
四川
4
4
3
24:
贵州
3
3
3
25:
云南
2
2
2
26:
西藏
5
2
2
27:
陕西
3
3
3
28:
甘肃
3
3
3
29:
青海
3
3
3
30:
宁夏
3
3
3
31:
新疆
3
3
3
上表给出了聚类结果,可以看出聚为3类,4类,5类。
四因子分析
(一)利用SPSS进行因子分析
将原始数据输入SPSS数据编辑窗口,将4个变量分别命名为X1~X4。
在SPSS窗口中选择Analyze→DataReduction→Factor菜单项,调出因子分析主对话框,并将变量X1~X4移入Variables框中,其他均保持系统默认选项,单击OK按钮,执行因子分析过程,得到如表1所示的特征根和方差贡献表以及表2所示的因子载荷阵。
表1中Total列为各因子对应的特征根,在本例中采用的是默认的提取的特征根大于1的因子,因此共提取两个公因子;%ofVariance列为各因子的方差贡献率;Cumulative%列为累积方差贡献率,由表中可以看出,前两个因子的方差贡献率达到91.289%,即这两个因子已经可以解释原始变量91.189%的信息
。
表1特征根与方差贡献率
表2因子载荷阵
五主成分分析
一)利用因子分析结果进行主成分分析
1.将表1中的因子载荷阵中的数据输入SPSS数据编辑窗口,两个变量分别命名为a1和a2。
2.计算特征向量矩阵为了计算第一个特征向量,我们利用因子载荷与特征向量元素间的关系,点击菜单项中的Transform→Compute,调出Computevariable对话框,如图4所示,在对话框中输入等式:
“z1=a1/SQRT(3.541)”。
点击OK按钮,即可在数据编辑窗口中得到以t1为变量名的第一特征向量。
再次调出Computevariable对话框,在对话框中输入等式:
“z2=a2/SQRT(0.313)”,运行后得到以t2为变量名第二特征向量。
得到了如表3所示的特征向量矩阵。
表3特征向量矩阵
0.49687671785646326
-0.5433772041064034
0.5144135431925737
0.2109161515939329
0.48093414936909007
0.7256945554842099
0.5069736778984661
-0.3682095527826286
故得到的主成分的表达式为
Y2=-0.54x1+0.21x2+0.73x3-0.37x4
就可以计算得到两个主成分Y1和Y2,然后再次调用Compute命令,调出Computevariable对话框,输入Y=0.88527*Y1+0.0785*Y2,得到综合得分Y(如表4)。
表4各个变量主成分得分