SPSS相关分析案例讲解文档格式.docx
《SPSS相关分析案例讲解文档格式.docx》由会员分享,可在线阅读,更多相关《SPSS相关分析案例讲解文档格式.docx(17页珍藏版)》请在冰豆网上搜索。
定距变量之间的相关关系测量常用Pearson系数法。
计算公式如下:
(1)
(1)式是样本的相关系数。
计算皮尔逊相关系数的数据要求:
变量都是服从正态分布,相互独立的连续数据;
两个变量在散点图上有线性相关趋势;
样本容量
。
(2)斯皮尔曼(Spearman)等级相关系数
(2)选择散点图类型。
SPSS提供了五种类型的散点图。
(3)根据所选择的散点图类型,单击“Define”按钮设置散点图。
不同类型的散点图的设置略有差别。
①简单散点图(SimpleScatter)
简单散点图的设置窗口如图2所示。
图2简单散点图的设置窗口
从对话框左侧的变量列表中指定某个变量为散点图的纵坐标和横坐标,分别选入Y-Axis和X-Axis框中。
这两项是必选项。
可以把作为分组的变量指定到SetMarkersby框中,根据该变量取值的不同对同一个散点图中的各点标以不同的颜色(或形状)。
该项可以省略。
把标记变量指定到LabelCasesby框中,表示将标记变量的各变量值标记在散点图的旁边。
从左侧变量列表框中选择变量到Panelby框中作为分类变量,可以使该变量作为行(Rows)或列(Columns)将数据分成不同的组,便于比较。
选择UseChartSpecificationsFrom选项,可以选择散点图的文件模板,单击“File”可以选择指定的文件。
单击“Title”按钮可以对散点图的标题进行设置,单击“Options”按钮可以对缺失值以及是否显示数据的标注进行设置。
②重叠散点图(OverlayScatter)
重叠散点图能同时生成多对相关变量间统计关系的散点图,首先根据分类变量的不同取值对原始数据进行分类,然后对各分类数据做简单散点图。
重叠散点图的设置窗口如图7-18-3所示。
图3重叠散点图的设置窗口
从左侧框中选择一对变量进入Pairs框中,其中前一个为图的纵坐标变量(Y-Variable),后一个作为图的横轴变量(X-Variable),可以通过点击
按钮进行横纵轴变量的调换。
其他设置与同简单散点图都相同。
③矩阵散点图(MatrixScatter)
矩阵散点图以方形矩阵的形式在多个坐标轴上分别显示多对变量间的统计关系。
矩阵散点图的关键是弄清各矩阵单元中的横纵变量。
矩阵散点图的设置窗口如图4所示。
图4矩阵散点图的设置窗口
把参与绘图的若干变量指定到MatrixVariables框中。
选择变量的先后顺序决定了矩阵对角线上变量的排列顺序。
其他设置也与简单散点图相同。
④三维散点图(3-DScatter)
三维散点图生成三个相关变量的三维散点图,由三个坐标轴对应变量的数据决定,它以立体图的形式展现三对变量间的统计关系。
设置窗口如图5所示。
图5三维散点图设置窗口
从左侧的变量列表中指定三个变量分别选入Y-Axis、X-Axis、Z-Axis框中。
其他设置均与简单散点图相同。
⑤单点散点图(SampleDot)
单点散点图生成单个变量的散点图,显示数值型变量的每一个观测值,这些值都堆积在X轴附近,由于没有指定Y轴,所以数据点的Y坐标没有特殊的含义。
设置窗口如图6所示。
图6单点散点图设置窗口
从左侧变量列表中选择一个变量选入X-AxisVariable框中。
其他设置与简单散点图相同。
5-2计算简单相关系数的操作步骤
通过散点图可以初步判断变量是否具有线性趋势。
对具有线性趋势的变量计算相应的简单相关系数的步骤如下:
(1)选择菜单命令“Analyze”→“Correlate”→“Bivariate”,打开两变量相关分析的对话框,如图7所示。
图7两变量相关分析窗口
(2)选入需要进行相关分析的变量进入Variables框,至少需要选入两个,如选入“投入”、“产出”变量。
(3)在CorrelationCoefficients复选框中选择需要计算的相关系数。
主要有:
Pearson复选框:
选择进行积距相关分析,即最常用的参数相关分析;
Kendall'
stau-b复选框:
计算Kendall'
s等级相关系数;
Spearman复选框:
计算Spearman相关系数,即最常用的非参数相关分析(秩相关)。
(4)TestofSignificance单选框用于确定是进行相关系数的单侧(One-tailed)或双侧(Two-tailed)检验,系统默认双侧检验。
(5)Flagsignificantcorrelations用于确定是否在结果中用星号标记有统计学意义的相关系数,一般选中。
此时P<
0.05的系数值旁会标记一个星号,P<
0.01的则标记两个星号。
(6)单击Options按钮,弹出Options对话框,选择需要计算的描述统计量和统计分析,如图8所示。
图8两变量相关分析的Options子对话框
在Statistics复选框中定义各变量输出的描述统计量。
Meansandstandarddeviations选项表示每个变量的样本均值和标准差;
Cross-productdeviationsandcovariances选项表示各对变量的离差平方和、样本方差、两变量的叉积离差以及协方差阵。
叉积离差为Pearson相关系数公式中的分子部分;
协方差为叉积离差/(n-1)。
在MissingValues单选框中定义分析中对缺失值的处理方法,可以是具体分析用到的两个变量有缺失值才去除该记录(Excludecasespairwise),或只要该记录中进行相关分析的变量有缺失值(无论具体分析的两个变量是否缺失),则在所有分析中均将该记录去除(Excludescaseslistwise)。
(7)单击“OK”按钮完成设置,提交运行。
6.结果解析
根据背景资料,利用表1中的数据,建立SPSS数据文件,分别将变量投入、产出选入Variables框中,并在Options子对话框选中Meansandstandarddeviations选项和Cross-productdeviationsandcovariances选项,其他选择默认。
结果如表2、表3所示。
6-1表2为描述统计量,表3为相关分析结果。
从表3中可以看出皮尔逊相关系数为0.759,即投入与产出的相关系数为0.759,双侧检验的P值为0.011,明显小于0.05,拒绝二者不相关的原假设。
因此,我们可以得出结论:
可以认为投入与产出之间存在正相关,当投入增加时,产出也会相应增加。
表2描述统计量
DescriptiveStatistics
Mean
Std.Deviation
N
投入
22.00
9.189
10
产出
45.00
14.337
表3简单相关系数分析结果
Correlations
PearsonCorrelation
1
.759*
Sig.(2-tailed)
.011
SumofSquaresandCross-products
760.000
900.000
Covariance
84.444
100.000
1850.000
205.556
*.Correlationissignificantatthe0.05level(2-tailed).
6-2调用Bivariate过程命令时允许同时输入两个变量或两个以上变量,但系统输出的是变量间两两相关的相关系数。
二、偏相关分析:
Partial
1.偏相关分析的含义
在实际问题中,两变量的相关关系往往还要受到其他因素的影响,这些影响有时候会使相关分析的结果变得不那么可靠。
因此,引入了偏相关分析的方法。
偏相关分析,也称净相关分析,是指在研究两个变量之间的线性相关关系时,将与这两个变量有联系的其他变量控制不变的统计方法。
根据控制变量的个数,偏相关分析分为零阶偏相关分析、一阶偏相关分析、二阶偏相关分析等等。
其中,零阶偏相关分析是指没有控制变量的相关分析,即一般的相关分析。
一阶偏相关分析是指有一个控制变量的相关分析,二阶偏相关分析是指有两个控制变量的偏相关分析,其他高阶偏相关分析以此类推。
2.偏相关系数
进行偏相关分析时要用到偏相关系数。
偏相关系数是在多元相关分析中说明当某个自变量在其他自变量固定不变时,分别同因变量线性相关程度的指标。
偏相关系数的取值范围亦在-1~+1之间,其计算公式分别为:
当有一个控制变量为
时,变量
和
之间的一阶偏相关系数为:
(6)
3.对偏相关系数的检验方法
在偏相关分析中,由于两个变量之间的相关系数是在固定(控制)了一个或几个变量后进行的,考虑到这种因素及抽样误差的影响,其检验统计量为:
(7)
式中,
是特定的偏相关系数;
为观测值个数;
为控制变量个数;
为自由度。
4.背景材料
某汽车制造商从某月中随机抽出10天的电力消耗量、温度、日产量等有关资料,数据如表4所示。
结合多年管理经验,对电力消耗量、温度、日产量的关系做出相关分析。
表4某汽车制造商的电力消耗量、温度、日产量等数据表
电力消耗(千瓦)
温度(华氏)
日产量
12
11
13
9
14
83
79
85
75
87
81
84
77
120
110
128
101
105
108
107
112
119
5.操作步骤
5-1选择菜单命令“Analyze”→“Correlate”→“Partial”,打开偏相关分析的对话框,如图9所示。
图9偏相关分析窗口
5-2选入需要进行偏相关分析的变量进入Variables框中,至少需要选入两个。
5-3选择需要在偏相关分析时进行控制的协变量进入Controllingfor框中,如果不选入,则进行的就是普通的相关分析。
5-4在TestofSignificance单选框中确定是进行相关系数的单侧(One-tailed)或双侧(Two-tailed)检验,一般选双侧检验。
5-5Displayactualsignificancelevel复选框用于表示在结果中给出确切的P值,一般选中。
5-6单击Options按钮,弹出Options对话框,选择需要计算的描述统计量和统计分析。
如图10所示。
图10偏相关分析的Options子对话框
(1)Statistics复选框用于定义可选的描述统计量。
其中,Meansandstandarddeviations表示每个变量的样本均值和标准差;
Zero-ordercorrelations表示输出包括控制变量在内所有变量的相关矩阵。
(2)MissingValues单选框用于定义分析中对缺失值的处理方法,可以是具体分析用到的两个变量有缺失值才去除该记录(Excludecasespairwise),或只要该记录中进行相关分析的变量有缺失值(无论具体分析的两个变量是否缺失),则在所有分析中均将该记录去除(Excludescaseslistwise)。
系统默认为前者,以充分利用数据。
这里我们选择电力消耗、温度作为待分析变量,把日产量作为控制变量,在Options子对话框中选中Meansandstandarddeviations选项,其他选择系统默认。
具体分析结果见表4、表5所示。
6-1表5偏相关系数表中的结果表明,在控制了日产量变量后,电力消耗与温度之间的偏相关系数为0.815,概率P值为0.007<
0.05,从而表明两者之间有高度的相关关系。
表4偏相关分析描述统计量DescriptiveStatistics
电力消耗
11.70
1.636
温度
82.00
3.887
112.00
8.083
表5偏相关系数表Correlations
ControlVariables
Correlation
1.000
.815
Significance(2-tailed)
.
.007
df
7
6-2表6的输出结果是在分析时,除了原有的设置外,在Options子对话框中还选中Zero-ordercorrelations选项的分析结果。
表6中结果表明,在没有控制变量的情况下,电力消耗与温度之间的简单相关系数为0.838,概率P值为0.002<
0.05,也表明两者之间有高度的相关关系。
可见,偏相关分析的结论与简单相关分析的结论基本一致,但在有些时候,偏相关分析的结论与简单相关分析的结论可以不一致。
6Correlations
-none-a
.838
.361
.002
.305
8
.506
.136
a.Cellscontainzero-order(Pearson)correlations.