1、 (yi - y)2 i i=1(1)式是样本的相关系数。计算皮尔逊相关系数的数据要求:变量都是服从正态分布,相互独立的连续数据;两个变量在散点图上有线性相关趋势; 样本容量n 一 30。(2)斯皮尔曼(Spearman )等级相关系数Spearman相关系数又称秩相关系数,是用来测度两个定序数据之间的线性 相关程度的指标。当两组变量值以等级次序表示时,可以用斯皮尔曼等级相关系数反映变量间 的关系密切程度。它是根据数据的秩而不是原始数据来计算相关系数的,其计算 过程包括:对连续数据的排秩、对离散数据的排序,利用每对数据等级的差额及 差额平方,通过公式计算得到相关系数。其计算公式为:(2)6、d
2、2 nn2 -1(2) 式中,rR为等级相关系数;d为每对数据等级之差;n为样本容量。斯皮尔曼等级相关对数据条件的要求没有积差相关系数严格, 只要两个变量的观测值是成对的等级评定资料,或者是由连续变量观测资料转化得到的等级资 料,不论两个变量的总体分布形态、样本容量的大小如何,都可以用斯皮尔曼等 级相关来进行研究。(3) 肯德尔(Kendall)等级相关系数肯德尔(Kendall )等级相关系数是在考虑了结点(秩次相同)的条件下,测 度两组定序数据或等级数据线性相关程度的指标。它利用排序数据的秩,通过计 算不一致数据对在总数据对中的比例, 来反映变量间的线性关系的。其计算公式 如下:(3)式中
3、,是肯德尔等级相关系数;i是不一致数据对数;计算肯德尔等级相关系数的数据要求与计算斯皮尔曼等级相关系数的数据要求相同。3 相关系数的显著性检验通常,我们用样本相关系数r作为总体相关系数p的估计值,而r仅说明样 本数据的X与丫的相关程度。有时候,由于样本数据太少或其它偶然因素,使 得样本相关系数r值很大,而总体的X与丫并不存在真正的线性关系。因而有 必要通过样本资料来对 X与Y之间是否存在真正的线性相关进行检验,即检验 总体相关系数p是否为零(即原假设是:总体中两个变量间的相关系数为 0)。SPSS的相关分析过程给出了该假设成立的概率(输出结果中的 Sig.)样本简单相关系数的检验方法为:(4)
4、当原假设H0 :匸=0 , n _ 50时,检验统计量为:1 -r2当原假设H 0 : t = 0,n : 50时,检验统计量为:式中,r为简单相关系数;n为观测值个数(或样本容量)4.背景材料设有10个厂家,序号为1,2,10,各厂的投入成本记为x,所得产出记为y。各厂家的投入和产出如表7-18-1所示,根据这些数据,可以认为投入和产出之间存在相关性吗?表1 10个厂家的投入产出 单位:万元厂家12345678910投入204030产出6050705.操作步骤5-1绘制散点图的步骤(1)选择菜单命令“ Graphs”f“ Legacy Dialogs” Scatter/Dot”,打开Scat
5、ter/Dot对话框,如图1所示。图1选择散点图窗口(2)选择散点图类型。SPSS提供了五种类型的散点图(3)根据所选择的散点图类型,单击“ Define”按钮设置散点图。不同类型 的散点图的设置略有差别。1简单散点图(Simple Scatte)简单散点图的设置窗口如图2所示。图2简单散点图的设置窗口从对话框左侧的变量列表中指定某个变量为散点图的纵坐标和横坐标, 分别选入Y-Axis和X-Axis框中。这两项是必选项。可以把作为分组的变量指定到 Set Markers by框中,根据该变量取值的不同 对同一个散点图中的各点标以不同的颜色(或形状)。该项可以省略。把标记变量指定到Label C
6、ases by框中,表示将标记变量的各变量值标记在 散点图的旁边。从左侧变量列表框中选择变量到 Pa nel by框中作为分类变量,可以使该变量 作为行(Rows)或列(Columns)将数据分成不同的组,便于比较。该项可以省 略。选择Use Chart Specifications From选项,可以选择散点图的文件模板,单击“File”可以选择指定的文件。单击“ Title ”按钮可以对散点图的标题进行设置,单击“ Optio ns”按钮可以 对缺失值以及是否显示数据的标注进行设置。2重叠散点图(Overlay Scatte)重叠散点图能同时生成多对相关变量间统计关系的散点图, 首先根据分
7、类变量的不同取值对原始数据进行分类, 然后对各分类数据做简单散点图。重叠散点 图的设置窗口如图7-18-3所示。图3重叠散点图的设置窗口从左侧框中选择一对变量进入 Pairs框中,其中前一个为图的纵坐标变量(丫-Variable),后一个作为图的横轴变量(X-Variable),可以通过点击丨宀 按 钮进行横纵轴变量的调换。其他设置与同简单散点图都相同。3矩阵散点图(Matrix Scatter)矩阵散点图以方形矩阵的形式在多个坐标轴上分别显示多对变量间的统计关系。矩阵散点图的关键是弄清各矩阵单元中的横纵变量。 矩阵散点图的设置窗口如图4所示。图4矩阵散点图的设置窗口把参与绘图的若干变量指定到
8、 Matrix Variables框中。选择变量的先后顺序决 定了矩阵对角线上变量的排列顺序。其他设置也与简单散点图相同。4三维散点图(3-D Scatter)三维散点图生成三个相关变量的三维散点图,由三个坐标轴对应变量的数据 决定,它以立体图的形式展现三对变量间的统计关系。设置窗口如图 5所示。图5三维散点图设置窗口从左侧的变量列表中指定三个变量分别选入 Y-Axis、X-Axis、Z-Axis框中。 其他设置均与简单散点图相同。5单点散点图(Sample Dot)单点散点图生成单个变量的散点图,显示数值型变量的每一个观测值,这些 值都堆积在X轴附近,由于没有指定丫轴,所以数据点的丫坐标没有
9、特殊的含 义。设置窗口如图6所示。图6单点散点图设置窗口从左侧变量列表中选择一个变量选入 X-Axis Variable框中。其他设置与简单散点图相同。5-2计算简单相关系数的操作步骤通过散点图可以初步判断变量是否具有线性趋势。对具有线性趋势的变量计 算相应的简单相关系数的步骤如下:(1)选择菜单命令“ Analyze” “ Correlate”f“ Bivariate”,打开两变量 相关分析的对话框,如图7所示。图7两变量相关分析窗口(2) 选入需要进行相关分析的变量进入 Variables框,至少需要选入两个,如选入“投入”、“产出”变量。(3) 在Correlation Coeffici
10、ents复选框中选择需要计算的相关系数。 主要有:Pearson复选框:选择进行积距相关分析,即最常用的参数相关分析; Kendallstau-b复选框:计算 Kendalls等级相关系数;Spearman复选框:计算 Spearman 相关系数,即最常用的非参数相关分析(秩相关)。(4) Test of Significanee单选框用于确定是进行相关系数的单侧 (One-tailed) 或双侧(Two-tailed)检验,系统默认双侧检验。(5) Flag significant correlations用于确定是否在结果中用星号标记有统计学意义的相关系数,一般选中。此时 PvO.05的系
11、数值旁会标记一个星号,PvO.01的则标记两个星号。(6) 单击Options按钮,弹出Options对话框,选择需要计算的描述统计量 和统计分析,如图8所示。图8两变量相关分析的Options子对话框在 Statistics复选框中定义各变量输出的描述统计量。 Means and standarddeviati ons选项表示每个变量的样本均值和标准差; Cross-product deviatio ns andcovariances选项表示各对变量的离差平方和、样本方差、两变量的叉积离差以及 协方差阵。叉积离差为Pearson相关系数公式中的分子部分;协方差为叉积离差 / (n-1)。在M
12、issing Values单选框中定义分析中对缺失值的处理方法,可以是具体分 析用到的两个变量有缺失值才去除该记录(Exclude cases pairwise,或只要该记 录中进行相关分析的变量有缺失值(无论具体分析的两个变量是否缺失) ,则在所有分析中均将该记录去除(Excludes cases listwise。(7)单击“OK”按钮完成设置,提交运行。6 结果解析根据背景资料,利用表1中的数据,建立SPSS数据文件,分别将变量投入、 产出选入 Variables框中,并在 Options子对话框选中 Means and standard deviations 选项和Cross-prod
13、uct deviations and covarianee选项,其他选择默认。结果如表2、 表3所示。6-1表2为描述统计量,表3为相关分析结果。从表3中可以看出皮尔逊相 关系数为0.759,即投入与产出的相关系数为 0.759,双侧检验的P值为0.011, 明显小于0.05,拒绝二者不相关的原假设。因此,我们可以得出结论:可以认为 投入与产出之间存在正相关,当投入增加时,产出也会相应增加。表2描述统计量Descriptive StatisticsMeanStd. DeviationN22.009.189产岀45.0014.337表3简单相关系数分析结果CorrelationsPearson
14、Correlation.759*Sig. (2-tailed).011Sum of Squares and760.000900.000Cross-productsCovariance84.444100.000*.7591850.000205.556*. Correlation is significant at the 0.05 level (2-tailed).6-2调用Bivariate过程命令时允许同时输入两个变量或两个以上变量,但系 统输出的是变量间两两相关的相关系数。二、偏相关分析:Partial1偏相关分析的含义在实际问题中,两变量的相关关系往往还要受到其他因素的影响,这些影响 有
15、时候会使相关分析的结果变得不那么可靠。因此,引入了偏相关分析的方法。 偏相关分析,也称净相关分析,是指在研究两个变量之间的线性相关关系时, 将与这两个变量有联系的其他变量控制不变的统计方法。根据控制变量的个数,偏 相关分析分为零阶偏相关分析、一阶偏相关分析、二阶偏相关分析等等。其中, 零阶偏相关分析是指没有控制变量的相关分析,即一般的相关分析。一阶偏相关 分析是指有一个控制变量的相关分析,二阶偏相关分析是指有两个控制变量的偏 相关分析,其他高阶偏相关分析以此类推。2.偏相关系数进行偏相关分析时要用到偏相关系数。偏相关系数是在多元相关分析中说明当某个自变量在其他自变量固定不变时, 分别同因变量线
16、性相关程度的指标。偏相关系数的取值范围亦在-1+1之间,其计算公式分别为:(6)当有一个控制变量为X2时,变量捲和y之间的一阶偏相关系数为:ryxi 举23.对偏相关系数的检验方法在偏相关分析中,由于两个变量之间的相关系数是在固定(控制)了一个或几个变量后进行的,考虑到这种因素及抽样误差的影响,其检验统计量为:r Jn - k - 2 tJ-r2式中,r是特定的偏相关系数;n为观测值个数;k为控制变量个数;n -k-2 为自由度。某汽车制造商从某月中随机抽出 10天的电力消耗量、温度、日产量等有关 资料,数据如表4所示。结合多年管理经验,对电力消耗量、温度、日产量的关 系做出相关分析。表4某汽
17、车制造商的电力消耗量、温度、日产量等数据表电力消耗(千瓦)温度(华氏)日产量12r 83120117911013851287510114871058110884771071121195-1选择菜单命令“ Analyze” f “Correlate” f “Partial”,打开偏相关分析的对话框,如图9所示。图9偏相关分析窗口5-2选入需要进行偏相关分析的变量进入 Variables框中,至少需要选入两个。5-3选择需要在偏相关分析时进行控制的协变量进入 Controlling for框中,如果不选入,则进行的就是普通的相关分析。5-4在Test of Significanee单选框中确定是进
18、行相关系数的单侧 (One-tailed)或双侧(Two-tailed)检验,一般选双侧检验。5-5 Display actual significanee level复选框用于表示在结果中给出确切的 P值,一般选中。5-6单击Options按钮,弹出Options对话框,选择需要计算的描述统计量和 统计分析。如图10所示。图10偏相关分析的Options子对话框(1) Statistics复选框用于定义可选的描述统计量。 其中,Means and standard deviatio ns表示每个变量的样本均值和标准差;Zero-order correlatio ns表示输出包 括控制变量在内
19、所有变量的相关矩阵。(2) Missing Values单选框用于定义分析中对缺失值的处理方法,可以是具体分析用到的两个变量有缺失值才去除该记录(Exclude cases pairwise,或只要 该记录中进行相关分析的变量有缺失值(无论具体分析的两个变量是否缺失) ,则在所有分析中均将该记录去除(Excludes cases listwise)系统默认为前者,以充 分利用数据。这里我们选择电力消耗、温度作为待分析变量,把日产量作为控制变量,在Options子对话框中选中 Means and standard deviation选项,其他选择系统默认。 具体分析结果见表4、表5所示。6-1表
20、5偏相关系数表中的结果表明,在控制了日产量变量后,电力消耗与 温度之间的偏相关系数为0.815,概率P值为0.0070.05,从而表明两者之间有 高度的相关关系。表4偏相关分析描述统计量DescriptiveStatistics电力消耗11.701.636温度82.003.887112.008.083表5偏相关系数表CorrelationsControl Variables日产量 电力消耗Correlation1.000.815Significance (2-tailed).007df6-2表6的输出结果是在分析时,除了原有的设置外,在 Options子对话框中还选中Zero-order correlations选项的分析结果。表6中结果表明,在没有控制 变量的情况下,电力消耗与温度之间的简单相关系数为 0.838,概率P值为0.0020.05,也表明两者之间有高度的相关关系。可见,偏相关分析的结论与简 单相关分析的结论基本一致,但在有些时候,偏相关分析的结论与简单相关分析 的结论可以不一致。6 Correlationsa-none-.838.361.002.305.506.136a. Cells contain zero-order (Pearson) correlations.
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1