薪酬设计回归分析Word格式.docx
《薪酬设计回归分析Word格式.docx》由会员分享,可在线阅读,更多相关《薪酬设计回归分析Word格式.docx(29页珍藏版)》请在冰豆网上搜索。
![薪酬设计回归分析Word格式.docx](https://file1.bdocx.com/fileroot1/2022-10/11/6eab7bc8-c525-4883-99c5-1df72f8e40d5/6eab7bc8-c525-4883-99c5-1df72f8e40d51.gif)
相关分析则是研究一个变量与另一个变量或另一组变量之间相关密切程度和相关方向的一种统计分析方法。
(二)相关关系的种类
现象之间的相关关系是很复杂的,从不同的角度看,相关关系有不同的种类。
1.固定相关和随机相关。
按变量的性质(是否是随机变量),相关关系可分固定相关和随机相关。
固定相关是指一个随机变量与另一个或一组非随机变量之间的的相关关系。
例如,农作物的施肥量是一个可控制的变量,农作物收获量是一个不确定的变量,两个变量之间的关系表现为一个随机变量与另一个非随机变量之间的固定相关。
随机相关是指一个随机变量与另一个或一组随机变量之间的相关关系。
例如,大学生的身高和体重之间的关系就是两个随机变量之间的随机相关关系,如果观察某一身高的一组学生时,其体重各不相同,会形成一个分布;
如果观察某一体重的一组学生时,其身高也不相同并形成一个分布,两个变量均为随机变量。
2.简单相关和多元相关。
按变量的多少,相关关系可分为简单相关和多元相关。
简单相关,又称单相关,是指一个随机变量与另一个随机变量或非随机变量之间的相关关系;
多元相关,又称复相关,是指一个随机变量与另一组随机变量或非随机变量之间的相关关系。
按变量之间的相关方向不同,简单相关又可分为正相关和负相关。
当自变量的值增加,因变量的值也相应地增加;
自变量的值减少,因变量的值也随之减少时,这样的相关关系就是正相关。
反之,当自变量的值增加时,因变量的值随之减少;
自变量的值减少时,因变量的值反而增加,具有这种特点的相关关系就是负相关。
多元相关可进一步分解为简单相关和偏相关。
偏相关是指在测定一个随机变量与某个或某些随机变量或非随机变量之间的相互关系后,该随机变量与某一新增加的随机量或非随变量之间的相关关系,又称之为净相关。
3.线性相关和非线性相关。
按变量之间的相关形式,相关关系可分为线性相关和非线性相关。
若一随机变量与另一个或一组随机变量或非随机变量之间的相关关系表现为线性组合时,则称它们之间的相关关系为线性相关。
反之,若一随机变量与另一个或一组随机变量或非随机变量之间的相关关系不能表现为线性组合,而只能表现为非线性组合时,则称它们之间的相关关系为非线性相关。
4.完全相关、不完全相关和不相关。
按变量之间的相关程度不同,相关关系可分为完全相关、不完全相关和不相关。
若一个变量的值完全由另一个或一组变量的值所决定,则称变量之间的这种相关关系为完全相关,即函数关系。
若一个变量的值与另一个或一组变量的值有关,但其中要受到随机因素的影响,则称变量之间的这种相关关系为不完全相关。
若一个变量的值完全不受另一个或一组变量值的影响,则称变量之间不相关。
大量社会经济现象之间的相关关系都属于不完全相关,不完全相关是相关分析的基本内容。
完全相关和不相关可视为相关关系中的特例。
二、简单线性相关图表
判定两变量之间的相关程度和相关方向是简单线性相关分析的重要内容之一。
其最简单、最直观的方法就是列相关表、绘制相关图。
简单线性相关关系有固定简单线性相关与随机简单线性相关之分。
简单线性相关图表可用于直观地表明这两类简单线性相关变量之间的相关程度和相关方向。
(一)固定简单线性相关图表
已知有两个变量,设y是随机变量,x是非随机变量,对应于x的每一个给定的取值,y有多个可能的取值,但在一次试验中,y只取其中一个可能值。
由于x是非随机变量,在实验中其取值可以控制并重复进行,所以在n次试验中,x可能取n个相同或不同的值,相应地也有n个y的值,即得到一一对应的样本资料(x,y)。
将这些数据按x的取值由小到大依次对应排列,即构成固定简单线性相关表,又称之为一维相关表。
例9.1某地区居民人均收入水平(x)与其食品支出占生活费支出比重(y)之间具有相关关系,编制相关表如下(见表9-1):
表9-1一维相关表
人均收入水平(元)x
28
5
10
1050
食品支出占生活费支出比重(%)y
68.3
67.5
66.2
64.9
56.7
60.2
54.4
49.0
50.5
43.6
从表9-1可以粗略看出,随着居民人均收入水平的提高,食品支出占生活费支出的比重有下降的趋势。
将一一对应的(x,y)描点于坐标系上,即构成散点图,又称相关图。
在相关图上,以横轴表示非随机变量(x),以纵轴表示随机变量(y),通过观察各对变量值坐标点的分布状况,可以大致判断变量之间相关的形态、方向和密切程度。
利用表9-1资料,可绘制相关图如下(见图9-1):
图9-1居民人均收入水平与其食品支出的关系图
从图9-1可以看出,随着居民人均收入水平的提高,食品支出占生活费支出的比重明显降低,并大致呈线性下降趋势,即负线性相关。
一些常见的相关分布状态可用下述各图表示(见图9-2):
较显著的线性正相关较显著的线性负相关
不显著的线性负相关不相关
图9-2几种常见的相关散点图
(二)随机简单线性相关图表
设x、y为两个随机变量,将观测值(x,y)分组之后按顺序排列,x从小到大排列,y从大到小排列,形成一棋盘式平衡表,称之为二维相关表。
例9.2某地区为研究降雨量和农作物平均每亩收获量的关系,从40个降雨量不同的试验田中获得40对数据。
用x表示降雨量,y表示平均每亩收获量。
据此可编出二维相关表如下(见表9-2)。
该表中,中间每一格列出的是x、y的联合频数,它表明x和y同时取某值的次数;
最后一列每一格是每一行的联合频数的和,它表明y取某值的次数;
最后一行每一格则是每一列的联合频数的和,它表明x取某值的次数。
表9-2二维相关表
降雨量(毫米)xi
频数fij
8
12
14
16
18
行和
(fj)
收获量(公斤)yj
260
1
2
4
240
6
220
3
11
200
13
180
160
列和(fi)
40
从表9-2可以粗略看出,降雨量与收获量之间大致呈线性正相关关系。
利用表9-2资料,可绘制相关图如下(见图9-3):
图9-3降雨量与收获量之间相关图
三、简单相关系数
(一)简单相关系数的意义
简单线性相关图表虽然直观,但不能精确地描述现象间的相关关系。
测量两个变量之间线性相关程度和相关方向的指标,称为简单相关系数。
总体相关系数一般用R表示,定义式为
(式9.1)
式中,和表示变量X和Y的标准差,对有限总体而言,其计算公式为
(式9.2)
(式9.3)
表示两个变量X和Y之间的协方差,计算公式为
(式9.4)
这里,变量X和Y为总体变量,N为总体单位数,和分别为变量X及Y的总体平均数,计算式为
(式9.5)
(式9.6)
要理解相关系数R的意义,首先要明确协方差和标准差、在反映变量之间相关关系中的作用。
协方差反映了变量X和Y的共变性,可以显示两个变量的相关方向和相关关系的密切程度,它可能出现以下几种情况:
第一,所有相关点均为正相关,则>
0,说明两个变量之间正线性相关。
第二,所有相关点均为负相关,则<
0,说明两个变量之间负线性相关。
第三,在全部相关点中,既有正相关、又有负相关和零相关,在计算协方差时就会出现正负抵销。
抵销的结果如为正数则是正相关,如为负数则是负相关。
数值大表示相关程度强,数值小则表示相关关系弱。
若正、负全部低销掉了,结果为零,则表示不相关。
第三种情况是实际经济生活中最常见到的情况。
此外,还有两种极端的情况:
当所有相关点都是零相关时,抵销结果为零,表示两个变量完全没有相关关系。
当所有相关点全部落在直线上时,表示两个变量完全线性相关,即存在函数关系。
进一步,相关系数是一个界于+1和-1之间的数,即-1≤R≤1,若R=1,说明两个变量之间存在完全正线性相关;
若R=-1说明两个变量之间存在完全负线性相关;
若0<
R<
1,说明两个变量之间存在一定程度的正线性相关;
若-1<
0,说明两个变量之间存在一定程度的负线性相关;
若R=0,说明两个变量之间没有线性相关关系。
(二)简单相关系数的计算
在实际工作中,总体相关系数R一般是未知的,往往需要用样本资料推断总体的相关情况,因而需要计算样本相关系数。
1.固定简单线性相关系数的计算
设x和y为样本变量,其中y为随机变量,x为非随机变量,n为样本容量,、分别为变量x及y的样本平均数,、和分别表示变量x和y的样本标准差及它们之间的样本协方差,其计算为
(式9.7)
(式9.8)
(式9.9)
(式9.10)
(式9.11)
于是,就可得到与总体相关系数计算形式相同的样本相关系数(记为r)的公式
(式9.12)
经过简单的推导,上式还可变化为下面易于计算的形式
(式9.13)
根据表9-1的资料计算相关系数如表9-3所示:
表9-3固定简单线性相关系数计算表
序号
人均收入水平(元)
x
x2
y2
xy
280
78400
4664.89
19124
320
102400
4556.25
21600
390
152100
4382.44
25818
530
280900
4212.01
34397
650
422500
3214.89
36855
670
448900
3624.04
40334
7
790
624100
2959