第11章相关分析与回归分析.docx
《第11章相关分析与回归分析.docx》由会员分享,可在线阅读,更多相关《第11章相关分析与回归分析.docx(14页珍藏版)》请在冰豆网上搜索。
第11章相关分析与回归分析
11.5一家物流公司的管理人员想研究货物的运输距离和运输时间的关系,为此,他抽出了公司最近10个卡车运货记录的随机样本,得到运送距离(单位:
km)和运送时间(单位:
天)的数据如下:
运送距离x
825215107055048092013503256701215
运送时间y
3.51.04.02.01.03.04.51.53.05.0
要求:
(1)绘制运送距离和运送时间的散点图,判断二者之间的关系形态:
(2)计算线性相关系数,说明两个变量之间的关系强度。
(3)利用最小二乘法求出估计的回归方程,并解释回归系数的实际意义。
解:
(1)
__
可能存在线性关系。
(2)
相关性
x运送距离(km)
y运送时间(天)
x运送距离(km)
Pearson相关性
1
.949(**)
显著性(双侧)
0.000
N
10
10
y运送时间(天)
Pearson相关性
.949(**)
1
显著性(双侧)
0.000
N
10
10
**.在.01水平(双侧)上显著相关。
有很强的线性关系。
(3)
系数(a)
模型
非标准化系数
标准化系数
t
显著性
B
标准误
Beta
1
(常量)
0.118
0.355
0.333
0.748
x运送距离(km)
0.004
0.000
0.949
8.509
0.000
a.因变量:
y运送时间(天)
回归系数的含义:
每公里增加0.004天。
11.6下面是7个地区2000年的人均国内生产总值(GDP)和人均消费水平的统计数据:
地区
人均GDP(元)
人均消费水平(元)
北京
辽宁
上海
江西
河南
贵州
陕西
22460
11226
34547
4851
5444
2662
4549
7326
4490
11546
2396
2208
1608
2035
要求:
(1)人均GDP作自变量,人均消费水平作因变量,绘制散点图,并说明二者之间的关系形态。
(2)计算两个变量之间的线性相关系数,说明两个变量之间的关系强度。
(3)利用最小二乘法求出估计的回归方程,并解释回归系数的实际意义。
(4)计算判定系数,并解释其意义。
(5)检验回归方程线性关系的显著性(a=0.05)。
(6)如果某地区的人均GDP为5000元,预测其人均消费水平。
(7)求人均GDP为5000元时,人均消费水平95%的置信区间和预测区间。
解:
(1)
__
可能存在线性关系。
(2)相关系数:
相关性
人均GDP(元)
人均消费水平(元)
人均GDP(元)
Pearson相关性
1
.998(**)
显著性(双侧)
0.000
N
7
7
人均消费水平(元)
Pearson相关性
.998(**)
1
显著性(双侧)
0.000
N
7
7
**.在.01水平(双侧)上显著相关。
有很强的线性关系。
(3)回归方程:
系数(a)
模型
非标准化系数
标准化系数
t
显著性
B
标准误
Beta
1
(常量)
734.693
139.540
5.265
0.003
人均GDP(元)
0.309
0.008
0.998
36.492
0.000
a.因变量:
人均消费水平(元)
回归系数的含义:
人均GDP没增加1元,人均消费增加0.309元。
(4)
模型摘要
模型
R
R方
调整的R方
估计的标准差
1
.998(a)
0.996
0.996
247.303
a.预测变量:
(常量),人均GDP(元)。
人均GDP对人均消费的影响达到99.6%。
(5)F检验:
ANOVA(b)
模型
平方和
df
均方
F
显著性
1
回归
81,444,968.680
1
81,444,968.680
1,331.692
.000(a)
残差
305,795.034
5
61,159.007
合计
81,750,763.714
6
a.预测变量:
(常量),人均GDP(元)。
b.因变量:
人均消费水平(元)
回归系数的检验:
t检验
系数(a)
模型
非标准化系数
标准化系数
t
显著性
B
标准误
Beta
1
(常量)
734.693
139.540
5.265
0.003
人均GDP(元)
0.309
0.008
0.998
36.492
0.000
a.因变量:
人均消费水平(元)
(6)
某地区的人均GDP为5000元,预测其人均消费水平为2278.10657元。
(7)
人均GDP为5000元时,人均消费水平95%的置信区间为[1990.74915,2565.46399],预测区间为[1580.46315,2975.74999]。
11.9某汽车生产商欲了解广告费用(x)对销售量(y)的影响,收集了过去12年的有关数据。
通过计算得到下面的有关结果:
方差分析表
变差来源
df
SS
MS
F
SignificanceF
回归
1
1602708.6
1602708.6
399.1000065
2.17E—09
残差
10
40158.07
4015.807
—
—
总计
11
1642866.67
—
—
—
参数估计表
Coefficients
标准误差
tStat
P—value
Intercept
363.6891
62.45529
5.823191
0.000168
XVariable1
1.420211
0.071091
19.97749
2.17E—09
要求:
(1)完成上面的方差分析表。
(2)汽车销售量的变差中有多少是由于广告费用的变动引起的?
(3)销售量与广告费用之间的相关系数是多少?
(4)写出估计的回归方程并解释回归系数的实际意义。
(5)检验线性关系的显著性(a=0.05)。
解:
(2)R2=0.9756,汽车销售量的变差中有97.56%是由于广告费用的变动引起的。
(3)r=0.9877。
(4)回归系数的意义:
广告费用每增加一个单位,汽车销量就增加1.42个单位。
(5)回归系数的检验:
p=2.17E—09<α,回归系数不等于0,显著。
回归直线的检验:
p=2.17E—09<α,回归直线显著。
11.11从20的样本中得到的有关回归结果是:
SSR=60,SSE=40。
要检验x与y之间的线性关系是否显著,即检验假设:
。
(1)线性关系检验的统计量F值是多少?
(2)给定显著性水平a=0.05,Fa是多少?
(3)是拒绝原假设还是不拒绝原假设?
(4)假定x与y之间是负相关,计算相关系数r。
(5)检验x与y之间的线性关系是否显著?
解:
(1)SSR的自由度为k=1;SSE的自由度为n-k-1=18;
因此:
F=
=
=27
(2)
=
=4.41
(3)拒绝原假设,线性关系显著。
(4)r=
=
=0.7746,由于是负相关,因此r=-0.7746
(5)从F检验看线性关系显著。
11.15随机抽取7家超市,得到其广告费支出和销售额数据如下:
超市
广告费支出(万元)
销售额(万元)
A
B
C
D
E
F
G
l
2
4
6
10
14
20
19
32
44
40
52
53
54
要求:
(1)用广告费支出作自变量x,销售额作因变量y,求出估计的回归方程。
(2)检验广告费支出与销售额之间的线性关系是否显著(a=0.05)。
(3)绘制关于x的残差图,你觉得关于误差项
的假定被满足了吗?
(4)你是选用这个模型,还是另寻找一个更好的模型?
解:
(1)
系数(a)
模型
非标准化系数
标准化系数
t
显著性
B
标准误
Beta
1
(常量)
29.399
4.807
6.116
0.002
广告费支出(万元)
1.547
0.463
0.831
3.339
0.021
a.因变量:
销售额(万元)
(2)回归直线的F检验:
ANOVA(b)
模型
平方和
df
均方
F
显著性
1
回归
691.723
1
691.723
11.147
.021(a)
残差
310.277
5
62.055
合计
1,002.000
6
a.预测变量:
(常量),广告费支出(万元)。
b.因变量:
销售额(万元)
显著。
回归系数的t检验:
系数(a)
模型
非标准化系数
标准化系数
t
显著性
B
标准误
Beta
1
(常量)
29.399
4.807
6.116
0.002
广告费支出(万元)
1.547
0.463
0.831
3.339
0.021
a.因变量:
销售额(万元)
显著。
(3)未标准化残差图:
__
标准化残差图:
学生氏标准化残差图:
看到残差不全相等。
(4)应考虑其他模型。
可考虑对数曲线模型:
y=b0+b1ln(x)=22.471+11.576ln(x)。