完整word版第十一章 一元线性回归.docx
《完整word版第十一章 一元线性回归.docx》由会员分享,可在线阅读,更多相关《完整word版第十一章 一元线性回归.docx(15页珍藏版)》请在冰豆网上搜索。
完整word版第十一章一元线性回归
第十一章一元线性回归
11.1从某一行业中随机抽取12家企业,所得产量与生产费用的数据如下:
企业编号
产量(台)
生产费用(万元)
企业编号
产量(台)
生产费用(万元)
1
40
130
7
84
165
2
42
150
8
100
170
3
50
155
9
116
167
4
55
140
10
125
180
5
65
150
11
130
175
6
78
154
12
140
185
要求:
(1)绘制产量与生产费用的散点图,判断二者之间的关系形态。
(2)计算产量与生产费用之间的线性相关系数.
(3)对相关系数的显著性进行检验(α=0。
05),并说明二者之间的关系强度。
解:
(1)利用Excel的散点图绘制功能,绘制的散点图如下:
从散点图的形态可知,产量与生产费用之间存在正的线性相关。
(2)利用Excel的数据分析中的相关系数功能,得到产量与生产费用的线性相关系数r=0.920232。
(3)计算t统计量,得到t=7.435453,在α=0.05的显著性水平下,临界值为2。
6337,统计量远大于临界值,拒绝原假设,产量与生产费用之间存在显著的正线性相关关系。
r大于0。
8,高度相关.
11.2学生在期末考试之前用于复习的时间(单位:
h)和考试分数(单位:
分)之间是否有关系?
为研究这一问题,以为研究者抽取了由8名学生构成的一个随机样本,得到的数据如下:
复习时间x
考试分数y
20
64
16
61
34
84
23
70
27
88
32
92
18
72
22
77
要求:
(1)绘制复习时间和考试分数的散点图,判断二者之间的关系形态。
(2)计算相关系数,说明两个变量之间的关系强度.
解:
(1)利用Excel的散点图绘制功能,绘制的散点图如下:
从散点图的形态来看,考试分数与复习时间之间似乎存在正的线性相关关系。
(2)r=0.862109,大于0.8,高度相关。
11.3根据一组数据建立的线性回归方程为
。
要求:
(1)解释截距
的意义。
(2)解释斜率
意义.
(3)计算当x=6时的E(y)。
解:
(1)在回归模型中,一般不能对截距项赋予意义。
(2)斜率
的意义为:
当x增加1时,y减小0。
5。
(3)当x=6时,E(y)=10–0.5*6=7。
11。
4设SSR=36,SSE=4,n=18。
要求:
(1)计算判定系数R2并解释其意义。
(2)计算估计标准误差se并解释其意义。
解:
SST=SSR+SSE=36+4=40,
R2=SSR/SST=36/40=0.9,意义为自变量可解释因变量变异的90%,自因变量与自变量之间存在很高的线性相关关系。
(2)
=0.5,这是随机项的标准误差的估计值.
11。
5一家物流公司的管理人员想研究货物的运送距离和运送时间的关系,因此,他抽出了公司最近10辆卡车运货记录的随机样本,得到运送距离(单位:
km)和运送时间(单位:
天)的数据如下:
运送距离x
运送时间y
825
3.5
215
1。
0
1070
4。
0
550
2。
0
480
1。
0
920
3。
0
1350
4。
5
325
1。
5
670
3.0
1215
5.0
要求:
(1)绘制运送距离和运送时间的散点图,判断二者之间的关系形态。
(2)计算线性相关系数,说明两个变量之间的关系强度。
(3)利用最小二乘法求出估计的回归方程,并解释回归系数的实际意义。
解:
(1)利用Excel绘制散点图,如下:
从散点图的形态来看,运送时间和运送距离之间存在正的线性相关关系。
(2)计算的相关系数为0。
9489,这是一个很高的相关系数。
(3)用OLS方法估计得到模型参数为
=0.118129,
=0。
003585,
回归方程为:
运送时间=0。
118129+0.003*运送距离,意义为:
运送距离每增加1km,运送时间增加0.003383天,即0。
086小时。
11。
6下面是7个地区2000年的人均国内生产总值(GDP)和人均消费水平的统计数据:
地区
人均GDP(元)
人均消费水平(元)
北京
22460
7326
辽宁
11226
4490
上海
34547
11546
江西
4851
2396
河南
5444
2208
贵州
2662
1608
陕西
4549
2035
要求:
(1)人均GDP作自变量,人均消费水平左因变量,绘制散点图,并说明二者之间的关系形态。
(2)计算两个变量之间的线性相关系数,说明两个变量之间的关系强度.
(3)利用最小二乘法求出估计的回归方程,并解释回归系数的实际意义。
(4)计算判定系数,并解释其意义.
(5)检验回归方程线性关系的显著性(α=0.05)。
(6)如果某地区的人均GDP为5000元,预测其人均消费水平.
(7)求人均GDP为5000元时,人均消费水平95%的置信区间和预测区间。
解:
(1)利用Excel绘制的散点图如下:
从散点图来看,人均消费水平与人均GDP之间存在很强的正线性相关关系。
(2)r=0.998,高度相关。
(3)用OLS方法估计得到模型参数为
=734.69,
=0。
308,回归方程为:
人均消费水平=734。
69+0。
308*人均GDP,
意义为:
人均GDP每增加1元,人均消费水平增加0.31元,此值即为经济学中的边际消费倾向。
这里截距可解释为人均GDP为0时,居民的消费支出为734元/年,即经济学中的自发支出。
(4)判定系数R2=0。
996,人均消费水平变异的99%可由人均GDP来解释.
(5)这是一个一元线性回归模型,只需要检验斜率系数的显著性即可。
斜率系数的t统计量
,
显著性水平为0.05,自由度为7-2=5,临界值为3。
16,统计量远大于临界值,是高度显著的.
(6)将人均GDP代入到估计的回归方程,计算得到人均消费水平的期望值为2278元。
(7)查表得
点估计值为2278元,标准误差为247。
3035,
人均消费水平95%的置信区间为
即(1990.73,2565。
27).
而人均消费水平95%的预测区间为
即区间(1580。
79,2975。
21),对个别值的预测精确度比对总体均值的预测低。
11。
7随机抽取10家航空公司,对其最近一年的航班正点率和顾客投诉次数进行了调查,所得数据如下:
航空公司编号
航班正点率(%)
投诉次数(次)
1
81.8
21
2
76.6
58
3
76.6
85
4
75.7
68
5
73.8
74
6
72.2
93
7
71。
2
72
8
70。
8
122
9
91。
4
18
10
68。
5
125
要求:
(1)绘制散点图,说明二者之间的关系形态。
(2)用航班正点率左自变量,顾客投诉次数左因变量,求出估计的回归方程,并解释回归系数的意义。
(3)检验回归系数的限制性(α=0。
05).
(4)如果航班正点率为80%,估计顾客投诉次数.
(5)求航班正点率为80%时,顾客投诉次数95%的置信区间和预测区间。
解:
(1)散点图如下。
从散点图的形态来看,航班正点率与顾客投诉次数之间有负的线性相关关系。
(2)用Excel回归分析,得到估计的回归方程如下:
斜率系数为-4.70062,表示航班正点率提高1个百分点,顾客投诉次数减少4.7次。
符号为负,与理论相符.截距系数一般不赋予意义。
(3)一元回归只要检验斜率系数的显著性即可。
斜率西数的t统计量为
相应的P值为0。
001108,小于0.05,t统计量是显著的。
(4)由估计的回归方程,得到果航班正点率为80%,估计顾客投诉次数为
430.1892—4。
70062*80=54.1396(次)
(5)查表得
点估计值为54。
1396元,标准误差为18.887,故置信区间为
即区间(37。
6597,70。
61949).
而预测区间为
即区间(7.57204,100。
7071)
11.8下面是20个城市写字楼由出租率和每平方米月租金的数据。
地区编号
出租率(%)
每平方米月租金(元)
1
70。
6
99
2
69。
8
74
3
73.4
83
4
67.1
70
5
70。
1
84
6
68.7
65
7
63。
4
67
8
73.5
105
9
71。
4
95
10
80。
7
107
11
71。
2
86
12
62。
0
66
13
78.7
106
14
69.5
70
15
68。
7
81
16
69。
5
75
17
67。
7
82
18
68.4
94
19
72.0
92
20
67。
9
76
设月租金为自变量,出租率为因变量,用Excel进行回归,并对结果进行解释和分析.
解:
回归分析结果如下:
SUMMARYOUTPUT
回归统计
MultipleR
0.79508
RSquare
0。
632151
AdjustedRSquare
0.611715
标准误差
2.685819
观测值
20
方差分析
df
SS
MS
F
SignificanceF
回归分析
1
223。
1403
223。
1403
30。
93318
2。
8E-05
残差
18
129.8452
7.213622
总计
19
352.9855
Coefficients
标准误差
tStat
P—value
Lower95%
Upper95%
下限95.0%
上限95.0%
Intercept
49.31768
3。
805016
12.96123
1。
45E—10
41。
32364
57.31172
41。
32364
57.31172
XVariable1
0.249223
0。
04481
5。
561761
2。
8E—05
0。
15508
0。
343365
0.15508
0.343365
结果分析如下:
(1)斜率系数的t统计量在95%的显著性水平下是高度显著的,斜率系数等于0。
2492,表示每平方米月租金提高1元,出租率将提高0.2492个百分点。
(2)判断系数R2等于6321,表示出租率的变异可由月租金解释63.21%。
判断系数不算很高,可能还有其它的变量影响出租率.
11.9某汽车生产商欲了解广告费用(x)对销售量(y)的影响,收集了过去12年的有关数据。
通过计算得到下面的有关结果:
方差分析表
变差来源
df
SS
MS
F
SignificanceF
回归
2.17E—09
残差
40158.07
总计
11
1642866.67
参数估计表
Coefficients
标准误差
tStat.
P-value
Intercept
363.6891
62。
45529
5.823191
0.000168
XVariable1
1.420211
0。
071091
19.97749
2。
17E-09
要求:
(1)完成上面的方差分析表.
(2)汽车销售量的变差中有多少是由广告费用的变动引起的?
(3)销售量与广告费用之间的相关系数是多少?
(4)写出估计的回归方程并解释回归系数的实际意义.
(5)检验线性关系的显著性(α=0.05)。
解:
(1)此为一元线性回归,由自由度可知,样本容量n=(11+1)=12。
由此可计算各自由度和SS.进而计算各均方误,最后计算出F统计量(MSR/MSE)。
结果如下:
方差分析表
变差来源
df
SS
MS
F
SignificanceF
回归
1
1602708。
6
1602708。
6
199。
1
2。
17E—09
残差
10
40158。
07
4015.807
总计
11
1642866。
67
(2)计算判断系数,
表明销售量的变异有97.55%是由广告费用的变东引起的.
(3)一元线性回归模型中,相关系数等于判断系数的平方根,即
0。
9877。
(4)根据估计得到的模型参数,回归方程如下:
表示广告费用增加1单位,销售量将平均增加1。
42单位。
(5)由参数估计表可知,斜率系数的t统计量等于19.97749,这是一个在显著性水平0.05下高度显著的统计量。
11。
10根据下面的数据建立回归方程,计算残差,判断系数R2,估计标准误差se,并分析回归方程的拟合优度.
x
y
15
47
8
36
19
56
12
44
5
21