实用统计学第十一章.docx
《实用统计学第十一章.docx》由会员分享,可在线阅读,更多相关《实用统计学第十一章.docx(16页珍藏版)》请在冰豆网上搜索。
实用统计学第十一章
第十一章计算机在统计分析中的应用
第一节计算机在回归分析和相关分析中的应用
本节介绍使用著名统计软件SPSS进行回归分析和相关分析的方法。
一、回归分析
(一)一元线性回归分析
[例11-1]某地国民收入(亿元)与农民人均纯收入(元)历年对应数据如表11-1,试建立一元线性回归方程。
表11-1
年份
国民收入
x
农民人均纯收入
y
1991
16917.8
601.5
1992
18598.4
686.3
1993
21662.5
708.6
1994
26651.9
784.0
1995
34560.5
921.6
1996
46670.0
1221.0
1997
57494.9
1577.7
1998
66850.5
1926.1
1999
73142.7
2090.1
2000
76967.2
2162.0
2001
80579.4
2210.3
2002
88254.0
2253.4
2003
95727.9
2366.4
2004
103935.3
2475.6
2005
116603.2
2622.2
方法如下:
(1)进入SPSS系统,建立数据集(见图11-1)。
图11-1数据集
(2)单击Analyze
Regression
Linear,LinearRegression窗口(见图11-2)。
图11-2LinearRegression窗口
(3)按照图11-2进行设置:
农民人均收入是因变量,国民收入是自变量。
(4)单击OK按钮,得到以下回归结果。
表11-2回归结果
Coefficients(a)
Model
UnstandardizedCoefficients
StandardizedCoefficients
t
Sig.
B
Std.Error
Beta
1
(Constant)
265.046
73.998
3.582
.003
国民收入
.022
.001
.985
20.902
.000
aDependentVariable:
农民人均收入
得到直线回归方程:
y=265.046+0.022x
(二)一元非线性回归分析
为了决定选择的曲线类型,常用的方法是根据数据资料描绘出散点图,应用必要的专业知识和经验分析变量之间的函数关系。
在确定了变量间的函数关系后,需要估计函数关系中的未知参数,并对拟合效果进行显著性检验。
统计学中,称待建立的曲线方程为曲线回归方程。
SPSS的CurveEstimation(曲线估计过程)就是用来解决这类问题的。
它提供了11种不同的曲线估计回归模型,可以同时选用几种模型进行曲线拟合,然后根据回归统计的结果,以及观察数据散点图,通过对比以确定一个最佳的曲线模型。
[例11-2]表11-3列出了某厂10种产品产量(x)与该产品劳动力成本占总成本的比例(y)的资料,研究这两变量间的数量关系。
试运用曲线估计过程确定变量劳动力成本比例与产量之间的定量关系。
分析步骤如下:
(1)根据表11-3的数据资料,定义变量建立数据文件,如图11-3所示。
表11-3产品产量与该产品劳动力成本比例数据
产品序号
产量(台)x
劳动力成本比例(%)y
1
550
23
2
910
19
3
1550
14
4
2660
6
5
2160
9
6
4450
5.7
7
5750
5.5
8
6930
4.1
9
7120
3.3
10
8150
4.2
图11-3数据集
(2)打开曲线估计主对话框。
单击Regression
CurveEstimation,打开主对话框(CurveEstimation窗口)。
如图11-4所示。
图11-4CurveEstimation窗口
①选择y移入因变量框.选择x移入自变量框.
②在Model栏内选择曲线估计模型,根据散点图,选择以下两种模型:
Quadratic(二次曲线模型),cubic(三次曲线模型)。
也可以选择Linear(线性模型)、Compound(复合模型)、Growth(生长曲线模型)、Logarithmic(对数曲线模型)、S曲线模型、Exponentia1(指数曲线模型)、Inverse(逆曲线模型)、Power(幂指曲线模型)、Logistic(逻辑曲线模型).
③选择displayANOVAtable,其余选项系统默认。
(3)单击0K按钮,得到以下结果。
①QUADRATIC(二次曲线模型)拟合结果如表11-4所示。
表中各项的意义为:
●拟合的二次曲线模型的复相关系数R值为0.956、R平方值为0.914、经校正的R平方值为0.889,标准误差为2.307。
根据相关系数值判断因变量劳动力成本比例和自变量产量之间具有较为显著的二次函数关系。
●Coefficients表显示回归系数B的数值,从而拟合的二次曲线回归方程式为:
y=24.557-0.007x+(6.3E-007)x2
表11-4二次曲线模型拟合结果如表
ModelSummary
R
RSquare
AdjustedRSquare
Std.ErroroftheEstimate
.956
.914
.889
2.307
Theindependentvariableis产量.
Coefficients
UnstandardizedCoefficients
StandardizedCoefficients
t
Sig.
B
Std.Error
Beta
产量
-.007
.001
-3.022
-5.593
.001
产量**2
6.30E-007
.000
2.231
4.129
.004
(Constant)
24.557
2.126
11.551
.000
②Cubic(三次曲线模型)拟合结果如表11-5所示。
表中各项的意义为:
●拟合的三次曲线模型的复相关系数R值为0.990,说明因变量劳动力成本比例和自变量产量之间具有极为显著的三次函数关系。
因此,用三次曲线模型回归比较合适。
●Coefficients表显示回归系数B的数值,从而拟合的三次曲线回归方程式为:
y=30.101-0.015x+(2.66E-006)x2-(1.58E-010)x3
表11-5三次曲线模型拟合结果如表
ModelSummary
R
RSquare
AdjustedRSquare
Std.ErroroftheEstimate
.990
.980
.969
1.210
Theindependentvariableis产量.
Coefficients
UnstandardizedCoefficients
StandardizedCoefficients
t
Sig.
B
Std.Error
Beta
产量
-.015
.002
-5.919
-8.272
.000
产量**2
2.66E-006
.000
9.438
5.689
.001
产量**3
-1.58E-010
.000
-4.420
.
.
(Constant)
30.101
1.681
17.909
.000
(三)多元线性回归分析
多个自变量与一个因变量之间的线性依存关系就是多元线性回归方程:
Y=b0+b1x1+b2x2+...+bmxm
其中,Y为因变量的估计值;x1,x2,...,xm为自变量,m为自变量个数;b0为回归方程的常数项;b1,b2,...,bm为偏回归系数。
著名统计软件SPSS(v13.0)提供了5种建立多元线性回归方程的方法。
●Enter:
所有选择的自变量全部进入回归方程,Enter方式为系统默认的方式。
●Stepwise:
逐步回归方式。
●Remove:
移除法,在建立的回归方程中,根据设定的条件剔除部分自变量。
●Backward:
向后剔除法.
●Forward:
向前剔除法。
[例11-3]已知我国文教费用增幅与国民收入增幅、财政支出增幅、行政费增幅的数据资料如表11-6所示。
试建立国民收入增幅(x1)、财政支出增幅(x2)、行政费增幅(x3)对文教费用增幅(y)的全回归模型(Enter)线性回归方程
表11-6
年份
国民收
入增幅
财政支出增幅
行政费增幅
文教费增幅
1990
0.10
0.092008
0.073267
0.103480
1991
0.17
0.098272
-0.00133
0.151896
1992
0.23
0.104996
0.119321
0.141788
1993
0.30
0.240527
0.36868
0.214561
1994
0.35
0.247791
0.336487
0.274351
1995
0.25
0.178002
0.175609
0.169953
1996
0.16
0.163229
0.189395
0.184344
1997
0.10
0.163276
0.146438
0.186882
1998
0.05
0.169449
0.177665
0.186849
1999
0.05
0.221286
0.262662
0.241560
2000
0.09
0.204648
0.369999
0.204953
2001
0.09
0.189852
0.268862
0.189011
2002
0.08
0.166674
0.167639
0.136451
2003
0.11
0.117752
0.143841
0.091954
本例为多元线性回归分析问题,分析步骤如下:
(1)建立数据文件。
据表中数据资料定义变量:
(国民收入增幅)、
(财政支出增幅)、
(行政费增幅)、
(文教费用增幅)。
输入数据并建立数据文件如图11-5。
(2)对话框选项选择。
①打开主对话框
单击Regression
Linear,打开主对话框(LinearRegression窗口),见图11-6。
选择Y为因变量,
、
、
为自变量。
图11-5数据文件
图11-6主对话框
②选择Enter作为变量进入方式,即进行全回归。
③在Statistics对话框里选择Estimate、Modelfit、Discriptives、Durbin-watson。
④选择Plot对话框的残差直方图、残差正态概率图。
并要求输出散点图。
⑤Options对话框选项选择默认选项。
各选项确认以后,单击OK按钮交系统运行。
(3)输出结果。
表11-7模型回归系数表
Coefficients(a)
Model
UnstandardizedCoefficients
StandardizedCoefficients
t
Sig.
B
Std.Error
Beta
1
(Constant)
.006
.032
.177
.863
x1
.042
.077
.080
.543
.599
x2
1.195
.335
1.216
3.563
.005
x3
-.181
.154
-.397
-1.177
.267
aDependentVariable:
y
Coefficients表显示回归系数B的数值,从而拟合的多元线性回归方程式为:
y=0.006+0.042x1+1.195x2-0.181x3.
二、相关分析
这里只介绍二元变量的相关分析过程。
我们通过一个具体实例来说明进行二元变量相关分析的步骤。
[例11-4]从某校学生中随机抽出11个学生,调查他们英语、高等数学、管理概论、数理统计等4门功课的考试成绩,数据文件如图11-7所示。
试用二元变量相关分析过程分析各科成绩之间是否存在线性相关关系。
图11-7学生成绩数据
方法如下:
(1)执行analyze
correlate
Bivariate(二元变量),打开BivariateCorrelations对话框,如图11-8所示。
图11-8BivariateCorrelations对话框,
选择变量“英语、高等数学、管理概论、数理统计”移入Variables框中,按照图11-8设置选项。
(2)打开Options对话框,按照图11-9设置选项。
图11-9Options对话框
(3)在图11-6中单击Continue按钮,回到图11-8。
(4)单击主对话框(图11-8)中的0K提交系统运行。
(5)输出结果及分析如下:
1描述统计量表,如表11-8所示。
表11-8描述统计量表
DescriptiveStatistics
Mean
Std.Deviation
N
英语
82.2727
5.96810
11
高等数学
84.0000
4.95984
11
管理概论
82.0909
7.73892
11
数理统计
79.1818
8.89739
11
表中各行数据分别为4门功课的平均成绩、标准差及样本容量。
②相关矩阵表,如表11-9所示。
表11-9相关矩阵表
Correlations
英语
高等数学
管理概论
数理统计
英语
PearsonCorrelation
1
.429
.493
.611(*)
高等数学
PearsonCorrelation
.429
1
.680(*)
.455
管理概论
PearsonCorrelation
.493
.680(*)
1
.796(**)
数理统计
PearsonCorrelation
.611(*)
.455
.796(**)
1
在表11-9中,每个行变量与列变量交叉单元格处是二者的相关统计量值。
例如,英语成绩与高等数学、管理概论、数理统计之间的相关系数依次为O.429、0.493、0.611。
第二节计算机在平均数和标准差计算中的应用
一、平均数的计算
表达形式:
AVERAGE(number1,number2,...)。
以学生成绩为例,若计算全班高等数学成绩的平均数,则先选定要放置结果的单元格后输入=AVERAGE(D2:
D12)按确定即可,如图11-10所示向导。
图11-10平均数的计算
二、标准差的计算
仍用学生成绩为例,若计算全班高等数学成绩的标准差,则先选中要放置结果的单元格,后输入=STDEV(D2:
D12)按确定即可,如图11-11所示向导。
图11-11标准差的计算