实用统计学第十一章.docx

资源描述

实用统计学第十一章.docx

《实用统计学第十一章.docx》由会员分享，可在线阅读，更多相关《实用统计学第十一章.docx（16页珍藏版）》请在冰豆网上搜索。

实用统计学第十一章.docx

实用统计学第十一章

第十一章计算机在统计分析中的应用

第一节计算机在回归分析和相关分析中的应用

本节介绍使用著名统计软件SPSS进行回归分析和相关分析的方法。

一、回归分析

（一）一元线性回归分析

[例11-1]某地国民收入（亿元）与农民人均纯收入（元）历年对应数据如表11-1，试建立一元线性回归方程。

表11-1

年份

国民收入

农民人均纯收入

1991

16917.8

601.5

1992

18598.4

686.3

1993

21662.5

708.6

1994

26651.9

784.0

1995

34560.5

921.6

1996

46670.0

1221.0

1997

57494.9

1577.7

1998

66850.5

1926.1

1999

73142.7

2090.1

2000

76967.2

2162.0

2001

80579.4

2210.3

2002

88254.0

2253.4

2003

95727.9

2366.4

2004

103935.3

2475.6

2005

116603.2

2622.2

方法如下：

（1）进入SPSS系统，建立数据集（见图11-1）。

图11-1数据集

（2）单击Analyze

Regression

Linear，LinearRegression窗口（见图11-2）。

图11-2LinearRegression窗口

（3）按照图11-2进行设置：

农民人均收入是因变量，国民收入是自变量。

（4）单击OK按钮，得到以下回归结果。

表11-2回归结果

Coefficients（a）

Model

UnstandardizedCoefficients

StandardizedCoefficients

Sig.

Std.Error

Beta

（Constant）

265.046

73.998

3.582

.003

国民收入

.022

.001

.985

20.902

.000

aDependentVariable:

农民人均收入

得到直线回归方程：

y=265.046+0.022x

（二）一元非线性回归分析

为了决定选择的曲线类型，常用的方法是根据数据资料描绘出散点图，应用必要的专业知识和经验分析变量之间的函数关系。

在确定了变量间的函数关系后，需要估计函数关系中的未知参数，并对拟合效果进行显著性检验。

统计学中，称待建立的曲线方程为曲线回归方程。

SPSS的CurveEstimation（曲线估计过程）就是用来解决这类问题的。

它提供了11种不同的曲线估计回归模型，可以同时选用几种模型进行曲线拟合，然后根据回归统计的结果，以及观察数据散点图，通过对比以确定一个最佳的曲线模型。

[例11-2]表11-3列出了某厂10种产品产量（x）与该产品劳动力成本占总成本的比例（y）的资料，研究这两变量间的数量关系。

试运用曲线估计过程确定变量劳动力成本比例与产量之间的定量关系。

分析步骤如下：

（1）根据表11-3的数据资料，定义变量建立数据文件，如图11-3所示。

表11-3产品产量与该产品劳动力成本比例数据

产品序号

产量（台）x

劳动力成本比例（%）y

550

910

1550

2660

2160

4450

5.7

5750

5.5

6930

4.1

7120

3.3

8150

4.2

图11-3数据集

（2）打开曲线估计主对话框。

单击Regression

CurveEstimation，打开主对话框（CurveEstimation窗口）。

如图11-4所示。

图11-4CurveEstimation窗口

①选择y移入因变量框．选择x移入自变量框.

②在Model栏内选择曲线估计模型，根据散点图，选择以下两种模型：

Quadratic（二次曲线模型），cubic（三次曲线模型）。

也可以选择Linear（线性模型）、Compound（复合模型）、Growth（生长曲线模型）、Logarithmic（对数曲线模型）、S曲线模型、Exponentia1（指数曲线模型）、Inverse（逆曲线模型）、Power（幂指曲线模型）、Logistic（逻辑曲线模型）.

③选择displayANOVAtable，其余选项系统默认。

（3）单击0K按钮，得到以下结果。

①QUADRATIC（二次曲线模型）拟合结果如表11-4所示。

表中各项的意义为：

●拟合的二次曲线模型的复相关系数R值为0.956、R平方值为0.914、经校正的R平方值为0.889，标准误差为2.307。

根据相关系数值判断因变量劳动力成本比例和自变量产量之间具有较为显著的二次函数关系。

●Coefficients表显示回归系数B的数值，从而拟合的二次曲线回归方程式为：

y=24.557-0.007x+（6.3E-007）x2

表11-4二次曲线模型拟合结果如表

ModelSummary

RSquare

AdjustedRSquare

Std.ErroroftheEstimate

.956

.914

.889

2.307

Theindependentvariableis产量.

Coefficients

UnstandardizedCoefficients

StandardizedCoefficients

Sig.

Std.Error

Beta

产量

-.007

.001

-3.022

-5.593

.001

产量**2

6.30E-007

.000

2.231

4.129

.004

（Constant）

24.557

2.126

11.551

.000

②Cubic（三次曲线模型）拟合结果如表11-5所示。

表中各项的意义为：

●拟合的三次曲线模型的复相关系数R值为0.990，说明因变量劳动力成本比例和自变量产量之间具有极为显著的三次函数关系。

因此，用三次曲线模型回归比较合适。

●Coefficients表显示回归系数B的数值，从而拟合的三次曲线回归方程式为：

y=30.101-0.015x+（2.66E-006）x2-（1.58E-010）x3

表11-5三次曲线模型拟合结果如表

ModelSummary

RSquare

AdjustedRSquare

Std.ErroroftheEstimate

.990

.980

.969

1.210

Theindependentvariableis产量.

Coefficients

UnstandardizedCoefficients

StandardizedCoefficients

Sig.

Std.Error

Beta

产量

-.015

.002

-5.919

-8.272

.000

产量**2

2.66E-006

.000

9.438

5.689

.001

产量**3

-1.58E-010

.000

-4.420

（Constant）

30.101

1.681

17.909

.000

（三）多元线性回归分析

多个自变量与一个因变量之间的线性依存关系就是多元线性回归方程：

Y=b0+b1x1+b2x2+...+bmxm

其中，Y为因变量的估计值；x1，x2，...，xm为自变量，m为自变量个数；b0为回归方程的常数项；b1，b2，...，bm为偏回归系数。

著名统计软件SPSS（v13.0）提供了5种建立多元线性回归方程的方法。

●Enter：

所有选择的自变量全部进入回归方程，Enter方式为系统默认的方式。

●Stepwise：

逐步回归方式。

●Remove：

移除法，在建立的回归方程中，根据设定的条件剔除部分自变量。

●Backward：

向后剔除法.

●Forward：

向前剔除法。

[例11-3]已知我国文教费用增幅与国民收入增幅、财政支出增幅、行政费增幅的数据资料如表11-6所示。

试建立国民收入增幅（x1）、财政支出增幅（x2）、行政费增幅（x3）对文教费用增幅（y）的全回归模型（Enter）线性回归方程

表11-6

年份

国民收

入增幅

财政支出增幅

行政费增幅

文教费增幅

1990

0.10

0.092008

0.073267

0.103480

1991

0.17

0.098272

-0.00133

0.151896

1992

0.23

0.104996

0.119321

0.141788

1993

0.30

0.240527

0.36868

0.214561

1994

0.35

0.247791

0.336487

0.274351

1995

0.25

0.178002

0.175609

0.169953

1996

0.16

0.163229

0.189395

0.184344

1997

0.10

0.163276

0.146438

0.186882

1998

0.05

0.169449

0.177665

0.186849

1999

0.05

0.221286

0.262662

0.241560

2000

0.09

0.204648

0.369999

0.204953

2001

0.09

0.189852

0.268862

0.189011

2002

0.08

0.166674

0.167639

0.136451

2003

0.11

0.117752

0.143841

0.091954

本例为多元线性回归分析问题，分析步骤如下：

（1）建立数据文件。

据表中数据资料定义变量：

（国民收入增幅）、

（财政支出增幅）、

（行政费增幅）、

（文教费用增幅）。

输入数据并建立数据文件如图11-5。

（2）对话框选项选择。

①打开主对话框

单击Regression

Linear，打开主对话框（LinearRegression窗口），见图11-6。

选择Y为因变量，

、

为自变量。

图11-5数据文件

图11-6主对话框

②选择Enter作为变量进入方式，即进行全回归。

③在Statistics对话框里选择Estimate、Modelfit、Discriptives、Durbin-watson。

④选择Plot对话框的残差直方图、残差正态概率图。

并要求输出散点图。

⑤Options对话框选项选择默认选项。

各选项确认以后，单击OK按钮交系统运行。

（3）输出结果。

表11-7模型回归系数表

Coefficients（a）

Model

UnstandardizedCoefficients

StandardizedCoefficients

Sig.

Std.Error

Beta

（Constant）

.006

.032

.177

.863

.042

.077

.080

.543

.599

1.195

.335

1.216

3.563

.005

-.181

.154

-.397

-1.177

.267

aDependentVariable:

Coefficients表显示回归系数B的数值，从而拟合的多元线性回归方程式为：

y=0.006+0.042x1+1.195x2-0.181x3.

二、相关分析

这里只介绍二元变量的相关分析过程。

我们通过一个具体实例来说明进行二元变量相关分析的步骤。

[例11-4]从某校学生中随机抽出11个学生，调查他们英语、高等数学、管理概论、数理统计等4门功课的考试成绩，数据文件如图11-7所示。

试用二元变量相关分析过程分析各科成绩之间是否存在线性相关关系。

图11-7学生成绩数据

方法如下：

（1）执行analyze

correlate

Bivariate（二元变量），打开BivariateCorrelations对话框，如图11-8所示。

图11-8BivariateCorrelations对话框，

选择变量“英语、高等数学、管理概论、数理统计”移入Variables框中，按照图11-8设置选项。

（2）打开Options对话框，按照图11-9设置选项。

图11-9Options对话框

（3）在图11-6中单击Continue按钮，回到图11-8。

（4）单击主对话框（图11-8）中的0K提交系统运行。

（5）输出结果及分析如下：

1描述统计量表，如表11-8所示。

表11-8描述统计量表

DescriptiveStatistics

Mean

Std.Deviation

英语

82.2727

5.96810

高等数学

84.0000

4.95984

管理概论

82.0909

7.73892

数理统计

79.1818

8.89739

表中各行数据分别为4门功课的平均成绩、标准差及样本容量。

②相关矩阵表，如表11-9所示。

表11-9相关矩阵表

Correlations

英语

高等数学

管理概论

数理统计

英语

PearsonCorrelation

.429

.493

.611（*）

高等数学

PearsonCorrelation

.429

.680（*）

.455

管理概论

PearsonCorrelation

.493

.680（*）

.796（**）

数理统计

PearsonCorrelation

.611（*）

.455

.796（**）

在表11-9中，每个行变量与列变量交叉单元格处是二者的相关统计量值。

例如，英语成绩与高等数学、管理概论、数理统计之间的相关系数依次为O．429、0.493、0.611。

第二节计算机在平均数和标准差计算中的应用

一、平均数的计算

表达形式：

AVERAGE（number1,number2,...）。

以学生成绩为例，若计算全班高等数学成绩的平均数，则先选定要放置结果的单元格后输入＝AVERAGE（D2：

D12）按确定即可，如图11-10所示向导。

图11-10平均数的计算

二、标准差的计算

仍用学生成绩为例，若计算全班高等数学成绩的标准差，则先选中要放置结果的单元格，后输入＝STDEV（D2:

D12）按确定即可，如图11-11所示向导。

图11-11标准差的计算

展开阅读全文