整理应用回归分析上机指导.docx

资源描述

整理应用回归分析上机指导.docx

《整理应用回归分析上机指导.docx》由会员分享，可在线阅读，更多相关《整理应用回归分析上机指导.docx（35页珍藏版）》请在冰豆网上搜索。

整理应用回归分析上机指导.docx

整理应用回归分析上机指导

试验一一元线性回归分析

试验目的：

通过上机试验，使学生掌握一元线性回归分析的基本原理，熟悉软件操作过程，能对软件输出结果进行分析。

试验数据：

例一．一家保险公司十分关心其总公司营业部加班的程度，决定认真调查一下现状。

经过10周时间，收集了每周加班工作时间的数据和签发的新保单数目，x为每周签发的新保单数目，y为每周加班工作时间（小时）。

见表1.1

表11

周序号

825

215

1070

550

480

920

1350

325

670

1215

3.5

1.0

4.0

2.0

1.0

3.0

4.5

1.5

3.0

5.0

问Y与X之间是否存在显著的线性结果分析，用最小二乘估计求出回归方程，并作相应分析。

软件实现步骤：

1．在SPSS的数据编辑窗口中输入表1.1中的数据。

在“Analyze”菜单中选择“Regression”中的Linear命令。

2．在弹出的LinearRegression对话框中，从对话框左侧的变量列表中选择Y变量，单击Dependent框旁的箭头按钮，使之添加到Dependent框中，表示该变量是因变量，选择X变量，单击Inderndent（s）框旁的箭头按钮，使之添加到Inderndent（s）框中，表示其为自变量。

3．单击OK按钮，即可得到SPSS回归分析的结果。

软件输出结果：

结果分析：

1．输出结果文件中的第一个表格输出的是被引入或从回归方程中被剔除的各变量。

这部分结果说明在对编号为1的模型（Model）进行线性回归分析时所采用的方法是全部引入法：

Enter。

2．输出的结果文件中第二个表格输出的是常用统计量。

从这部分结果看出相关系数R=0.949，判定系数R2=0.900，调整的判定系数R2=0.888，回归估计的标准误差S=0.48002。

说明样本回归方程的代表性强。

3．输出的结果文件中第三表格是方差分析表。

从这部分结果看出：

统计量F=72.396；相伴概率值p＜０.001。

说明自变量x与因变量y之间确有线性回归关系。

另外，SumofSquares一栏中分别代表回归平方和（16.682）、残差平方和（1.843）以及总平方和（18.525），Ｄf为自由度。

４．输出的结果文件中第四个表格是回归系数分析。

其中，UnstandadizedCoefficients为非标准化系数，ＳtandadizedCoefficients为标准化系数，t为回归系数检验统计量，Sig为相伴概率值。

从表格中可以看出估计值及其检验结果，常数项Ｂ0=0.118，回归系数Ｂ１＝０.003585，回归系数检验统计量t=8.509，相伴概率值p＜０.001。

说明回归系数与０有显著差别，该回归方程有意义：

Ｙ＝0.118+0.003585X

试验二多元线性回归分析

试验目的：

通过上机试验，使学生掌握多元线性回归分析的基本原理，熟悉软件操作过程，能对软件输出结果进行分析。

试验数据：

例二：

研究货运总量y（万吨）与工业总产值x1（亿元）、农业总产值x2（亿元）、居民非商品支出x３（亿元）的关系。

数据见表2.1

表2.1

编号

货运总量　　y（万吨）

工业总产值x1（亿元）

农业总产值x2（亿元）

居民非商品支出x３（亿元）

１

160

1.0

260

2.4

210

2.0

265

3.0

240

1.2

220

1.5

275

4.0

160

2.0

275

3.2

250

3.0

问Y与X之间是否存在显著的线性结果分析，用最小二乘估计求出回归方程，并作相应分析。

软件实现步骤：

1．在SPSS的数据编辑窗口中输入表2.1中的数据。

在“Analyze”菜单中选择“Regression”中的Linear命令。

2．在弹出的LinearRegression对话框中，从对话框左侧的变量列表中选择Y变量，单击Dependent框旁的箭头按钮，使之添加到Dependent框中，表示该变量是因变量，选择X1，X2、，X3变量，单击Inderndent（s）框旁的箭头按钮，使之添加到Inderndent（s）框中，表示其为自变量。

3．单击LinearRegression对话框中的Statistics按钮，Statistics对话框，用来选择输出哪些统计量，本试验中，我们选择如下几项：

Estimates：

SPSS默认的输出项.输出与回归系数相关统计量。

如回归系数、回归系数的标准误差、标准回归系数、t统计师长相应的相伴概率值（sig）、各自变量的容忍度等。

Confidenceintervals：

输出每一个非标准化回归系数95%的可信区间。

Modelfit：

输出判定系数、调整的判定系数、回归方程的标准误差，F检验的ANOVA方差分析表。

该选项为默认选项。

Descriptives：

输出自变量和因变量的均值、标准差相关系数矩阵用单侧检验概率。

单击Continue按钮回到LinearRegression对话框。

4．单击LinearRegression对话框中的Save按钮，打开Save对话框，PredictedValues（即预测值栏）中选择Unstandardized（即保存均值的预测区间）和Indiviual（即保存单个新值的预测区间）。

然后单击Continue按钮回到LinearRegression对话框。

5．单击OK按钮，即可得到SPSS分析的结果。

软件部分输出结果：

结果分析：

1、回归方程为Y=-348.280+3.754X1+7.101X2+12.447X3

2．决定系数R2=0.806修正后的决定系数为R=0.708

由决定系数看回归方程拟合效果还可以。

3．方差分析表，D=8.283，P值=0.015表明回归方程较显著，说明X1、X2、X3整体上对Y有效显著的线性影响。

4．回归系数的显著性检验：

t1=1.942，P1=0.100，t2=2.465，P2=0.049，表明X1，X2对Y有效显著影响（取a=0.1），t3=1.178，P3=0.284＞0.1，表明X3对Y没有显著影响,可以考虑从回归方程中剔除X3，仅以X1，X2为自变量，重新对Y作回归方程,具体软件操作步骤同前。

从而得到新的回归方程为Y=-459.3624+4.676X1+8.971X2；标准化方程为Y=0.479X1+0.676X2

F=11.117，P=0.007，说明方程整体显著。

T1=2.575，P1=0.037，P2=0.08，表明X1，X2对Y均有显著影响

每一个系数（包括常数项）的置信水平为95%的置信区间依次为[-821.54，-97.700]、[0.381，8.970]，[3.134，14.808]。

当X01=75，X02=42时，则Y=267.8290。

给定置信水平为99%，Y0的预测区间为[226.5961，309.0619]。

试验三异方差问题及其处理

试验目的：

通过上机试验，使学生掌握异方差性的论断及处理，熟悉软件操作过程，能对软件输出结果进行分析。

试验数据：

例三：

为了探索社会保障与就业者人数的规律，我们以1989年全国30个省、市、自治区国有单位劳动保险费用总额为被解释变量y，以相应的国有单位劳动者人数作为解释变量x。

数据来自国家统计局社会统计司编《中国社会统计资料（1990）》。

见表3.1

表3.1

省、市、自治区\变量

Y（万元）

X（万元）

北京

13.94

336.40

天津

9.90

214.00

河北

12.66

482.30

山西

7.91

327.10

内蒙古

7.12

268.30

辽宁

26.56

650.80

吉林

12.43

343.70

黑龙江

19.19

588.00

上海

23.26

405.20

江苏

16.15

527.50

浙江

9.39

274.30

安徽

8.26

322.00

福建

5.34

211.00

江西

7.66

293.80

山东

15.24

528.30

河南

13.14

508.00

湖北

14.07

03.90

湖南

12.40

401.80

广东

19.06

503.20

广西

5.89

246.10

海南

2.23

92.90

四川

21.93

683.70

贵州

4.69

176.30

云南

7.98

237.60

西藏

0.64

14.90

陕西

9.88

297.50

甘肃

5.72

188.30

青海

2.43

55.30

宁夏

1.62

53.00

新疆

9.04

248.50

软件实现步骤：

1．在SPSS的数据编辑窗口中输入表3.1中的数据。

在“Analyze”菜单中选择“Regression”中的Linear命令。

3．单击Save按钮，打开Save对话框，在Residuals（即残差栏）中选择Unstandavdized（即非标准化残差），然后单击Continue按钮，回到linearReression对话框。

4．单击OK按钮。

5．回到SPSS数据编辑窗口，在“Tvansform”菜单中选择Comput项，打开ComputVaviable（计算机变量）对话框，在该对话框中的TargetVaviable（目标变量）框中输入符合变量命令规则的变量名，这里将新变量命为ABSE。

NumevicExpression（数值表达式）框用于输入计算目标量值的表达式，这里的表达式为abs（e），然后单击OK得到新的变量值ABSE。

6．回到数据编辑窗口，在Analyze下拉菜单中选择Correlate—Bivaviate—Speaman，计算ＡＢＳＥ与Ｘ的等级相关系数。

７．此时发现原回归方程存在差异方差性。

用方差定化变换方法来处理该问题。

因此回到数据编辑窗口，在“Tvansform”菜单中选择Comput项，进行数据变换。

Ｙ１＝Logy。

（同步骤５）。

回到数据编辑窗口，建立Ｙ１与Ｘ的回归方程，并保存非标准化残差，然后参照步骤５与步骤６，计算出新的回归方程，ＡＢＳＥ与Ｘ的等级相关系数。

发现新的回归方程不存在异方差性。

部分输出结果：

下面是用方差稳定化变换方法（令y1=logy）对原数据进行处理以后的结果：

结果分析：

1．原回归方程为y=-0.364+0.03372x

2．R2=0.827，说明方程的拟合优度可以；F=134.033，显著性sig=0.000，说明线性回归方程整体显著；自变量x的t值为11.577，显著性sig=0.000，说明x对y有显著影响。

3．从残差图看出，误差项具有明显的异方差性，误差随着x的增加而增加。

残差绝对值与x的等级相关系数rs=0.450,p值=0.013<0.05，可以认为残差绝对值与自变量x显著相关，存在异方差。

用方差稳定化变换处理后的结果分析如下：

4．标准化回归方程为：

y/=0.884x/，其回归系数表明国有企业劳动者人数每增长1%，相应的国有企业劳动保险费用总额平均增长00884%。

5．R2=0.782，说明新的方程拟合优度可以；F=100.213，显著性sig=0.000，说明新的线性回归方程整体显著；自变量x的t值为10.011，显著性sig=0.000，说明x对y有显著影响。

6．从残差图看出，误差项的异方差性已被消除。

残差绝对值与x的等级相关系数rs=-0.014，p值=0.943>0.05，可以认为残差绝对值与自变量x不存在显著相关，新方程不存在异方差性。

试验四自相关问题及其处理

试验目的：

通过上机试验，使学生掌握序列自相关的论断及处理，熟悉软件操作过程，能对软件输出结果进行分析。

试验数据

例四：

根据《中国统计年鉴（1993）》的资料，我们来研究财政支出模型。

其理论模型为：

yt=β0+β1xt+

其中，y表示财政支出，x表示财政可支配收入（财政可支配收入＝财政收入＋国债余额＋外债余额＋财政向银行借款），具体数据见表4.1

专项规划中的指导性规划　环境影响篇章或说明

意愿调查评估法（简称CV法）是指通过调查等方法，让消费者直接表述出他们对环境物品或服务的支付意愿（或接受赔偿意愿），或者对其价值进行判断。

在很多情形下，它是唯一可用的方法。

如用于评价环境资源的选择价值和存在价值。

规划审批机关在审批专项规划草案时，应当将环境影响报告书结论以及审查意见作为决策的重要依据。

（1）环境的使用价值。

环境的使用价值（UV）又称有用性价值，是指环境资源被生产者或消费者使用时，满足人们某种需要或偏好所表现出的价值，又分为直接使用价值、间接使用价值和选择价值。

表4.1单位:

亿元

《中华人民共和国环境保护法》和其他相关法律还规定：

“建设项目防治污染的设施，必须与主体工程同时设计，同时施工，同时投产使用（简称“三同时”）。

防治污染的设施必须经原审批环境影响报告书的环境保护行政部门验收合格后，该建设项目方可投入生产或者使用。

”“三同时”制度和建设项目竣工环境保护验收是对环境影响评价的延续，从广义上讲，也属于环境影响评价范畴。

年份

在可行性研究时应进行安全预评价的建设项目有：

年份

规划编制单位应当在报送审查的环境影响报告书中附具对公众意见采纳与不采纳情况及其理由的说明。

1952

176.000

183.700

2）购买环境替代品。

1973

809.300

809.700

1953

（三）安全评价的内容和分类220.100

（1）内涵资产定价法222.900

1974

790.800

783.100

1954

246.300

262.400

1975

820.900

815.600

1955

269.300

272.000

1976

806.200

776.600

1956

305.700

287.400

1977

843.500

874.500

1957

304.200

310.200

1978

1111.000

1121.100

1958

409.400

387.600

1979

1273.900

1193.500

1959

552.900

487.100

1980

1212.700

1255.400

1960

654.100

572.300

1981

1115.000

1308.360

1961

367.000

356.100

1982

1153.300

1386.690

1962

305.300

313.600

1983

1292.500

1582.670

1963

339.600

342.300

1984

1546.400

1939.300

1964

399.000

399.500

1985

1844.800

2848.501

1965

466.300

473.300

1986

2330.800

3723.389

1966

541.600

558.700

1987

2448.500

4405.420

1967

441.900

419.400

1988

2706.600

5257.602

1968

359.800

361.300

1989

3040.200

6320.940

1969

525.900

526.800

1990

3452.200

7736.422

1970

649.400

662.900

1991

3813.600

8929.667

1971

732.200

744.700

1992

4389.700

10688.090

1972

776.400

766.600

软件实现步骤：

1．在SPSS的数据编辑窗口中输入表４.1中的数据。

在“Analyze”菜单中选择“Regression”中的Linear命令。

3．单击Statistics按钮，打开Statistics对话框，在Residuals框中选择Ｄurbin--Watson即输出Ｄ.Ｗ检验值，然后单击Continue按钮，回到linearReression对话框。

4．单击OK按钮。

根据以上输出结果，发现原回归方程存在自相关问题，我你用选代法来处理这个问题。

5．回到数据编辑窗口，按照试验三的步骤５，对数据做变换：

Ｙ１＝Ｙe-0.914034Yt-1，X1=Xt-0.914034Xt-1。

6．以Ｙ１为因变量，Ｘ１为自变量，建立新的回归方程，用普通最小二乘法估计其参数，并输出相应的Ｄ.Ｗ值。

操作方法同本试验步骤２，步骤３，步骤４。

新的方程已不存在序列相关。

部分输出结果：

（其中，E1=lag（unstandardizedresidual））

用迭代法对原数据处理后，输出结果如下：

结果分析：

1．原回归方程为y=392.505+0.409x

2．R2=0.960，说明方程的拟合优度可以；F=939.018，显著性sig=0.000，说明线性回归方程整体显著；自变量x的t值为30.643，显著性sig=0.000，说明x对y有显著影响。

3．从所给散点图看出，误差项存在正自相关。

另外DW=0.172，查DW表，n=41，k=2，显著性水平α=0.05，得dl=1.44,du=1.55。

由于0

用迭代法处理原数据后，输出结果分析如下：

4．标准化回归方程为：

y/=0.942x1/，其回归系数表明财政可支配收入每增长1%，财政支出平均增长0.942%。

5．R2=0.887，说明新的方程拟合优度可以；F=297.423，显著性sig=0.000，说明新的线性回归方程整体显著；自变量x1的t值为17.246，显著性sig=0.000，说明x对y有显著影响。

6．DW=1.653，查DW表，n=40，k=2，显著性水平α=0.05，得dl=1.44,du=1.54。

由于du=1.54

试验五多重共线性问题及其处理

试验目的：

通过上机试验，使学生掌握多重共线性论断及其处理，熟悉软件操作过程，能对软件输出结果进行分析。

试验数据：

例五：

中国民航客运量的回归模型。

为了研究我国民航客运量的变化趋势及其成因，我们以民航客运量作为因变量y，以国民收入、消费额、铁路客运量，、民航航线里程、来华旅游入镜人数为影响民航客运量的主要因素。

Y表示民航客运量（万人），x1表示国民收入（亿元），x2表示消费额（亿元），x3表示铁路客运量（万人）、x4表示民航航线里程（万公里）、x5表示来华旅游入镜人数（万人）。

根据《1994年统计摘要》获得1987—1993年统计数据，见表5.1

表5.1

年份量

1978

231

3010

1888

81491

14.89

180.92

1979

298

3350

2195

86389

16.000

420.39

1980

343

3688

2531

92204

19.53

570.25

1981

401

3941

2799

95300

21.82

776.71

1982

445

4258

3054

99922

23.27

792.43

1983

391

4736

3358

106044

22.91

947.70

1984

554

5652

3905

110353

26.02

1285.22

1985

744

7020

4879

112110

27.72

1783.30

1986

997

7859

5552

108579

32.43

2281.95

1987

1310

9313

6386

112429

38.91

2690.23

1988

1442

11738

8038

122645

37.38

3169.48

1989

1283

13176

9005

113807

47.19

2450.14

1990

1660

14384

9663

95712

50.68

2746.20

1991

2178

16557

10969

95081

55.91

3335.65

1992

2886

20223

12985

99693

83.66

3311.50

1993

3383

24882

15949

105458

96.08

4152.70

软件实现步骤：

1．在SPSS的数据编辑窗口中输入表５.1中的数据。

在“Analyze”菜单中选择“Regression”中的Linear命令。

3．单击LinearRegression对话框中的Statistics按钮，打开Statistics对话框，选择Collinearitydiagnostics（即多重共线性分析），然后单击Continue按钮，回到linearReression对话框。

4．单击OK按钮。

得到初步分析的结果。

此时，我你发现原回归方程存在多重共线性问题。

于是，依次剔除方差扩大者所对应的自变量，仿效作上述诊断，直到消除多重共线性为止。

部分输出结果：

剔除x1后的输出结果如下：

继续剔除x2后的输出结果如下：

结果分析：

1、原回归方程为

展开阅读全文