回归分析论文.docx

上传人:b****8 文档编号:10290155 上传时间:2023-02-09 格式:DOCX 页数:23 大小:313.02KB
下载 相关 举报
回归分析论文.docx_第1页
第1页 / 共23页
回归分析论文.docx_第2页
第2页 / 共23页
回归分析论文.docx_第3页
第3页 / 共23页
回归分析论文.docx_第4页
第4页 / 共23页
回归分析论文.docx_第5页
第5页 / 共23页
点击查看更多>>
下载资源
资源描述

回归分析论文.docx

《回归分析论文.docx》由会员分享,可在线阅读,更多相关《回归分析论文.docx(23页珍藏版)》请在冰豆网上搜索。

回归分析论文.docx

回归分析论文

回归分析论文

合肥学院

 

2015-2016第二学期

 

《多元统计分析》课程论文

论文题目回归分析

姓名陈毅

学号1307021036

专业数学与应用数学

(1)

成绩

2015.5

 

一元线性回归分析及其应用

摘要应用一元线性回归分析南极站CAPETOWN68816从1901年到1960年这60年一月份的温度,根据最小二乘法的原理,采用SAS统计软件进行数据的处理,拟合出年份与温度间的线性关系。

分析软件运算的结果,最终得到实际的一元线性关系。

关键词温度与年份一元线性回归t检验

一、线性回归理论

(1)一元线性回归模型

其中

为模型参数,

为随机误差项,X是自变量,Y是因变量。

对(X,Y)进行观察,得到n组样本观测值

,则有

,其中

为x对y的线性影响而形成的系统部分,反映两变量的平均变动关系,即本质特征,

为随机干扰:

各种偶然因素、观察误差和其他被忽视因素的影响。

(2)最小二乘估计

参数

的最小二乘估计量

使误差平方和

达到最小,即

其中

 

正规方程:

,若

可逆,

经验回归方程:

回归拟合值和残差:

回归拟合值:

拟合向量:

残差值:

残差向量:

 

(3)最小二乘估计的性质

(4)回归方程的显著性检验

复相关系数:

决定系数

即修正的

线性模型回归的检验:

 

方差来源

平方和

自由度

F值

回归

误差

总计

RSS

ESS

TSS

p

n-p-1

n-1

 

回归系数检验:

二、问题提出与分析

下表为南极南部海洋站CAPETOWN68816从1901年到1960年这60年一月份的温度,建立建立SAS数据文件,探讨年份与温度的关系。

年份

温度

年份

温度

1901

19.6

1931

23.6

1902

19.3

1932

20.5

1903

19.9

1933

21.3

1904

20.7

1934

22.2

1905

20.8

1935

22.1

1906

19.9

1936

19.4

1907

20.7

1937

21.7

1908

19.8

1938

21.1

1909

21.3

1939

21.8

1910

21.4

1940

22.2

1911

21.1

1941

22.2

1912

20.9

1942

21.4

1913

22.8

1943

20.3

1914

20.4

1944

21.8

1915

22.9

1945

21.2

1916

21.4

1946

20.7

1917

21.6

1947

21.1

1918

21.6

1948

21.8

1919

20.5

1949

21.7

1920

22.7

1950

21.6

1921

20.0

1951

20.5

1922

20.3

1952

21.7

1923

21.0

1953

22.7

1924

22.1

1954

21.4

1925

20.9

1955

22.2

1926

21.8

1956

22.0

1927

22.3

1957

22.3

1928

21.7

1958

21.7

1929

22.5

1959

20.7

1930

21.2

1960

21.9

数据来源:

三、模型建立

设温度为因变量Y,年份为自变量X,建立一元线性回归模型如下:

其中

为模型参数,

为随机误差项。

做出这组数据的散点图如下:

从图中可以看出,因变量与自变量在带状区域内呈线性关系,且因变量随着自变量的增大而增大,所以可以预测这组数据可以用某条直线来拟合,且在回归模型中,

(1)程序

(1):

datach;

inputwendunianfen@@;

cards;

19.61901

19.31902

19.91903

20.71904

20.81905

19.91906

20.71907

19.81908

21.31909

21.41910

21.11911

20.91912

22.81913

20.41914

22.91915

21.41916

21.61917

21.61918

20.51919

22.71920

20.01921

20.31922

21.01923

22.11924

20.91925

21.81926

22.31927

21.71928

22.51929

21.21930

23.61931

20.51932

21.31933

22.21934

22.11935

19.41936

21.71937

21.11938

21.81939

22.21940

22.21941

21.41942

20.31943

21.81944

21.21945

20.71946

21.11947

21.81948

21.71949

21.61950

20.51951

21.71952

22.71953

21.41954

22.21955

22.01956

22.31957

21.71958

20.71959

21.91960

;

procreg;

modelwendu=nianfen;

printcli;

plotwendu*nianfenp.*nianfenl95.*nianfenu95.*nianfen/overlay;

symbol1c=blackv=triangle;

symbol2c=bluev=circle;

symbol3c=greenv=square;

symbol4c=redv=star;

run;

程序

(2):

datach;

inputwendunianfen@@;

cards;

19.61901

19.31902

19.91903

20.71904

20.81905

19.91906

20.71907

19.81908

21.31909

21.41910

21.11911

20.91912

22.81913

20.41914

22.91915

21.41916

21.61917

21.61918

20.51919

22.71920

20.01921

20.31922

21.01923

22.11924

20.91925

21.81926

22.31927

21.71928

22.51929

21.21930

;

procreg;

modelwendu=nianfen;

printcli;

plotwendu*nianfenp.*nianfenl95.*nianfenu95.*nianfen/overlay;

symbol1c=blackv=triangle;

symbol2c=bluev=circle;

symbol3c=greenv=square;

symbol4c=redv=star;

run;

程序(3):

datach;

inputwendunianfen@@;

cards;

23.61931

20.51932

21.31933

22.21934

22.11935

19.41936

21.71937

21.11938

21.81939

22.21940

22.21941

21.41942

20.31943

21.81944

21.21945

20.71946

21.11947

21.81948

21.71949

21.61950

20.51951

21.71952

22.71953

21.41954

22.21955

22.01956

22.31957

21.71958

20.71959

21.91960

;

procreg;

modelwendu=nianfen;

printcli;

plotwendu*nianfenp.*nianfenl95.*nianfenu95.*nianfen/overlay;

symbol1c=blackv=triangle;

symbol2c=bluev=circle;

symbol3c=greenv=square;

symbol4c=redv=star;

run;

(2)程序说明

首先利用DATA补建立数据集ch,INPUT语句中的wendu表示温度,nianfen表示年份。

REG过程中的MODEL语句,nianfen作为回归变量或自变量,而把wendu作为相应变量或因变量。

Printcli可以得到预测值、95%预测上限与下限、残差。

Plot选项可以制出数据点、回归直线和预测界限的图形。

四、模型的检验与分析

(1)程序

(1)输出结果:

程序

(2)输出结果一:

(2)输出结果二:

REG过程

模型:

MODEL1

因变量:

wendu

输出统计量

观测

变量

预测

预测均值

标准误差

95%置信限预测

残差

1

19.6000

20.2140

0.2971

18.4005

22.0275

-0.6140

2

19.3000

20.2753

0.2821

18.4719

22.0787

-0.9753

3

19.9000

20.3366

0.2675

18.5426

22.1307

-0.4366

4

20.7000

20.3980

0.2532

18.6127

22.1833

0.3020

5

20.8000

20.4593

0.2394

18.6820

22.2366

0.3407

6

19.9000

20.5207

0.2261

18.7507

22.2906

-0.6207

7

20.7000

20.5820

0.2134

18.8186

22.3454

0.1180

8

19.8000

20.6433

0.2015

18.8858

22.4008

-0.8433

9

21.3000

20.7047

0.1904

18.9524

22.4570

0.5953

10

21.4000

20.7660

0.1804

19.0181

22.5138

0.6340

11

21.1000

20.8273

0.1716

19.0832

22.5715

0.2727

12

20.9000

20.8887

0.1642

19.1475

22.6298

0.0113

13

22.8000

20.9500

0.1585

19.2111

22.6889

1.8500

14

20.4000

21.0113

0.1545

19.2739

22.7487

-0.6113

15

22.9000

21.0727

0.1525

19.3360

22.8093

1.8273

16

21.4000

21.1340

0.1525

19.3973

22.8707

0.2660

17

21.6000

21.1953

0.1545

19.4579

22.9327

0.4047

18

21.6000

21.2567

0.1585

19.5178

22.9956

0.3433

19

20.5000

21.3180

0.1642

19.5769

23.0591

-0.8180

20

22.7000

21.3793

0.1716

19.6352

23.1235

1.3207

21

20.0000

21.4407

0.1804

19.6928

23.1885

-1.4407

22

20.3000

21.5020

0.1904

19.7497

23.2543

-1.2020

23

21.0000

21.5633

0.2015

19.8059

23.3208

-0.5633

24

22.1000

21.6247

0.2134

19.8613

23.3881

0.4753

25

20.9000

21.6860

0.2261

19.9160

23.4560

-0.7860

26

21.8000

21.7473

0.2394

19.9700

23.5247

0.0527

27

22.3000

21.8087

0.2532

20.0234

23.5940

0.4913

28

21.7000

21.8700

0.2675

20.0760

23.6641

-0.1700

29

22.5000

21.9314

0.2821

20.1279

23.7348

0.5686

30

21.2000

21.9927

0.2971

20.1792

23.8062

-0.7927

残差和

0

残差平方和

19.47466

预测残差SS(PRESS)

21.83816

 

(3)输出结果三:

程序(3)输出结果:

(4)运行结果分析

以程序

(2)为例:

输出结果1给出了由REG过程得到的方差分析与参数估计。

方差分析给出了直线拟合的这组数据的效果的信息。

其中Source项表示用于识别这组数据中方差的来源,DF项表示用于识别这组数据中相应的自由度,总方差用CorrectedTotal标记,DF为样本容量减1(DF=30-1=29)。

这个模型解释的偏差标记为Model,相应的自由度为1.Error的自由度是两个自由度的差(28=29-1).

SumofSquares表示平方和,这组数据的总偏差平方和可分解为模型平方和和误差平方和两个部分,及有一般形式:

TotalSS=ModelSS+ErrorSS。

容易看出总偏差平方和、模型平方和和误差平方和分别为27.92967、19.47466、8.45500。

MeanSquare表示均方(MS),均方等于平方和除以自由度。

ErrorMS=19.47466/28=0.69552,它是模型中误差方差的估计。

FValue和Pr>F项给出了检验统计量的F值及相应的P值。

F值等于MMS(模型均方)除以EMS(误差均方),它用于检验这样的假设:

该回归模型是显著的。

对于这组数据拟合后F值等于12.16,相应的P值小于0.0016,说明拟合的模型解释了这组数据总偏差的主要部分。

R-Square(R平方)和AdjR-Sq(调整后的R平方):

它们评价模型优劣的量,R平方等于ModelSS除以TotalSS。

因为TotalSS=ModelSS+ErrorSS,所以R平方是TotalSS中由ModelSS构成的比值。

换句话说,R平方是总偏差中有模型中那些变量引起的百分率。

R平方的取值范围为0到1;它越接近1,表示该模型越能解释这组数据的偏差。

改组数据拟合后的R平方等于0.3027,调整后的R平方等于0.2778,说明拟合的模型不太好,原因可能是某些数据有误,导致结果的不完美。

在参数估计(ParameterEstimates)输出的部分主要给出了回归模型的系数以及系数是否显著地不为零。

下面给出具体解释。

Variable(变量)和Parameter为0,标记Variable的列给出了直线拟合的方程式中这些系数相应的变量。

标记为ParameterEstimate(参数估计)的列给出了这些系数的参数估计值。

截距在Variable列用INTERCEPT标识。

斜率在Variable列中用变量名标识。

故简单的回归模型为:

wendu=-96.38351+0.06133nianfen

Standard是这些参数估计的标准误差,它可用来构造参数估计的置信区间。

tValue给出了检验参数为0的原假设的t值。

该值等于参数估计除以相应的标准误差。

例如:

-96.38351/33.69711=-2.86。

Pr>|t|给出了t值相应的P值,由于原假设的P值为0.0079<0.05,故认为模型中的截距显著不为0,不可以在模型中去掉。

因此随着nianfen的增加wendu也适当增加。

参数域的区间估计公式为:

参数估计值

分为点

标准误差。

例如,参数的置信水平位95%的区间估计为

(0.061-2.18

0.018,0.061+2.18

0.018)=(0.02176,0.10024)

输出结果2给出了年份的预测值及95%的置信限等信息。

Obs表示序号观测值,DependentVarible(因变量)给出了温度的原始数据,PredictedValue(预测值)给出了温度的预测值,StdErrorMeanPredict(预测的标准误差)给出了预测的标准误差。

95%CLPredict(95%的置信限)给出了预测值的95%的置信限,共有2列,左边是预测值的95%置信下限,右边是预测值的95%置信上限,最后一列Residual给出了残差,它是实际值与预测值之间的差。

输出结果3中,一个观测数据点用一个“△”表示,拟合直线用一系列的“○”构成,预测下界用“□”,上界用“*”表示。

五、总结

根据以上讨论得到:

前30年温度与年份之间的关系的回归方程为:

wendu=-96.38351+0.06133nianfen

后30年温度与年份之间的关系的回归方程为:

wendu=12.904+0.0044nianfen

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 求职职场 > 简历

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1