第10章 回归分析.docx
《第10章 回归分析.docx》由会员分享,可在线阅读,更多相关《第10章 回归分析.docx(39页珍藏版)》请在冰豆网上搜索。
第10章回归分析
第10章回归分析
摘要:
回归分析依自变量个数的多少可分为一元回归和多元回归;根据依变量和自变量之间的关系和性质可分为线性回归和非线性回归。
§10.1回归分析概述
一、回归分析的任务和种类
1.回归分析解决哪些问题
当人们从一组对象上获得2个或多个指标的观测值时,往往需要回答下述几个问题:
①如何实现预测,即如何由:
1个或多个指标(自变量)的值去推算另1个或多个指标(因变量)的值;
②如何实现控制,即事先给出产品质量应达到的标准(因变量的取值范围),根据变量之间的数量关系去控制那些影响产品质量的因素(自变量)的变化区间;
③如何实现修匀,由于所研究的指标带有变异性,当用散布图将变量之间的关系呈现出来时,散点所形成的轨迹并非像数学中初等函数那样有规律,需要用合适的数学方法(如用直线或某种光滑曲线)对资料进行修匀,使变量之间本质联系更清楚地呈现出来。
回归分析正是回答上述问题的一种最常用最有效的统计分析方法之一。
2.回归分析的种类
如果因变量是连续变量(即一般定量资料),设自变量的个数为K,当k=1时,回归分析的种类有:
①直线回归分析;
②通过直线化实现的简单曲线回归分析(以下简称为曲线拟合);
③非线性曲线拟合;
④一般多项式曲线拟合;
⑤正交多项式曲线拟合。
当k≥2时,称为多元回归分析(注:
前面的④、⑤两种情况实质上是用多元回归分析解决只含:
个自变量时较复杂的曲线拟合问题)。
当同时对多个因变量进行回归分析时,称之为多重回归分析。
在多元回归分析中,简单而又实用的则是多元线性回归分析(其中某些自变量可以是原观测指标经过某种初等变换的结果,如对数变换、开平方根变换等,因为这里所说的线性是指:
函数f(X)相对于回归参数是线性的,并非相对于自变量而言)。
如果因变量是与生存时间有关的连续变量且未被离散化(如:
生存时间、复发时间、死亡时间等),而自变量可以是定量的,也可以是定性的。
此时需用生存分析中的半参数或参数回归分析方法。
如果因变量是有序变量,无论它取2个离散值(如:
死与活、复发与未复发等)还是多个离散值(自变量可以是定性和定量的)时,都可选用logistic回归分析;如果把列联表中每个格内的理论频数的对数当作因变量,把分组变量(包含影响因素和观测结果变量两类)当作自变量,可用对数线性模型分析。
在自变量代表时间的情况下,通常不假定因变量Y的各次观察值独立,而具有某种非独立的结构,例如构成一平稳序列。
这种回归模型的研究被划入统计学的另一个重要分支——时问序列统计分析的范围。
二、直线回归与相关分析的概念和要点
1.两种分析方法的异同点
研究在专业上有一定联系的两个变量之间是否存在直线关系以及如何求得直线回归方程等问题,需进行直线相关和回归分析。
从研究的目的来说,若仅仅为了了解两变量之间呈直线关系的密切程度和方向,宜选用线性相关分析;若仅仅为了建立由自变量推算因变量的直线回归方程,宜选用直线回归分析。
从资料所具备的条件来说,作相关分析时要求两变量都是随机变量(如:
人的身高与体重、血硒与发硒);作回归分析时要求因变量是随机变量,自变量可以是随机的,也可以是一般变量(即可以事先指定变量的取值,如:
用药的剂量)。
2.散布图在这两种分析中的作用
功能齐全的统计软件,会蒙骗盲目运用统计方法的人,进行直线相关和回归分析时,尤其要注意。
因为统计方法只能帮助人们揭示数据之间内在的统计规律性,而不能创造规律,也就是说,资料之间是否存在本质联系要靠专业知识来解释。
另外,在专业上有一定联系的2项指标之间的关系并非都是直线关系。
实事上,如果2项指标之间呈一条弯曲度不大的“S”型或反“S”型曲线趋势,错误地用一条直线回归方程来描述,在统计学上往往会得到较高的显著性,即该直线回归方程是成立的,但在生物学上是解释不通的(当因变量是某种率时最易发生这种现象)。
正确的做法是:
将(X,Y)的n对数值绘在直角坐标系内,得到X与Y变化趋势的散布图,如果n个点形成的散布图呈一条明显的曲线趋势时,宜拟合一条曲线回归方程;如果n个点在一条不太宽的长带内随机地分布着,且不存在明显的曲线趋势,可考虑进行直线相关和回归分析;如果n个点形成的散布图近似于一个圆盘,则说明X与Y之间无确定的变化趋势,几乎是互相独立的,不必硬把它们捏合在一起分析。
§10.2一般线性回归分析过程REG
REG过程是进行一般线性回归分析通用的过程,该过程采用最小二乘法拟合线性模型,可以有多个模型(MODEL)语句,输入数据可以是原始样本数据,也可以是相关阵,可输出有关数据的描述统计量、参数估计值、预测值、残差、置信区间等,并可作线性假设测验,这些统计结果可输出到一个新的SAS数据集中。
一、过程格式
PROCREG选择项;
Label:
MODEL依变量表=自变量表/选择项;
BY变量表;
FREQ变量;
WEIGHT变量;
ID变量;
VAR变量表;
OUTPUTOUT:
输出数据集关键字=新变量表;
PRINT选择项
二、语句说明
程序中全部语句中只有第一行和MODEL语句是必需的,其他均为可选择语句。
1.MODEL语句,必需语句,定义回归分析模型
2.VAR语句为可选的,指定用于计算交叉积的变量
3.PLOT语句为可选的,用于绘制变量间的散点图,还可添加回归线。
【PROCREG过程选项】
OUTEST=数据集名指定统计量和参数估计输出的新数据集名。
NOPRINT禁止统计结果在OUTPUT视窗中输出。
SIMPLE输出REG过程中所用的每个变量的基本统计量。
CORR输出MODEL语句或VAR语句中所列变量的相关矩阵。
ALL等价于MODEL语句加上全部选项,即输出该语句所有选项分析结果。
【MODEL语句】
MODEL语句定义模型中的因变量、自变量、模型选项及结果输出选项。
语句中的变量只能是数据集中的变量,任何形式的变换都必须先产生一个新变量,然后用于分析。
如X1的二次项,不能在模型中直接指定X1*X1,而要产生另一个新变量代表X1*X1,方可引入模型。
MODEL语句中常用的选项有:
●NOINT在模型中不拟合常数项。
●STB输出标准偏回归系数。
●CLI输出个体预测值的95%可信区间上下限。
●CLM输出因变量期望值(均值)的95%可信区间上下限。
●R输出个体预测值、残差及其标准误。
●P输出实际值Yi、预测值和残差等。
如已选择了CLI、CLM和R,则无需选择P。
【关键字】
REG过程中OUTPUT语句的用法和UNIVARIATE过程中的用法相同,只是会用到另一些关键字。
关键字用来定义需要输出到新数据集中的统计量,常用的关键字及其含义有:
PREDICTED因变量预测值(简写为P)
RESIDUAL残差(简写为R)
L95M、U95M均数95%可信区间上下限
L95、U95个体预测值95%可信区间上下限
STDP期望值的标准误
STDR残差的标准误
STDI预测值的标准误
STUDENT学生化残差(即残差与标准误之比)
【PRINT语句】
PR1NT语句指定打印分析结果。
其选择项主要有三类:
①MODEL语句中的控制模型参数和预测值输出的选择项,如STB等;
②ANOVA输出当前模型的方差分析表;
③MODELDATA输出模型中使用的变量数据。
【与PROCREG语句配合应用的其他常用语句】
BY语句对BY指定的变量分组分别进行分析。
其应用前提是数据集中的数据必须先籍PROCSORT过程,按BY指定的变量表进行排序。
FREQ语句用于指定在数据集中表示观察值发生次数的变量,当进行显著性测验计算自由度时,观测总数将等于FREQ语句指定变量的数值之和。
WEIGHT语句用于指定在数据集中表示观察值权重的变量,即权变量。
ID语句要求在输出结果时,用ID指定的变量取代观察值序号。
VAR语句要求将那些在MODEL语句中未用的数值变量也一起包括在向量叉积矩阵中,此选项必须与OUTSSCP选项并用。
§10.3一元线性回归
若x和y变量之间存在相关关系,依变量y在某种程度上是随自变量x值的变化而变化的,那么可以用y=a+bx直线方程来定量地描述两个变量的线性函数关系。
有多个SAS过程能够进行一元线性回归,其中较常用的是REG过程和GLM过程。
一些简单的非线性方程,也可通过线性化转变成一元线性方程,然后进行线性回归分析。
10.3.1一元线性回归
例10.1一些夏季害虫盛发期的早迟和春季温度高低有关。
江苏武进县测定1956~1964年3月下旬至4月中旬旬平均温度累积值(x,单位:
旬.度)和一代三化螟蛾盛发期(y,以5月10日为0)的数据见表10.1,试计算x和y的相关系数和决定系数。
表10.1累积温和一代三化螟蛾盛发期的关系数据
X累积温
35.5
34.1
31.7
40.3
36.8
40.2
31.7
39.2
44.2
Y盛发期
12
16
9
2
7
3
13
9
-1
●程序
DATAnew;
INPUTxy@@;
CARDS;
35.51234.11631.7940.3236.8740.2331.71339.2944.2-1
PROCREG;
MODELy=x;
PROCGLM;
MODELy=x;
RUN;
●输出结果
TheREGProcedure
Model:
MODEL1
DependentVariable:
y
AnalysisofVariance
SumofMean
SourceDFSquaresSquareFValuePr>F
Model1174.88878174.8887816.400.0049
Error774.6667810.66668
CorrectedTotal8249.55556
RootMSE3.26599R-Square0.7008
DependentMean7.77778AdjR-Sq0.6581
CoeffVar41.99128
ParameterEstimates
ParameterStandard
VariableDFEstimateErrortValuePr>|t|
Intercept148.5493210.127794.790.0020
x1-1.099620.27157-4.050.0049
TheGLMProcedure
Numberofobservations9
TheGLMProcedure
DependentVariable:
y
Sumof
SourceDFSquaresMeanSquareFValuePr>F
Model1174.8887762174.888776216.400.0049
Error774.666779310.6666828
CorrectedTotal8249.5555556
R-SquareCoeffVarRootMSEyMean
0.70080141.991283.2659897.777778
SourceDFTypeISSMeanSquareFValuePr>F
x1174.8887762174.888776216.400.0049
SourceDFTypeIIISSMeanSquareFValuePr>F
x1174.8887762174.888776216.400.0049
Standard
ParameterEstimateErrortValuePr>|t|
Intercept48.5493193610.127786264.790.0020
x-1.099622040.27156710-4.050.0049
REG过程输出的结果中,给出了方差分析表,F值为16.396(Prob=0.0049)。
离回归标准误(RootMSE)为3.26599,决定系数(R-square)为0.7008,调整后的R2(AdjR-sq)为0.6581,变异系数(C.V.)为41.99128。
参数估计部分(ParameterEstimates)给出了截距及斜率参数的估计值及显著性测验结果,拟合的直线方程为:
y=48.549319-1.099622x
GLM过程拟合的结果与REG过程相近。
TforH0:
Parameter=0(测验H0:
参数为0的t值)用于测验参数估计是否显著的不为0。
其值为参数估计除以标准误差。
Prob>|T|给出对应t值的显著性概率P值。
本例中两者的概率均小于0.01,有极显著的意义。
例10.2一元一次及二次回归。
测得某种液体的热容量Y和温度调的数据,试确定X与Y的关系式。
程序如下:
TITLE"一元一次及二次回归";
DATACT;
INPUTXY@@;
XSQ=X*X;
CARDS;
51.0029101.0013151.0001200.9990250.9981
300.9979350.9978400.9981450.9987500.9996
PROCREG;
MODELY=X/PCLI;
MODELY=XXSQ/PCLI;
OUTPUTOUT=CXXP=PREDL95=L95U95=U95;
PROCPLOTDATA=CXX;
PLOTPRED*X="P"U95*X="U"L95*X="L"/OVERLAYVPOS=40HPOS=60;
RUN;
程序中建立了两个Y与X的关系式:
Y=a+bX及Y=a+bX+cX*X
并分别以二次模型的观测值、值信度为95%的置信区间的上限及下限为纵坐标,X为横坐标,在同一坐标系中作散点图。
由输出结果知,第一个线性模型在0.05水平下是显著的,预测模型为:
Y=1.001407-0.000075X
而二次模型在0.0001水平下是显著的,预测模型为:
Y=1.004940-0.000428X+0.000006424X*X
复相关系数接近1,预测值与实测值更接近,回归效果更好,因此Y与X的关系应选用二次模型。
10.3.2能够转化为一元线性回归的一元非线性回归
例10.3根据1990年陕西省杨凌区小麦条锈病发展过程资料(表10.2),现需要分别用直线回归方程、Monomolecular,Gompertz和Logistic等方程拟合小麦条锈病的发展过程,选择出较好的方程。
表10.21990年陕西省杨凌区小麦条锈病发展变化数据
时间(月/日)
4/1
4/6
4/13
4/18
4/25
5/1
5/7
5/13
5/21
5/27
时序
1
5
12
17
24
30
36
42
50
56
病叶率
0.00043
0.0049
0.0087
0.016
0.051
0.117
0.217
0.415
0.765
0.80
●程序及说明
/*数据来源:
肖悦岩等,植物病害流行与预测,P103*/
DATAnew;
INPUTxy@@;/*x代表时序,y代表病叶率*/
l=LOG(y/(1-y));/*REG过程只能进行线性回归,所以这里进行了线性转换*/
m=LOG(1/(1-y));
g=LOG(1/LOG(1/y));
CARDS;
10.0004350.0049120.0087170.016240.051
300.117360.217420.415500.765560.80
PROCREG;
MODELylmg=x;
RUN;
●输出结果及说明
Model:
MODEL1
DependentVariable:
Y
AnalysisofVariance
SumofMean
SourceDFSquaresSquareFValueProb>F
Model10.726260.7262636.0190.0003
Error80.161310.02016
CTotal90.88757
RootMSE0.14200R-square0.8183
DepMean0.23950AdjR-sq0.7955
C.V.59.28848
ParameterEstimates
ParameterStandardTforH0:
VariableDFEstimateErrorParameter=0Prob>|T|
INTERCEP1-0.1731880.08212674-2.1090.0680
X10.0151170.002518826.0020.0003
DependentVariable:
L
AnalysisofVariance
SumofMean
SourceDFSquaresSquareFValueProb>F
Model176.1023576.10235288.1880.0001
Error82.112580.26407
CTotal978.21493
RootMSE0.51388R-square0.9730
DepMean-2.59244AdjR-sq0.9696
C.V.-19.82226
ParameterEstimates
ParameterStandardTforH0:
VariableDFEstimateErrorParameter=0Prob>|T|
INTERCEP1-6.8169600.29721064-22.9360.0001
X10.1547450.0091154316.9760.0001
DependentVariable:
M
AnalysisofVariance
SumofMean
SourceDFSquaresSquareFValueProb>F
Model12.482102.4821021.2420.0017
Error80.934770.11685
CTotal93.41687
RootMSE0.34183R-square0.7264
DepMean0.40454AdjR-sq0.6922
C.V.84.49873
ParameterEstimates
ParameterStandardTforH0:
VariableDFEstimateErrorParameter=0Prob>|T|
INTERCEP1-0.3584000.19770179-1.8130.1074
X10.0279460.006063504.6090.0017
DependentVariable:
G
AnalysisofVariance
SumofMean
SourceDFSquaresSquareFValueProb>F
Model112.8718912.87189117.8440.0001
Error80.873820.10923
CTotal913.74571
RootMSE0.33050R-square0.9364
DepMean-0.60279AdjR-sq0.9285
C.V.-54.82820
ParameterEstimates
ParameterStandardTforH0:
VariableDFEstimateErrorParameter=0Prob>|T|
INTERCEP1-2.3401870.19114820-12.2430.0001
X10.0636410.0058625010.8560.0001
REG过程输出结果分别给出了直线回归方程、Monomolecular,Gompertz和Logistic四个模型线性化方程的斜率和截距,四个线性化方程分别为:
直线回归方程:
y=-.1732+0.01512xR2=0.818260
Monomolecular线性化方程:
m=-.3584+0.02795xR2=0.7264
Gompertz线性化方程:
g=-2.3402+0.06364xR2=0.9364
Logistic线性化方程:
l=-6.8170+0.1547xR2=0.9730
所以,能较好地拟合陕西省杨凌区小麦条锈病发展过程的方程为Logistic模型。
有些非线性方程,如y=(a+bx)/x、y=1/(a+bx)、y=aebx等,可以通过对x进行转换,然后采用一元线性回归拟合回归方程。
其转换方法与本例中对y的转换相似,均要在数据步中进行。
§10.4一元非线性回归
在生物学研究中,许多情况下变量之间呈各种各样的非线性关系,例如生物的生长量与生长时间之间就不是简单的线性关系,通常可用Logistic方程描述。
这种呈非线性关系的数据,有的通过一定的代数变换,即可化为线性关系进行描述,建立回归模型可以利用SAS/STAT的REG过程及GLM过程求解,但有的不能够转化为线性关系,对于这种资料的回归模型建立,REG过程无能为力。
一般情况下,我们都可以利用SAS/STAT的NLIN过程(非线性回归过程)对非线性模型的参数进行非线性最小二乘估计或非线性加权最小二乘估计,从而建立数学模型。
10.4.1NLIN过程格式
PROCNLIN选择项;
PARAMETERS参数=初始值……;
MODEL依变量=模型表达式;
BOUNDS参数限制条件表达式……;
DER.参数[.参数]=偏导表达式;
ID变量表;
OUTPUTOUT=输出数据集关键词=名称;
BY变量表;
10.4.2NLIN过程语句说明
其中PROCNLIN语句、MODEL语句和PARAMETERS语句是必需语句。
●PROCNLIN语句
PROCNLIN语句常用的选择项可分为以下四类:
(1)指定输入输出数据集
DATA=数据集指定待分析的输入数据集,缺省为最新建立的数据集。
OUTEST=数据集建立输出数据集,存储每一次迭代的参数估计值。
(2)指定迭代方法
METHOD=迭代方法指定循环迭代的方法。
可以选用:
①GAUSS高斯-牛顿法;②MARQUARDT麦夸特法;③NEWTON牛顿法;④GRADIENT梯度法;⑤DUD试位法,正割法。
缺省该选择项时,如有DER语句则隐含使用GAU