第十一章多元线性回归与logistic回归.docx

上传人:b****4 文档编号:3636780 上传时间:2022-11-24 格式:DOCX 页数:28 大小:40.51KB
下载 相关 举报
第十一章多元线性回归与logistic回归.docx_第1页
第1页 / 共28页
第十一章多元线性回归与logistic回归.docx_第2页
第2页 / 共28页
第十一章多元线性回归与logistic回归.docx_第3页
第3页 / 共28页
第十一章多元线性回归与logistic回归.docx_第4页
第4页 / 共28页
第十一章多元线性回归与logistic回归.docx_第5页
第5页 / 共28页
点击查看更多>>
下载资源
资源描述

第十一章多元线性回归与logistic回归.docx

《第十一章多元线性回归与logistic回归.docx》由会员分享,可在线阅读,更多相关《第十一章多元线性回归与logistic回归.docx(28页珍藏版)》请在冰豆网上搜索。

第十一章多元线性回归与logistic回归.docx

第十一章多元线性回归与logistic回归

第十一章多元线性回归与logistic回归

第十一章多元线性回归与logistic回归

一、教学大纲要求

(一)掌握内容

1(多元线性回归分析的概念:

多元线性回归、偏回归系数、残差。

2(多元线性回归的分析步骤:

多元线性回归中偏回归系数及常数项的求法、多元线性回归的应用。

3(多元线性回归分析中的假设检验:

建立假设、计算检验统计量、确定值下结论。

P

4(logistic回归模型结构:

模型结构、发病概率比数、比数比。

5(logistic回归参数估计方法。

6(logistic回归筛选自变量:

似然比检验统计量的计算公式;筛选自变量的方法。

(二)熟悉内容

常用统计软件(SPSS及SAS)多元线性回归分析方法:

数据准备、操作步骤与结果输出。

(三)了解内容

标准化偏回归系数的解释意义。

二、教学内容精要

(一)多元线性回归分析的概念

Y将直线回归分析方法加以推广,用回归方程定量地刻画一个应变量与多个自变量X间的线形依存关系,称为多元线形回归(multiplelinearregression),简称多元回归(multiple

regression)

基本形式:

ˆYbbXbXbX,,,,,,,,01122kk

ˆk式中XY为各自变量取某定值条件下应变量均数的估计值,,,…,为自变量,为XXk12

bb自变量个数,为回归方程常数项,也称为截距,其意义同直线回归,,,…,称为bb0k12

bXX偏回归系数(partialregressioncoefficient),表示在除以外的自变量固定条件下,每改jjj

Y变一个单位后的平均改变量。

(二)多元线性回归的分析步骤

ˆYXY是与一组自变量X,X,…,相对应的变量的平均估计值。

k12

bbb多元回归方程中的回归系数,,…,可用最小二乘法求得,也就是求出能使估计k12

22ˆˆe,(Y,Y)YYbb值和实际观察值的残差平方和为最小值的一组回归系数,,…,,,i12bbbb值。

根据以上要求,用数学方法可以得出求回归系数,,…,的下列正规方程组kk12

(normalequation):

98

bl,bl,?

,bl,l,111212k1k1y,blbl?

bll,,,,,121222k2k2y,

blbl?

bll,,,,1k12k2kkkky,

式中

()()XX,,ijllXXXXXX,,,,,,()(),,ijjiiijjijn

XY()(),,il,X,XY,Y,XY,()(),,iyiiin常数项可用下式求出:

b0

b,Y,bX,bX,?

bX01122kk(三)多元线性回归分析中的假设检验

在算得各回归系数并建立回归方程后,还应对此多元回归方程作假设检验,判断自变量

Y,,…,是否与真有线性依存关系,也就是检验无效假设XHXXk012

(),备选假设为各值不全等于0或全不等于0。

,,,,,,,,,?

0Hj123k1

F检验时常用统计量

MSlk回归回归F,,MSl(n,k,1)误差误差

k式中为个体数,为自变量的个数。

n

式中l,bl,bl,?

,bl11y22ykky回归

l,l,l总误差回归

2,,l,Y,Y,l,yy总

(四)logistic回归模型结构

YYYY设X,X,?

X为一组自变量,为应变量。

当是阳性反应时,记为=1;当是12k

YP阴性反应时,记为=0。

用表示发生阳性反应的概率;用表示发生阴性反应的概率,显QP然+=1。

Q

Logistic回归模型为:

,,,,X,X,?

,X01122kkeP,,,,X,,X,?

,,X01122kk1,e

同时可以写成:

1Q,,,,X,,X,?

,,X01122kk1,e

(12)jk,,,,?

X,式中是常数项;是与研究因素有关的参数,称为偏回归系数。

jj0

PP,,,,,,事件发生的概率,x,xQ与之间呈曲线关系,当在之间变化时,或在

(0,1)之间变化。

iX,X,?

XYn若有例观察对象,第名观察对象在自变量作用下的应变量为,阳性i1i2iki

99

反应记为=1,否则=0。

相应地用表示其发生阳性反应的概率;用表示其发生阴性反YYPQiiii应的概率,仍然有+=1。

和的计算如下:

PQPQiiii

,,,,,,,XXX?

01122iikikeP,i,,,,XXX?

,,,01122iikik1,e

1Q,i,,,,,,,,?

XXX01122iikike,1

li这样,第个观察对象的发病概率比数(odds)为,第个观察对象的发病概率比数PQii

OR为,而这两个观察对象的发病概率比数之比值便称为比数比(oddsratio)。

对比数PQll

比取自然对数得到关系式:

,PQii,,ln,,(X,X),,(X,X),?

,,(X,X)1i1l12i2l2kiklk,,PQll,,

,,等式左边是比数比的自然对数,等式右边的是同一因素的不同X,XX,,j,1,2,?

,kijlji暴露水平与之差。

的流行病学意义是在其它自变量固定不变的情况下,自变量的XX,Xijljjj暴露水平每改变一个测量单位时所引起的比数比的自然对数改变量。

或者说,在其他自变量固

j定不变的情况下,当自变量的水平每增加一个测量单位时所引起的比数比为增加前的eXj

倍。

同多元线性回归一样,在比较暴露因素对反应变量相对贡献的大小时,由于各自变量的取值单位不同,也不能用偏回归系数的大小作比较,而须用标准化偏回归系数来做比较。

标准化偏回归系数值的大小,直接反映了其相应的暴露因素对应变量的相对贡献的大小。

标准化偏回归系数的计算,可利用有关统计软件在计算机上解决。

(五)logistic回归参数估计

由于logistic回归是一种概率模型,通常用最大似然估计法(maximumlikelihoodestimate)求解模型中参数,bjk(12),,,,?

的估计值。

jj

Y为在X,X,?

X作用下的阳性事件(或疾病)发生的指示变量。

其赋值为:

12k

1,第i个观察对象出现阳性反应,Y,,i0,第i个观察对象出现阴性反应,

i第个观察对象对似然函数的贡献量为:

YY1,iilPQ,iii

L当各事件是独立发生时,则n个观察对象所构成的似然函数是每个观察对象的似然函数贡献量的乘积,即

nnYY1,iiL,l,PQ,,iiiii,,11

in式中?

为从1到的连乘积。

L依最大似然估计法的原理,使得达到最大时的参数值即为所求的参数估计值,计算时通常是将该似然函数取自然对数(称为对数似然函数)后,用Newton—Raphson迭代算法求

100

解参数估计值。

b(j,1,2,?

,k)j

(六)logistic回归筛选自变量

在logistic回归中,筛选自变量的方法有似然比检验(likelihoodratiotest)、计分检验(scoretest)、Wald检验(Waldtest)三种。

其中似然比检验较为常用,

用Λ表示似然比检验统计量,计算公式为:

'',,2ln,,LL,2(lnL,lnL)

'式中为自然对数的符号,为方程中包含个自变量的似然函数值,为在方程中lnLLm(m,k)

包含原个自变量的基础上再加入1个新自变量后的似然函数值。

在无效假设条件下,XHmj0

22统计量Λ服从自由度为1的分布。

当时,则在水平上拒绝无效假设,即认为,,,X,,,j

(1)

对回归方程的贡献具有统计学意义,应将引入到回归方程中;否则,不应加入。

逆向进行Xj

即可剔除自变量。

三、典型试题分析

(一)单项选择题

Y1(多元线性回归分析中,反映回归平方和在应变量的总离均差平方和中所占比重的统计量是()。

A(复相关系数

B(偏相关系数

C(偏回归系数

D(确定系数

答案:

D

[评析]本题考点:

多元线性回归中的几个概念的理解。

多元线性回归中的偏回归系数(multiplelinearregression)表示在其它自变量固定不变的

YX情况下,自变量每改变一个单位时,单独引起应变量的平均改变量。

确定系数(coefficientj

2SSRofdetermination)表示回归平方和占总离均差平方和SS的比例,简记为。

即回归总

2RR,SSSS。

确定系数的平方根即称为复相关系数(multiplecorrelationcoefficient),总回归

Rp它表示个自变量共同对应变量线性相关的密切程度,它不取负值,即0?

?

1。

2(Logistic回归分析适用于应变量为()。

A(分类值的资料B(连续型的计量资料

C(正态分布资料D(一般资料

答案:

A

[评析]本题考点:

logistic回归的概念。

logistic回归属于概率型回归,可用来分析某类事件发生的概率与自变量之间的关系。

适用于应变量为分类值的资料,特别适用于应变量为二项分类的情形。

模型中的自变量可以是定性离散值,也可以是计量观测值。

(二)计算题

根据表11-2数据,分别用SPSS统计软件、SAS统计软件写出多元线性回归的统计分

101

析步骤及其简要结果。

表11-1某学校20名一年级女大学生肺活量及有关变量测量结果

编号体重/kg胸围/cm肩宽/cm肺活量/LYXXX312

150.873.236.32.96249.084.134.53.13342.878.331.01.91455.077.131.02.63545.381.730.02.86645.374.832.01.91751.473.736.52.98853.879.437.03.28949.072.630.12.521053.979.537.13.271148.883.833.93.101252.688.438.03.281342.778.230.91.921452.588.338.13.271555.177.231.12.641645.281.630.22.851751.478.336.53.161848.772.530.02.511951.378.236.43.152045.875.032.51.94

答案:

SPSS:

数据文件:

“EXAP11—2(sav”。

数据格式:

4列20行。

过程:

Statistic

Regression

Linear...

Dependent:

Y

XIndependent(s):

X,X,312

Method:

Enter

结果:

VariablesEntered/Removed

ModelVariablesEnteredVariablesMethod

Removed

1.EnterX(肩宽),3

X(胸围),2

X(体重)1

aAllrequestedvariablesentered.

bDependentVariable:

Y(肺活量)

102

ModelSummary

ModelRRSquareAdjustedStd.ErroroftheEstimate

RSquare

1.846.715.662.2893

aPredictors:

(Constant),,,XXX312

ANOVA

ModelSumofdfMeanFSig.

SquaresSquare

1Regression3.36731.12213.413.000

Residual1.339168.368E-02

Total4.70619

aPredictors:

(Constant),,,XXX312

bDependentVariable:

Y

Coefficients

UnstandardizedStandardized

ModelCoefficientsCoefficientstSig.

BStd.ErrorBeta

1(Constant)-4.6761.321-3.541.003

6.036E-02.021.4742.899.010X33.508E-02.015.3332.272.037X5.010E-02.029.3071.735.1022

X1

aDependentVariable:

Y

SAS:

数据步过程步

DATAEXAP11—2;INPUTx1x2x3y@@;PROCREG;

CARDS;MODELy=x1x2x3;

50.873.236.32.96„45.875.032.51.94;RUN;

结果:

AnalysisofVariance

SumofMean

SourceDFSquaresSquareFValuePr>F

Model33.367321.1224413.410.0001

Error161.338930.08368

CorrectedTotal194.70626

103

ParameterEstimates

ParameterStandard

VariableDFEstimateErrortValuePr>|t|

Intercept1-4.675531.32051-3.540.0027

X110.060360.020822.900.0105

X210.035080.015442.270.0372

X310.050100.028881.730.1020

[评析]本题考点:

统计软件关于多元线性回归的分析方法及主要输出结果。

根据SPSS或SAS的输出结果,可进行以下分析:

1(检验H:

的方差分析表。

F=13.413,P=0.0001,拒绝H,肺活量,,,,,,000123

至少与一个自变量存在线性关系。

2(估计偏回归系数b,b,b,给出多元线性回归方程12322,R=0.715,R=0.662。

YXXX,,,,4.680.060.040.05a123

3(偏回归系数检验,见表11-2。

表11-2偏回归系数估计值及其检验

偏回归系数估计值SEtP

b-4.6751.321-3.540.000

b0.0600.0212.900.011

b0.0350.0152.270.042

b0.0500.0291.730.103

四、习题

(一)单项选择题

1(可用来进行多元线性回归方程的配合适度检验是:

2FA(检验B(检验,

UC(检验D(Ridit检验

2(在多元回归中,若对某个自变量的值都增加一个常数,则相应的偏回归系数:

A(不变

B(增加相同的常数

C(减少相同的常数

D(增加但数值不定

3(在多元回归中,若对某个自变量的值都乘以一个相同的常数k,则:

A(该偏回归系数不变

B(该偏回归系数变为原来的1/k倍

C(所有偏回归系数均发生改变

D(该偏回归系数改变,但数值不定

F4(作多元回归分析时,若降低进入的界值,则进入方程的变量一般会:

A(增多B(减少

C(不变D(可增多也可减少

(二)名词解释

104

1.多元线性回归2.偏回归系数3.复相关系数4.确定系数

5.比数6.比数比

(三)简答题

logistic回归模型中,偏回归系数的解释意义是什么,,i

(四)计算题

某学者研究在某种营养缺乏状态下儿童的体重(,kg)与身高(,cm)、年龄(,YXX12岁)的关系获得了12名观察对象的观测资料,计算得到如下基本数据:

22,,,,,X,1611X,219631X,106X,976Y,341,,,,,1212

2,,,。

Y,9883XX,14454XY,46439XY,3079,,,,1212

ˆ

(1)请写出求解二元线性回归方程的正规方程组。

Y,b,bX,bX01122

(2)设方程组的解为,,,请写出回归方程。

b,2.114b,0.135b,0.923012

(3)完成下列方差分析表。

表11-312名儿童体重与身高、年龄回归分析方差分析表

SSMS变异来源Fv

回归

残差

总和

五、习题答案要点

(一)单项选择题

1(B2(A3(B4(A

(二)名词解释

YX1(用回归方程定量地刻画一个应变量与多个自变量间的线性依存关系,称为多元线性回归(multiplelinearregression),简称多元回归(multipleregression)。

ˆ2(多元线性回归的基本形式为:

b,,…,称bbYbbXbXbX,,,,,,,,k1201122kk

bXX为偏回归系数(partialregressioncoefficient),表示在除以外的自变量固定条件下,每jjj

Y改变一个单位后的平均改变量。

RR3(复相关系数(coefficientofmultiplecorrelation),的大小表示所有自变量与应变量之间线性关系的密切程度。

2RSS4(确定系数(coefficientofdetermination)简记为,表示回归平方和占总离均回归

22R,SS/SSRySS差平方和的比例,即。

用可定量评价在的总变异中,由x变量组总总回归

建立的线性回归方程所能解释的比例。

5(logistic回归模型为:

,,,,X,X,?

,X01122kkeP,,,,X,,X,?

,,X01122kk1,e

同时可以写成:

105

1Q,,,,X,,X,?

,,X01122kk1,e

i第个观察对象的发病概率比数(odds)为,即同一暴露水平下,阳性概率与阴性PQii

概率之比值称为比数(odds)。

OR6(logistic回归模型中,两个观察对象的发病概率比数之比值称为比数比(odds

ratio)。

其大小反映了不同暴露水平下,个体发病的相对危险程度。

(三)简答题

答:

的流行病学意义是在其它自变量固定不变的情况下,自变量的暴露水平每改,Xjj变一个测量单位时所引起的比数比的自然对数改变量。

或者说,在其他自变量固定不变的情况

j下,当自变量的水平每增加一个测量单位时所引起的比数比为增加前的倍。

eXj

(四)计算题

ˆ1(求解二元线性回归方程的正规方程组为:

Y,b,bX,bX01122

,,blbll,1112121y,,bl,bl,l,1212222y,

2(当方程组的解为,,,回归方程为:

b,2.114b,0.135b,0.923012

ˆY,2.114,0.135X,0.923X12

3(列方差分析表。

表11-412名儿童体重与身高、年龄回归分析方差分析表

SSMSF变异来源v

回归2151.3575.67516.380

残差941.574.62

总和11192.92

(尹平白玉祥)教你如何用WORD文档(2012-06-27192246)转载?

标签:

杂谈

1.问:

WORD里边怎样设置每页不同的页眉,如何使不同的章节显示的页眉不同,

答:

分节,每节可以设置不同的页眉。

文件――页面设置――版式――页眉和页脚――首页不同。

2.问:

请问word中怎样让每一章用不同的页眉,怎么我现在只能用一个页眉,一改就全部改了,

答:

在插入分隔符里,选插入分节符,可以选连续的那个,然后下一页改页眉前,按一下“同前”钮,再做的改动就不影响前面的了。

简言之,分节符使得它们独立了。

这个工具栏上的“同前”按钮就显示在工具栏上,不过是图标的形式,把光标移到上面就显示出”同前“两个字来。

106

3.问:

如何合并两个WORD文档,不同的页眉需要先写两个文件,然后合并,如何做,

答:

页眉设置中,选择奇偶页不同与前不同等选项。

4.问:

WORD编辑页眉设置,如何实现奇偶页不同比如:

单页浙江大学学位论文,这一个容易设;双页:

(每章标题),这一个有什么技巧啊,

答:

插入节分隔符,与前节设置相同去掉,再设置奇偶页不同。

5.问:

怎样使WORD文档只有第一页没有页眉,页脚,

答:

页面设置,页眉和页脚,选首页不同,然后选中首页页眉中的小箭头,格式,边框和底纹,选择无,这个只要在“视图”――“页眉页脚”,其中的页面设置里,不要整个文档,就可以看到一个“同前”的标志,不选,前后的设置情况就不同了。

6.问:

如何从第三页起设置页眉,

答:

在第二页末插入分节符,在第三页的页眉格式中去掉同前节,如果第一、二页还有页眉,把它设置成正文就可以了

?

在新建文档中,菜单―视图―页脚―插入页码―页码格式―起始页码为0,确定;?

菜单―文件―页面设置―版式―首页不同,确定;?

将光标放到第一页末,菜单―文件―页面设置―版式―首页不同―应用于插入点之后,确定。

第2步与第三步差别在于第2步应用于整篇文档,第3步应用于插入点之后。

这样,做两次首页不同以后,页码从第三页开始从1编号,完成。

7.问:

WORD页眉自动出现一根直线,请问怎么处理,

答:

格式从“页眉”改为“清除格式”,就在“格式”快捷工具栏最左边;选中页眉文字和箭头,格式,边框和底纹,设置选无。

8.问:

页眉一般是---------,上面写上题目或者其它,想做的是把这根线变为双线,WORD中修改页眉的那根线怎么改成双线的

答:

按以下步骤操作去做:

?

选中页眉的文字,包括最后面的箭头?

格式,边框和底纹?

选线性为双线的?

在预览里,点击左下小方块,预览的图形会出现双线?

确定?

上面和下面自己可以设置,点击在预览周围的四个小方块,页眉线就可以在不同的位置。

9.问:

Word中的脚注如何删除,把正文相应的符号删除,内容可以删除,但最后那个格式还在,应该怎么办,

107

答:

步骤如下:

1、切换到普通视图,菜单中“视图”――“脚注”,这时最下方出现了尾注的编辑栏。

2、在尾注的下拉菜单中选择“尾注分隔符”,这时那条短横线出现了,选中它,删除。

3、再在下拉菜单中选择“尾注延续分隔符”,这是那条长横线出现了,选中它,删除。

4、切换回到页面视图。

尾注和脚注应该都是一样的。

10.问:

Word里面有没有自动断词得功能常常有得单词太长了,如果能设置下自动断词就好了

答:

在工具―语言―断字―自动断字,勾上,word还是很强大的。

11.问:

如何将word文档里的繁体字改为简化字,

答:

工具―语言―中文简繁转换。

12.问:

怎样微调WORD表格线,WORD表格上下竖线不能对齐,用鼠标拖动其中一条线,可是一拖就跑老远,想微调表格竖线让上下对齐,请问该怎么办,

答:

选定上下两个单元格,然后指定其宽度就可以对齐了,再怎么拉都行press

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高中教育 > 小学教育

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1