HLM多层线性模型简介_精品文档优质PPT.ppt
《HLM多层线性模型简介_精品文档优质PPT.ppt》由会员分享,可在线阅读,更多相关《HLM多层线性模型简介_精品文档优质PPT.ppt(69页珍藏版)》请在冰豆网上搜索。
n这就违背了传统回归(OLS)中关于残差相互独立的假设;
n至少,传统回归分析得到的标准误的估计不正确(太小)。
HLM数据特点n对于嵌套数据,传统回归模型的做法:
(1)个体(如学生)水平上分析问题:
同一班级的学生间相互独立的假设是不合理的,同样对不同班级的学生和相同班级的学生作同一假设也是不合理的。
(2)组(如学校)水平上分析问题:
丢失了班级内学生个体间的差异的信息。
HLM数据特点n对于嵌套数据,传统回归分析的假设往往无法满足。
传统的线性回归模型假设变量间存在直线关系,因变量总体上服从正态分布,方差齐性,个体间相互独立。
前两个假设较易保证,但方差齐性,尤其是个体间相互独立的假设却很难满足。
独立性不满足带来的问题n传统回归系数估计的标准误依赖于相互独立的假设;
n如果独立性的假设不满足,得到的标准误的估计往往偏小,因此所犯第一类错误的概率往往偏大。
HLM数学模型n例如:
对73个学校1905名学生进行调查,目的是考虑其刚上高中时的入学成绩与三年后高考成绩之间的关系。
考虑方法:
(1)如果用传统的线性回归分析,直接在学生水平上进行分析,得出入学学业成绩对高考成绩之间的一条回归直线,如下图1所示,从图1的结果可以看出,传统回归分析没有区分不同的学校之间的差异。
图1:
不考虑学校之间差异的回归直线HLM数学模型n
(2)如果将数据进行简单合并,用每个学校学生的平均成绩代替这个学校的成绩,直接在学校水平上估计入学成绩对高考成绩的影响,得到一条回归直线,如图2所示,这种方法忽略了不同学生之间的差异;
图2:
只考虑学校差异忽略学生差异回归直线HLM数学模型n(3)如果假设不同学校入学成绩对高考成绩的回归直线截距不同,斜率相同(平均学习成绩之间存在差异),得到如图3的结果,从图中结果可以看出,不同学校学生平均高考成绩之间存在差异。
图3:
考虑不同学校平均成绩差异的回归直线HLM数学模型n(4)对73所学校分别做回归分析,得到如图4的结果,如图4所示,从图中结果可以看出,不同学校回归直线的截距和斜率均不同,即:
不同学校学生平均高考成绩之间存在差异,入学学业成绩对高考成绩的影响强度不同。
图4:
考虑不同学校平均成绩差异和入学对毕业成绩影响程度差异的回归直线回归模型中,如何解决残差相关的问题?
n希望定义一个模型,可以明确地允许因变量水平在组内和组间存在差异n例如,允许学生的学业成绩存在学校之间的差异告别OLS:
一个简单的多层线性模型n将n重写为:
一个简单的多层线性模型一个简单的多层线性模型Outcomeforobservationiinunitj一个简单的多层线性模型OutcomeforobservationiinunitjIntercept一个简单的多层线性模型OutcomeforobservationiinunitjInterceptCoefficientValueofXforobservationiinunitj一个简单的多层线性模型OutcomeforobservationiinunitjInterceptCoefficientValueofXforobservationiinunitjResidualtermspecifictounitj一个简单的多层线性模型OutcomeforobservationiinunitjInterceptCoefficientValueofXforobservationiinunitjResidualtermspecifictounitjResidualtermspecifictoobservationiinunitj一个简单的多层线性模型OutcomeforobservationiinunitjInterceptCoefficientValueofXforobservationiinunitjResidualtermspecifictounitjResidualtermspecifictoobservationiinunitjuj表示什么?
n残差项n定义第j组(第二水平)n对于第j组的所有观测都相同n只有下标j,没有下标in解释:
总截距和第j组的截距之间的差异rij表示什么?
n残差项n定义第j组第i个观测n均值为0模型的特征n注意到:
ij=uj+rijn我们有:
Var(ij)=Var(uj+rij)=Var(uj)+Var(rij)+2*Cov(uj,rij)=Var(uj)+Var(rij)模型的特征nYij的值可能存在第二水平(组间)的差异n对于uj和rij没有定义其分布.nX和Y之间的关系不依赖于j(1不依赖于j)模型的另一种表达这里多层线性模型n水平1(如:
学生)n水平2(如:
学校)jju0000+=Yij-第j个学校的第i个学生jju1101+=何谓多层线性模型?
n多层线性模型又称为:
n多水平分析(MultilevelAnalysis)n混合模型(MixedModels)n随机系数模型(RandomCoefficientModels)HLM的发展nHarveyGoldstein-MultilevelAnalysis(Mlwin)nStephenW.Raudenbush-HierarchicalLinearModel(HLM)HLM的发展模型理论构想阶段(Lindley&
Smith,1972)HLM的发展2问题解决阶段Dempster、Laird和Rubin(1977)提出EM算法;
Dempster(1981)将EM算法应用于解决多层线性模型的参数估计;
1983年,Strenio、Weisberg和Bryk等相继将这一方法应用于社会学的研究;
1986年Goldstein应用IRGLS估计参数,1987年,Longford应用费歇得分算法对模型参数进行了估计。
HLM的发展快速发展与应用HLM(Bryk,Randenbush,SeltzerCongdon,1988);
Mlwin(Rabash,ProsserGoldstein,1989);
VARCL(Longford,1988);
MPLUS(Muthen,1992)。
多层线性模型n回归模型的一种n常用来回答背景变量(如班级环境等)与个体变量(如学生特征)之间的关系n常用来估计组内(如班级内)和组间(如班级间)变量间的关系以及跨水平的交互作用。
n例如,学校内和学校间自我概念和学业成绩之间的关系。
多层线性模型简介n多层线性模型一种处理嵌套数据的统计方法。
通过定义不同水平(层)的模型,将随机变异分解为两个部分,其一是第一水平个体间差异带来的误差,另一个是第二水平班级的差异带来的误差。
可以假设第一水平个体间的测量误差相互独立,第二水平班级带来的误差在不同班级之间相互独立。
多水平分析法同时考虑到不同水平的变异。
多层线性模型n多层分析方法提供了解决嵌套数据关系的合理的正确的统计方法。
下面结合上面提到的例子,介绍两水平模型的一般数学表示:
多层线性模型n水平1(如:
学校)jjjuW001000+=Yij-第j个学校的第i个学生多层线性模型n合并模型:
其中:
yij表示因变量(如三年后的高考成绩),xij表示第一水平(学生)的预测变量,Wj表示第二水平(学校)的预测变量。
多层线性模型n模型的假设条件为:
多层线性模型截距与斜率之间的相关系数:
n截距与斜率之间的相关系数大小表示了不同学校平均高考成绩与入学成绩对高考成绩影响强度之间的关系,如果相关系数大于零,表示平均成绩越高,入学成绩对期末成绩的影响越大。
HLM常用模型类型n随机效应一元方差分析模型(one-wayAnovawithRandomEffect)第一水平:
第二水平:
合并模型:
ijojijeuY+=00HLM常用模型类型n无条件模型:
模型中没任何预测变量的多层分析模型模型表示与随机效应的方差分析模型相同。
在无条件模型中:
上式的相关系数描述了水平2单位内个体之间的相关(intralevel2-unitcorrelation),它测量了学校之间方差占总方差的比例,或者说在总的变异中由水平二解释的方差的比例。
HLM常用模型类型n随机效应单因素协方差分析(One-wayANCOVAwithRandomEffects)水平1:
水平2:
HLM常用模型类型n一般的线性回归模型n第一水平:
n第二水平:
HLM常用模型类型n随机系数回归模型(Random-CoefficientsRegressionModel)第一水平:
HLM应用举例nhsb1.sav和hsb2.sav在水平一的数据文件hsb1.sav中,有7185个观测样本和四个第一水平的变量(不包含第二水平指标变量:
学校编号ID),这四个变量所表示的含义如下:
minority,学生的种族(1=少数民族,0=其他)female:
学生性别(1=女,0=男)ses:
学生的社经地位,由学生父母受教育程度、职业和收入合成,变量已被标准化mathach:
学生的数学学业成绩HLM应用举例n数据文件hsb2.sav中包含有160个学校,每个学校测量了六个学校水平的变量(不包含学校指标变量ID)。
nsize:
学校招生人数nsector:
学校类型(1=天主教教会学校,0=公立学校)npracad:
从事学术研究的学生的比例ndisclim:
学校纪律环境,由量表测量得到nhimnty:
学校招生少数民族学生比例描述(1=超过40%少数民族学生,0=其他)nmeanses:
包含在水平1数据中,每个学校学生的平均社经地位HLM应用举例目的:
分析影响学生数学成绩的学生水平变量和学校水平变量个体水平模型Yij=0j+1jX1ij+2jX2ij+KjXKij+rij第j组第I个个体因变量的观测值第j个组的截距第j组X1对应的斜率第j组X2对应的斜率第j组XK对应的斜率背景(Contextual)模型Yij=0j+1jX1ij+2jX2ij+KjXKij+rij0j=001j=102j=20Kj=K0在传统回归(OLS)模型中,截距和斜率都是固定的,即对不同的第二水平单元均相同背景(Contextual)影响问题n第二水平不同单元(如不同学校),截距是否相同?
n能否用第二水平的协变量预测截距之间的差异?
n斜率是否存在第二水平的变异?
n能否用第二