应用统计学05-回归分析.ppt

上传人:b****2 文档编号:2472127 上传时间:2022-10-29 格式:PPT 页数:55 大小:388KB
下载 相关 举报
应用统计学05-回归分析.ppt_第1页
第1页 / 共55页
应用统计学05-回归分析.ppt_第2页
第2页 / 共55页
应用统计学05-回归分析.ppt_第3页
第3页 / 共55页
应用统计学05-回归分析.ppt_第4页
第4页 / 共55页
应用统计学05-回归分析.ppt_第5页
第5页 / 共55页
点击查看更多>>
下载资源
资源描述

应用统计学05-回归分析.ppt

《应用统计学05-回归分析.ppt》由会员分享,可在线阅读,更多相关《应用统计学05-回归分析.ppt(55页珍藏版)》请在冰豆网上搜索。

应用统计学05-回归分析.ppt

第第5章章回归分析回归分析第第1节节一元线性回归原理一元线性回归原理第第2节节回归模型的检验回归模型的检验第第3节节回归分析例回归分析例第第1节节一元线性回归原理一元线性回归原理回归的目的回归的目的两个总体间的关系两个总体间的关系没有本质联系,例:

小孩的身高与小树的高度有本质联系,例:

学习时间与成绩本质联系与随机因素本质联系与随机因素两个总体或现象不是孤立存在的,两者之间的关系必然混有很多其他因素所以,要用函数来表达两者的本质联系,必须加入一个随机变量,代表其他所有有关的随机因素(包括测量误差)回归的目的回归的目的了解现象间的本质联系通过已知的现象来了解未知的现象回归的总体模型回归的总体模型总体模型(总体模型(populationmodel)描述因变量(dependentvariable)和自变量(explanatoryvariables)及误差项(disturbance)间关系的函数式模型描述的是总体及总体间的关系模型描述的是总体及总体间的关系Y、X、均为描述总体的随机变量,服从未知的分布,其中误差代表除X外所有影响Y的因素、是模型的参数,反映X总体与Y总体间的本质联系,是一个客观存在的、固定的、但不可直接观察的数值回归的目的就是利用样本推断参数的可能取值情况回归的样本模型回归的样本模型样本模型样本模型(samplemodel)从总体X和总体Y同时采样,获得n对随机变量(Yi,Xi),其值(yi,xi)构成如下数据方程组ei为残差,含第i次观察的误差及其他随机因素,独立同分布a、b分别是对总体参数、的估计值(estimate)从总体从总体X采样采样从总体从总体Y采样采样参数与参数的估计值参数与参数的估计值参数参数反映总体间的本质联系,是一个客观存在的、固定的、不可观察的数值估计值估计值是基于样本计算的、用来描述参数的统计量,是随机变量,随样本不同而变化因为参数不可观察,所以用估计值来估计参数例例估计值的误差估计值的误差估计值的误差用其标准差来衡量回归分析要求估计值的标准差要尽量小最小二乘法求估计值最小二乘法求估计值最小二乘法最小二乘法(OLS)求出的估计值可以使样本方程中的残差平方和最小简单例:

简单例:

分析大学生的生活费如何受年级影响分析大学生的生活费如何受年级影响随机选择3个学生,得年级为1、2、3,月生活费分别是1、2、2千元回归的估计方程回归的估计方程估计方程估计方程将参数的估计值带入样本方程,忽略残差,记为其中为拟合值(预测值)生活费例:

估计方程的斜率系数估计方程的斜率系数b斜率系数表示X变化一个单位,Y变化b个单位用估计方程求拟合值用估计方程求拟合值例:

4年级的生活费为X年级年级Y生活费生活费回归的残差回归的残差残差残差(residual)Y的样本值与拟合值的差是Y的变化中,模型没有说明的部分残差越大,模型的拟合度越差例:

例:

求第2个观察值的残差Y生活费生活费X年级年级最小二乘法进行估计的一般形式最小二乘法进行估计的一般形式模型及样本模型及样本从总体模型Y=+X+随机采样,得n对随机变量(Yi,Xi)构成的样本,样本的观察值是(yi,xi)最小二乘法估计结果最小二乘法估计结果最小二乘法中的两个重要公式最小二乘法中的两个重要公式回归估计值的误差回归估计值的误差生活费例续生活费例续前述回归的样本:

随机选择3个学生,年级X为1、2、3,月生活费Y分别是1、2、2千元,估计方程为年级增加1级,生活费增加500元样本变化样本变化如果加入1个4年级学生,且其当月的生活费为4千元,用最小二乘法可得估计方程年级增加1级,生活费增加900元回归模型的概率分布回归模型的概率分布总体模型的概率分布总体模型的概率分布给定X=x,设的条件分布为正态N(0,2)则因变量Y的条件分布为正态N(+x,2)样本模型的概率分布样本模型的概率分布从上述条件分布中随机采样n对随机变量(Yi,Xi),设观察值x=x1,xn,y=y1,yn,则样本的条件分布附:

回归的极大似然估计附:

回归的极大似然估计(mle)回归的似然函数(回归的似然函数(likelihoodfunction)将前述样本的条件分布视为参数、的函数,则称为回归的似然函数条件分布的值相当于获得该组样本的“概率”极大似然估计极大似然估计(maximumlikelihoodestimation)使上述“概率”最大的、值就是其估计值系数估计值的分布:

斜率估计值系数估计值的分布:

斜率估计值斜率系数估计值斜率系数估计值b是一个随机变量是一个随机变量在样本的n对随机变量(Yi,Xi)中,将Xi视为给定(等于xi),将Yi视为来自总体Y的随机变量Y服从正态分布N(+x,2),所以Yi服从正态分布N(+xi,2)则斜率估计值b是随机变量Yi的线性函数,也服从正态分布斜率系数估计值斜率系数估计值b的期望值的期望值斜率系数估计值斜率系数估计值b的方差的方差所以,斜率系数估计值所以,斜率系数估计值b的分布:

的分布:

用严格的条件分布表示:

用严格的条件分布表示:

b的分布例的分布例生活费续生活费续3个学生,年级X为1、2、3,月生活费Y分别是1、2、2千元,求斜率估计值b的分布,增加1个4年级学生,该分布会怎么变化?

第第2节节回归模型的检验回归模型的检验为什么必须对回归结果进行检验为什么必须对回归结果进行检验从总体看从总体看(population)回归的主要目的是揭示一种现象Y如何受其他现象X的影响X对Y的影响可分为三种情况:

正、负、0其中=0表示X对Y没有影响,回归模型无效从样本看从样本看(sample)利用样本数据计算的斜率估计值b是随机变量b的三种取值情况不一定对应参数的三种情况特别是,当b0,而=0,相当于“歪曲总体”,应尽量避免这种错误回归结果的两类检验回归结果的两类检验第一类:

回归的系数检验第一类:

回归的系数检验对单个系数的估计值进行t检验若检验结果显著,则该系数的变量对因变量有影响,否则无影响第二类:

回归的模型检验第二类:

回归的模型检验判断所有的自变量组成的模型对因变量是否有说明力模型的设定(modelspecification)是否存在问题三个基本的模型检验:

判定系数、F检验、DW检验(仅限时序列回归)系数估计值的系数估计值的t分布分布系数估计值为正态分布系数估计值为正态分布22未知,用回归的残差均方代替,转化为未知,用回归的残差均方代替,转化为tt分布分布系数估计值在系数估计值在t分布下的特点分布下的特点为使系数估计值尽量准确,就要减少其标准差为使系数估计值尽量准确,就要减少其标准差增加样本观察值的数量n(n至少要大于系数的个数)增加自变量的方差,即采样要广泛减少残差,即多用对Y有说明力的自变量b的的t分布例分布例生活费续生活费续3个学生,年级为1、2、3,月生活费分别是1、2、2千元,估计方程为求斜率估计值b的t分布系数的系数的t检验检验要检验的假设要检验的假设检验在总体中,X对Y的影响是否存在,即显著水平一般设为0.05检验使用的统计量检验使用的统计量系数估计值的t值设H0正确,则=0检验中的临界值检验中的临界值H0正确时,系数估计值除以其标准差就是系数估计值的t值,服从t分布将拒绝H0的最大概率设为0.05因为已设定H0正确,所以0.05也就是检验中第一类错误的最大概率在样本够大时(比如在样本够大时(比如20以上),对应的左右临界值以上),对应的左右临界值2检验结果检验结果当当|t值值|2,或者,或者p值值0.05,检验显著,拒绝,检验显著,拒绝H0,0,表示在回归的总体模型中,表示在回归的总体模型中,X对对Y存在影响,基于样存在影响,基于样本的估计值本的估计值b有效有效当|t值|0.05,检验不显著,接受H0,=0,表示在回归的总体模型中,X对Y不存在影响,基于样本的估计值b无效系数的系数的t检验图示检验图示H1区域:

区域:

0H1区域:

区域:

00面积=0.025面积=0.025H0正确时,正确时,系数估计值的系数估计值的t分布分布系数系数的的t检验例检验例生活费续生活费续3个学生的样本,回归估计方程为对斜率系数进行t检验系数系数t检验:

根据检验:

根据EViews的回归结果的回归结果在在EViews中,用年级对生活费做回归,系数估计中,用年级对生活费做回归,系数估计结果如下结果如下利用软件的回归结果做系数利用软件的回归结果做系数t检验检验常数项的t检验一般省略年级的系数的p值=0.330.05,所以该系数在0.05水平下不显著,表明年级对生活费没有影响Variable(自变量自变量)Coefficient(系数系数)Std.Error(标准差标准差)t-Statistic(t值值)Prob.(p值值)C(常数项常数项)0.670.621.070.48X(年级年级)0.500.291.730.33系数系数t检验:

根据检验:

根据Excel的回归结果的回归结果在在Excel中,用年级对生活费做回归,系数中,用年级对生活费做回归,系数估计结果如下估计结果如下与与EViews的结果一样,的结果一样,t检验方法也一样检验方法也一样系数系数标准误差标准误差tt值值PP值值Intercept(Intercept(常数项常数项)0.670.670.620.621.071.070.480.48XVariable1(XVariable1(年级年级)0.500.500.290.291.731.730.330.33回归的模型检验:

平方和分解回归的模型检验:

平方和分解因变量因变量Y的离差平方和(的离差平方和(SST)回归就是用X的变化说明Y的变化Y的变化=Y的样本值与样本均值的离差平方和则Y的变化中,与X有关的变化可以衡量X对Y的说明力Y的离差平方和可分解为的离差平方和可分解为SSR+SSEY的平方和分解中的自由度的平方和分解中的自由度平方和分解例平方和分解例生活费续生活费续3个学生的样本,年级X为1、2、3,月生活费Y分别是1、2、2千元回归估计方程为平方和分解平方和分解回归的模型检验:

判定系数回归的模型检验:

判定系数判定系数判定系数(coefficientofdetermination,R2)所有自变量对因变量的说明程度,或者说回归模型的拟合程度例:

生活费回归例:

生活费回归调整判定系数(调整判定系数(adjustedR2)在回归模型中,增加任何一个自变量,都会增大R2,自变量与Y关系越强,R2增幅越大为避免将与Y无关的自变量加入模型,每增加一个自变量,对R2适当扣减,就是调整判定系数或称调整R2例:

生活费回归例:

生活费回归(样本为样本为3,自变量个数为,自变量个数为2)调整判定系数的运用调整判定系数的运用如果添加一个自变量导致调整判定系数减少了,则该自变量对模型的贡献可或略,考虑舍去回归的模型检验:

回归的模型检验:

F检验检验要检验的问题:

模型是否有效要检验的问题:

模型是否有效如果在总体中,所有的自变量都对Y无影响,则回归分析是无意义的,样本回归获得的系数估计值b0是对总体的“歪曲”检验的假设检验的假设检验的统计量:

检验的统计量:

F值值显然,F值越大,Y的变化中被自变量说明的部分越大,自变量的说明力越强,模型越有效F检验的结果检验的结果一般根据F值的实际显著水平,就是F值对应的p值(两者关系:

F值越大,p值越小)在0.05显著水平下,若p值0.05,检验显著,拒绝H0,即在回归的总体模型中,至少有一个斜率系数不为0,模型有效。

至于哪些斜率系数有效,使用前述的系数t检验判断若p值0.05,检验不显著,接受H0,即在回归的总体模型中,所有斜率系数都是0,模型无效,回归获得的估计值b无意义如何使回归模型有效(获得较大的如何使回

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 初中教育 > 语文

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1