北航数理统计回归分析大作业Word格式.docx-资源下载

北航数理统计回归分析大作业Word格式.docx

1、农业受灾面积（千公顷）建筑业人口（万人）社会商品零售总额（亿元）国民生产总值（亿元）199018689.227662.13847413451143338300.12937.118718.3199122088.688157554721564.31158239415.63149.4821826.2199227724.219084.7513332174.411717110993.73483.3726937.319933969310995.5488293253.511851714270.44348.9535260.0199451353.0315750.5550434653.311985018622.9

2、5218.148108.5199554946.8620340.9458215793.812112123613.86242.259810.5199662740.1622353.7469898282.212238928360.27407.9970142.5199768352.6823788.4534299126.512362631252.98651.1478060.8199867737.1424541.9501451006212476133378.19875.9583024.3199972707.0424519.14998111152.912578635647.911444.0888479.220

3、0085673.6624915.85468812497.612674339105.713395.2398000.5200195448.9826179.65221515361.512762743055.416386.04108068.22002110776.4827390.847119.118527.112845348135.918903.64119095.72003142271.2229691.854506.323083.812922752516.321715.25135174.02004201722.193623937106.25627745.31299885950126396.471595

4、86.72005251619.539450.938818.22534552.013075667176.631649.29185808.62006316588.9640810.841091.4141557.11314487641038760.2217522.72007405177.1348892.935972.2351043.71321298921051321.78267763.72008130260.233702.056234.2618743.213280211603261330.35316228.82009135239.935226.050223.5122398.81334741489468

5、518.30343464.72.2 模型的建立与分析将数据录入统计软件excel，建立统计数据库，先建立财政收入与各变量的散点图，如图2-1至图2-7所示。图2-1 财政收入与工业总产值的散点图图2-2 财政收入与农业总产值的散点图图2-3 财政收入与受灾面积的散点图图2-4 财政收入与建筑业的散点图图2-5 财政收入与人口总数的散点图图2-6 财政收入与商品零售总额的散点图图2-7 财政收入与国内总产值的散点图从散点图中看出，国内生产总值、工业生产总值、农业、建筑业、商品零售总额这四个变量与财政收入总量基本呈线性分布；而人口总数虽然也与财政收入存在正比的关系，但是从直观上看线性关系不显著，

6、并且人口因素呈现指数关系。受灾面积与财政收入总量的关系不明显。因此为使得到的模型有显著的线性关系，在选取进入回归模型的自变量时，就要进行筛选。下面给出筛选过程。（1）将国内生产总值、农业、工业生产总值、建筑业和商品零售总额纳入自变量，逐步回归法，输出结果如图2-8（a）（b）所示。从结果可以看出，该回归的F值为1600.595，查表得，显而易见，回归的显著性很好；但是由于在这里我们要分析的是影响财政收入的具体产业，而该结果只说明了财政收入与国民生产总值的相关性很好，并不能说明问题的根本所在。所以在下面的分析中我们将剔除国民生产总值这个因素做进一步的分析。Anovab模型平方和df均方FSig.

7、1回归7.506E91600.595.000a残差8.441E7184689341.382总计7.590E919a. 预测变量: （常量）, 国民生产总值b. 因变量: 财政收入模型汇总bRR 方调整标准估计的误差更改统计量Durbin-WatsonR 方更改F 更改df1df2Sig. F 更改.994a.989.9882165.489.000.200图2-8（a）（b）输出结果（2）将工业生产总值、农工、建筑业和商品零售总额纳入自变量，逐步回归法，输出结果如图2-9（a）（b）（c）所示。4.757E930.2152.834E91.574E8 （常量）, 农业调整Durbin-Wats

8、on.792a.627.60612546.807.390图2-9（a）（b）（c）输出结果从结果可以看出，该回归的F值为30.215，查表得但是对回归系数的显著性来说，从直方图中可以看出，采用以上三个变量作为自变量得到的线性模型仍不是很好。这个模型也不是理想中的模型，所以下面我们试图根据我们的判断对样本数据进行筛选，力求得出比较理想的模型。（3）下面我将农业这个变量暂且剔除，只采用工业、建筑业和商品零售总额作为自变量，采用逐步回归法，输出结果如图2-10（a）（b）所示。从结果可以看出，该回归的F值为20.219，查表得但是对回归系数的显著性来说，建筑业的t检验值为0.0002，查表得，显然

9、回归系数的显著性不好。以上检验得到的与利用P值法（图中的Sig值）得到的检验结果相符。因此，采用以上三个变量作为自变量得到的线性模型仍不是很好。同时可以看出，只对建筑业做回归分析时，F值为20.19，查表得到，这证明一元回归模型和回归系数的显著性都很好。4.015E920.2193.575E91.986E8 （常量）, 建筑业.727a.529.50314092.439.546图2-10（a）（b）输出结果（4）只将工业和商品零售总额纳入自变量，输出结果如图2-11（a）（b）所示。3.498E915.390.001a4.092E92.273E8 （常量）, 工业。系数a非标准化系数标准系数

10、t共线性统计量B标准误差试用版容差VIF（常量）4994.3655206.020.959.350.132.034.6793.923.0011.000a. 因变量:图2-11（a）（b）输出结果从上图结果中可以看出，对这两个变量做回归分析时，F值为15.39，证明一元回归模型和回归系数的显著性都很好。2.3 分析结果由以上筛选和分析过程可以看出，财政收入Y分别对X7国内总产值、X1工业总产值、X4建筑业及商品零售总额X6进行一元回归分析时，其回归的显著性都很好，但是综合为一个多元回归模型时，则出现了某些系数不显著的现象。综合比较选取的几个多元模型，将X4建筑业和X6商品零售总额纳入自变量时得

11、到的模型效果最为显著，回归方程如下：其中，。3 结论本次大作业，根据查阅中国统计年鉴，列举了影响财政收入的7个因素。从直观上考虑，人口总量与受灾面积与财政收入存在线性关系，所以特意把这两个变量列到其中，但是散点图和回归效果显示这2个因素并没有进入逐步回归模型中，由此看来，这两项因素与财政收入存在的关系可能不是严格线性的，或者这种线性关系是长期的线性关系。另外，在对进入模型的5个因素进行回归时发现，因变量对单独变量的回归性很显著，但是整合成多元回归出现了某些回归系数不显著的现象，具体原因可能是由于数据选取的太少，未能体现出长期线性这一特点。虽然得到的几个模型系数都不是很显著，但经综合比较，选取了

12、一个较为显著的模型作为最“优”解。对得到的最“优”回归模型做预测，置信度为95%。查阅中国统计年鉴，得到2009年的X4建筑业为22398.8（亿元），X6商品零售总额为14894（亿元），Y财政收入为68518.30（亿元），将自变量带入回归方程：预测区间为代入数值得到置信度为95%的预测区间为，与查得的2009年能源消耗总量68518.30（亿元）比较接近。得到的数据模型显示财政收入与建筑业、商品零售额有着密切的关系，这也很符合目前国家的经济状况。不过由于调研时间有限，上述回归模型存在一些不足，还需要不断查阅资料加以改进。但在一定程度上体现了与选取的自变量之间的线性关系，并能对因变量做出近

13、似的预测。综合来看，数据模型基本达到了预期的目的。参考文献1孙海燕,周梦,李卫国,冯伟. 应用数理统计M. 北京:北京航空航天大学数学系, 1999.2张建同,孙昌言. 以Excel和SPSS为工具的管理统计M. 北京:清华大学出版社，2002.3 国家统计局.2010年中国统计年鉴M. 中国统计出版社，2010.逐步回归法建立纳斯达克股市指数回归模型一问题描述为了研究纳斯达克股市的变化规律，建立回归方程，分析影响股票价格趋势变动的因素。这里我们选了3个影响股票价格指数的经济变量：x1是成交额（万$），x2是国际贸易金额（100万$），x3是美元汇率。本例选择成交额x1来反映市场状况。Y为股

14、票指数。本例采集了以上变量1996-2007年12年的数据资料，如表1所示。表1 1996-2007年纳斯达克股市指数年份股票指数X1是美元汇率x2是国际贸易金额x3是成交额x4优惠利率3849.08556.1085.8589468.10113.962531.73317.4030.1774462.60170.662262.34302.1026.2067884.60188.421059.94253.603.3334634.4070.191488.78279.9010.7846759.4097.451877.95290.6020.3758478.10162.847242.601333.50347

15、.85136875.9093.422949.06340.8048.0378345.20141.853349.04413.4062.9082067.50125.874637.66719.10128.0997314.80112.895480.03903.40172.55105172.30127.286208.271108.60259.01117390.20104.59二异方差问题分析1.异方差模型经典线性回归模型可以表示为，假设有n组观察值，则原模型方程可表示为：在经典线性回归模型中，假设随机误差项是一个随机变量，且服从数学期望为零，方差为一常数的正态分布，即，这一假设称为随机误差项的同方差性假

16、设。另外还假设不同观察值的随机误差项之间是不相关的，而且随机误差项与项不趋于共同变化。但在实际的经济问题中，上述假设不一定满足。比如，当自变量变化较大时（如在一些横截面数据中），的方差可能随的变化而变化；而当和之间存在一定的顺序关系时（如在时间序列中），可能与并不独立（ji）。当同方差（homosce dasticity）或等方差（equal variance）性假定不满足，也就是说，随机误差项的方差不等于一个常数，即则称随机误差项具有异方差（heteroscedasticity）或非同方差（unequal variance）性。在模型（1-3）中，除随机误差项具有异方差性外，其它基本假设都能

17、满足，则称这种模型为异方差的线性回归模型，简称异方差模型。2 异方差性的后果变量的显著性检验失去意义，在多元线性回归模型的显著性检验中,构造了t 统计量,在该统计量中包含有随机误差项共同的方差,并且有t 统计量服从自由度为（ n - k - 1）的t 分布. 如果出现了异方差性, t 检验就失去意义. 采用其它检验也是如此.模型的预测失效，一方面,由于上述后果,使得模型不具有良好的统计性质;另一方面,在预测值的置信区间中也包含有随机误差项共同的方差，所以当模型出现异方差性时,它的预测功能失效.3异方差性检验（1）残差图分析法残差图分析法是一种直观、方便的分析法，它以残差e为纵坐标，以任何其

18、他的量为横坐标画散点图。常用的横坐标有有三种选择：以拟合值为横坐标；以Xi为横坐标，i=1,2p;以观察时间或序号为横坐标。一般情况下，当回归模型满足所有假设时，残差图上的n个点的散布会应是随机的，无任何规律的。如果回归模型存在异方差，残差图上的点的散步会呈现相应的趋势。（2）等级相关系数法等级相关系数检验法又称斯皮尔曼（spearman）检验，是一种应用较广泛的方法。这种检验法既可用于大样本，又可用于小样本。（3）格莱斯尔（Glejser）检验格莱斯尔检验的中心思想是随机项的估计值e与自变量是有关系的，是自变量的函数，它随J值的增减而变化。进行格莱斯尔检验主要有两个步骤：1）以所有解释变量X

19、i来解释被解释量y，估计其参数，计算出随机项的估计值e。2）以e为被解释变量，以某个解释变量Xi为解释变量，建立如下方程：以Xi的不同幂次的形式f（Xi）,分别估计两个参数，选择最佳的拟合形式，并对它们的显著性进行检验。如果它们显著性不为0，则认为异方差性存在，因为随机项与Xi存在相关性。否则就具有同方差性。4 异方差性问题的处理方法当研究的问题存在异方差性时，就违背了线性回归模型的假设。此时，就不能用普通最小二乘法进行参数估计，必须寻求适当的补救方法，对原来的模型进行变换，使变换后的模型满足同方差性假设，然后进行模型参数的估计，就可到理想的回归模型。消除异方差性的方法通常有加权最小二乘法（W

20、eighted Least Square）、BOX-COX变换法、方差稳定性变换法。在SPSS软件中提供了加权最小二乘法。三多重共线性分析在多元线性回归模型的基本假设中，假定解释变量之间不存在密切的线性关系。如果存在，则称它们存在多重共线性（Multi-Collinearity）。1多重共线性带来的问题当回归模型存在多重共线性时，有rk（x）p+1,所以不存在。这样参数向量的也不存在,对角线元素较大，所以参数向量的协方差也很大。这样虽然用OLSE还能得到参数向量的无偏估计，不能正确判断解释变量的影响程度，使估计精度降低，并且估计结果的波动性很大，这严重影响了估计量的经济意义解释。2 多重共线

21、性的诊断本文介绍三种诊断方法（1）判定系数法设有p个自变量的回归模型为：y=f（x1,x2,.,xp），为了诊断多重共线性，使模型中每一个解释变量分别为其余解释变量作为解释变量构造p个回归方程：X1=f（X2,X3,Xp）;X2=f（X1,X2,Xp）;Xj=f（X1,X2,.Xj-1,Xj+1,Xp）;Xp=f（X1,X1,.Xp）对上述p个方程进行参数估计，并计算样本决定系数。若这些决定系数中的最大者接近1，比如说，则说明该变量Xj可以用其他解释变量线性表示，则存在多重共线性。并且还同时找出了多重共线性的表达式。这种方法比较适合于解释变量少的模型。这种方法可以在SPSS软件上完成。（2）条件数被称为方差的条件数（Condition Number）.利用条件数可以度量的特征根散布程度，可以用它来判断多重共线性是否存在以及多重共线性的严重程度。通常认为0k100时，设计矩阵X没有多重共线性；1001000,则认为存在严重的多重共线性。在SPSS软件中没有该方法。（3）方差扩大因子设为Xj对其余p-1个变量的复相关系数，则被称为方差扩大因子（Variance inflation Factor,简记为VIF）。如果记的方差仅差一个因子，是由两个因子构成，且与OLSE的方差仅差一个因子。因为度量了自变量Xj与其余p-1个自变量的线性依赖度，这种相关程度越强

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？