1、2 解决问题的方法与计算结果2.1 样本数据的采集本文在进行统计时,查阅中国统计年鉴中收录的2010年全国31个省份关于粮食总产量、播种面积、有效灌溉面积、化肥施用量、受灾面积、乡村办水电站相关数据,并将粮食总产量作为因变量,其余各项数据为自变量。具体数据如表2-1所示。表2-1 2010年全国各省份粮食产量及可能影响因素统计表地区安徽3080.59053.43519.8319.81752.0810.0北京115.7317.3211.413.73.072.0福建661.92270.8967.5121.0605.06606.0甘肃958.33995.21278.485.31304.0736.0广
2、东1316.54524.51872.5237.3724.09641.0广西1412.35896.91523.0237.21665.02266.0贵州1112.34889.11131.786.51681.01367.0海南180.4833.7243.846.4306.0323.0河北2975.98718.44548.0322.91527.0236.0河南5437.114248.75081.0655.21568.0545.0黑龙江5012.812156.23875.2214.91432.071.0湖北2315.87997.62379.8350.82466.01751.0湖南2847.58216.1
3、2739.0236.62841.04158.0吉林2842.55221.41726.8182.8896.0209.0江苏3235.17619.63819.7341.1648.0133.0江西1954.75457.71852.4137.62075.03517.0辽宁1765.44073.81537.5140.1756.0170.0内蒙古2158.27002.53027.5177.22033.037.0宁夏356.51247.9464.637.9145.01.0青海102.0546.9251.78.8111.0213.0山东4335.710818.24955.3475.32582.089.0山西1
4、085.13763.91274.2110.41396.0168.0陕西1164.94185.61284.9196.81122.0585.0上海118.4401.2201.011.80.0四川3222.99478.82553.1248.02324.04135.0天津159.7459.3344.625.533.0西藏91.2240.2237.04.751.0401.0新疆1170.74758.63721.6167.61307.0455.0云南1531.06437.31588.4184.63215.01690.0浙江770.71451.092.2283.03175.0重庆1156.13359.468
5、5.391.8575.01251.0注:、分别代表粮食总产量(万吨)、播种面积(千公顷)、有效灌溉面积(千公顷)、化肥施用量(万吨)、受灾面积(千公顷)、乡村办水电站个数。2.2 建模及其结果讨论本文选取粮食总产量为因变量,播种面积、有效灌溉面积、化肥施用量、受灾面积、乡村办水电站个数为自变量,建立如下统计模型:其中,是与无关的未知参量,是不可观测的随机变量。选择最优回归方程时,选用逐步回归法,它的基本思想是将一个变量引入,引入的条件是该变量的偏F检验是显著的。同时,每引入一个新变量后又要对老变量逐个检验,将变得不显著的变量从回归模型中剔除。这个过程反复进行,直至既无不显著的变量从回归方程中剔
6、除,又无显著变量可引入回归方程时为止。由此可见,逐步回归法是向前法和向后法的一种结合。将表2-1中数据录入SPSS,生成数据文件,如图2-1所示。包括2010年我国31个省份相关数据,其中“地区”为字符型变量,其余为数值型变量。图2-1 SPSS数据文件(部分)各个变量的全部观测量统计量如图2-2所示,包括,平均值、标准差以及观测量个数。图2-2 观测值统计量在图2-3中给出了相关系数矩阵表,可以从中得到各个变量之间的Pearson相关系数。从图中可以看出,粮食总产量与播种面积、有效灌溉面积、化肥施用量存在显著相关关系。图2-3 相关系数矩阵图2-4给出了输入、剔除的变量,从表中我们可以看出播
7、种面积与有效灌溉面积成为输入变量,而其他变量被剔除。图2-4 输入/剔除变量表图2-5给出了模型整体拟合效果的概述,从表中我们可以看出,模型1的拟合优度系数为0.918,模型二的拟合优度系数为0.935,反映了因变量与自变量之间具有高度显著的线性关系,但是DW=1.486,可能存在序列相关。图2-5 模型概述图图2-6给出了方差分析表,可以看出模型一回归平方和为54112049.640,残差平方和为10118458.066,模型二回归平方和为56125565.788,残差平方和为8104941.920,总平方和为64230507.708,模型二中回归平方和解释了总发平方和的更大部分,此外,根据
8、F统计量与Sig可知,两个模型的显著性都很高。图2-6 方差分析图图2-7给出模型参数表,从中可以看出各变量的VIF都不超过10,同时给出了回归系数和变量显著性检验的T值,通过表中的回归系数可以算出两个模型的回归模型,并且通过变量显著性检验的T值,对变量的显著性进行检验,可以看出两个模型解释变量的显著性水平都非常小,甚至趋于0,可以认为解释变量的系数很显著。图2-7 模型参数图图2-8给出了已排除的变量表,从表中可以看出,在模型一中,被排除的变量为有效灌溉面积、化肥施用量、受灾面积、乡村办水电站个数,而模型二中,被排除的变量为化肥施用量、受灾面积、乡村办水电站个数。图2-8 已排除变量表图2-
9、9给出了共线性诊断表,可以看出其中的Condition Index3,可能存在奇异值。图2-10 残差统计图图2-11给出了残差分析图,其中横坐标X为标准化残差,纵坐标Y为因变量,从图中可以看出散点呈随机分布,且随机分布在标准化残差0值两侧,因此可以认为模型的方差性检验通过,并且模型的拟合程度良好。图2-11 残差分析图图2-12、2-13分别给出了残差分布直方图与正态概率P-P图。从这两张图中我们可以判断回归后的实际残差是否符合我们以前残差正态的假设,由2-12看出残差分布不是很明显地服从正态分布,但介于我们样本数量较少,又根据2-13点基本散布在斜线附近,因此,可以认为残差分布基本上是正态
10、的。图2-12 残差分布直方图图2-13 正态概率P-P图3 结论在上述建模过程中,通过对采集数据用逐步回归法进行了保留与剔除,得出两个较为合适的模型,我们对两个模型进行了方差分析、偏回归系数检验、方差齐性检验、残差的正态检验。并且通过对两个模型的拟合优度系数,回归平方和占总平方和的比例,最终选择模型二,即(单位:万公顷)认为它的拟合效果更好,更能真实反映全国粮食总产量,并利用此模型对次年粮食总产量的数值进行预测。同时,由于样本数量少,时间不够充裕,模型也存在一些不足,包括DW值小于2,可能存在回归模型中误差项不独立的情况,还有标准残差最大绝对值稍大于3,可能存在奇异值,这些都有可能对我们模型的估计与结论产生不好的影响。不过综合来看,该模型满足一般需求,能够对全国粮食总产量进行基本的预测。参考文献1 孙海燕, 周梦, 李卫国, 冯伟. 应用数理统计M. 北京: 北京航空航天大学数学系, 2014: 167-1902 吕振通,张凌云. SPSS统计分析与应用M. 北京: 机械工业出版社, 2009: 94-1053 李兴绪,殷溪源. SPSS经济统计分析M. 北京: 中国统计出版社, 2008: 169-1854 国家统计局. 中国统计年鉴M. 中国统计出版社, 2011: 466, 473, 477, 492
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1