数理统计大作业两项Word格式.docx

资源描述

数理统计大作业两项Word格式.docx

《数理统计大作业两项Word格式.docx》由会员分享，可在线阅读，更多相关《数理统计大作业两项Word格式.docx（22页珍藏版）》请在冰豆网上搜索。

数理统计大作业两项Word格式.docx

散点图结果如图1所示。

（a）（b）

（c）（d）

（e）（f）

（g）（h）

图1因变量与各自变量的散点图

（a）农业总产值与粮食产量散点图；

（b）农业总产值与棉花产量散点图；

（c）农业总产值与油料产量散点图；

（d）农业总产值与蔬菜散点图；

（e）农业总产值干鲜果品产量散点图；

（f）农业总产值与猪牛羊肉产量散点图；

（g）农业总产值与禽蛋产量散点图；

（h）农业总产值与水产品产量散点图

从图1中不难发现，农业经济总产值与粮食产量、蔬菜产量、干鲜果品产量、猪牛羊肉产量具有良好的线性关系，而与棉花产量、油料产量和禽蛋产量没有明确的线性关系。

水产品产量虽然与农业经济总产值呈现较强的线性关系，但是二者是负相关的，即布产量越大，农业经济总产值越小，这样不符合我们建立线性回归模型的初衷，也与建立模型的两个假设相背。

经分析，某些变量与农业经济总产值不呈正的线性相关的原因主要有两个：

1）与第一个假设相背。

即这些农产品的价格并不是一个常数，而会随着时间的推移、生产工艺的改进、产品的淘汰等原因产生变动。

当价格变动范围较大时，产品的总产值和总产量就不是线性关系了，应当用别的模型来近似。

2）与第二个假设相背。

即这些农产品的总产值对于农业经济总产值的贡献非常小，以至于某种农产品总产值的变化不足以引起农业经济总产值的变化。

如图1，可以明显发现最后三种轻农产品的产量与农业经济总产值都不具有良好的正的线性关系，而前六种重农产品中有五种与农业经济总产值呈现强的线性关系，说明重农在农业经济中占的比重比轻农要大。

在后来的逐步回归分析结果中我们可以看到，这些不符合假设条件，与农业经济总产值呈弱的或者负的线性关系的自变量都被排除到回归模型之外了。

但是并不是说所有与因变量呈强线性关系的自变量都在回归模型中，在最终确定回归方程之前还应当应当用逐步回归方法进行分析。

3．逐步回归分析

3.1线性回归的方法

线性回归是描述一个因变量Y与一个或多个自变量X之间的线性依存关系。

根据一批样本值来估计这种线性关系，建立回归方程，用回归方程进行预测和控制。

在多元线性回归分析中，选择“最优”回归方程的方法有强行进入法、消去法、向前选择法、向后剔除法和逐步回归法。

1）强行进入法：

选择的自变量全部进入回归模型。

2）消去法：

建立回归方程时，根据设定的条件剔除部分自变量。

3）向前选择法：

从模型中无自变量开始，然后设定判据，每次将一个最符合判据的变量引入模型，直至所有符合判据的变量都进入模型为止。

4）向后剔除法：

先建立全模型，然后设定判据，每次剔除一个最不符合进入模型判据的变量。

5）逐步回归法：

向前选择法和向后剔除法的结合，先设定判据，选择符合判据且对因变量贡献最大的自变量进入回归方程，然后根据向后剔除法，将模型中贡献最小的且符合剔除判据的变量剔除出模型，重复进行直到回归方程中的自变量均符合进入模型的判据，模型外的都不符合进入模型的判据为止。

本实验采用逐步回归法。

3.2线性回归的结果及分析

利用表1中的数据建立回归模型，用SPSS软件的线性回归分析功能，得到以下数据。

表3中可以看出粮食产量、蔬菜产量和干鲜果品产量这三个自变量经过逐步回归过程被选择进入了回归方程。

选择的判据是变量进入回归方程的F的概率不大于0.05，剔除的判据是变量进入回归方程的F的概率不小于0.10。

选择的过程是，最先引入了变量

，建立了模型1；

接着引入变量

，没有变量被剔除，建立了模型2（含有

、

）；

最后引入变量

，没有变量被剔除，建立了模型3，故最终的模型中含有变量

。

表3引入或从模型中剔除的变量

输入／移去的变量a

模型

输入的变量

移去的变量

方法

步进（准则:

F-to-enter的概率<

=.050，F-to-remove的概率>

=.100）。

a.因变量:

农林牧渔业总产值

表4拟合过程小结

模型汇总

R方

调整R方

标准估计的误差

.986a

.972

.969

5.4267

.998b

.996

.994

2.2761

.999c

.998

.997

1.6835

a.预测变量:

（常量）,粮食。

b.预测变量:

（常量）,粮食,干鲜果品。

c.预测变量:

（常量）,粮食,干鲜果品,蔬菜。

表4显示各模型的拟合情况，模型3的复相关系数R=0.999，可决系数

=0.998，调整可决系数为0.997，估计值的标准差为1.6835。

可见模型3的拟合度较高，变量

的作用显著。

表5显示各模型的方差分析结果。

方差分析结果表明，当回归方程为模型1、2、3时，其显著性概率值均小于0.001，即拒绝总体回归系数均为0的原假设。

因此，最终的回归方程应当包含粮食产量,干鲜果品产量,蔬菜产量这3个自变量，且方程拟和效果很好。

表5方差分析

Anovad

平方和

均方

Sig.

回归

8190.902

278.136

.000a

残差

235.594

29.449

总计

8426.496

8390.231

4195.116

809.766

.000b

36.265

5.181

8409.491

2803.164

989.048

.000c

17.005

2.834

d.因变量:

表6显示方程外各模型变量的有关统计量，即标准化偏回归系数Beta、回归系数显著性检验的t值、P（Sig）值、偏相关系数PartialCorrelation、共线性统计的容差CollinearitystatisticTolerance。

可见，模型3方程外的各变量偏回归系数经检验，P值均大于0.11，故不能引入方程。

表6逐步回归过程中不在方程中的变量

已排除的变量d

BetaIn

偏相关

共线性统计量

容差

VIF

最小容差

.101a

1.948

.092

.593

.971

1.030

-.054a

-.654

.534

-.240

.546

1.832

.497a

4.071

.005

.838

.080

12.542

.277a

6.203

.000

.920

.309

3.238

.426a

.337

.363

.020

49.373

.094a

1.519

.173

.498

.779

1.284

-.142a

-1.367

.214

-.459

.292

3.428

.012b

.351

.738

.142

.626

1.597

.199

-.034b

-1.021

.347

-.385

.541

1.850

.261

.232b

2.607

.040

.729

.042

23.638

.200b

1.147

.295

.424

.019

51.834

.015b

.433

.680

.174

.602

1.660

.191

-.059b

-1.273

.250

-.461

.263

3.798

.219

.027c

1.165

.297

.462

.594

1.685

-.015

.988

-.007

.393

2.544

.031

-.029c

-.158

.881

-.070

.012

86.500

-.008c

-.299

.777

-.133

.526

1.900

.037

.011c

.196

.852

.087

.137

7.293

.022

a.模型中的预测变量:

b.模型中的预测变量:

c.模型中的预测变量:

表7显示各模型的偏回归系数B、标准差Std.Error、常数Constant、标准化偏回归系数Beta、回归系数显著性检验的t值和P（Sig）值。

按照模型3建立的多元线性回归方程为：

（2）

方程中的常数项

，偏回归系数

，经t检验

的P值分别为0.000、0.000、0.005、0.040，按α=0.10水平，均有显著性意义。

表7回归计算过程中各方程系数表

系数a

非标准化系数

标准系数

标准误差

试用版

（常量）

127.089

6.210

20.466

.946

.057

.986

16.677

1.000

91.864

6.248

14.704

.725

.043

.756

16.940

.717

.116

.277

84.865

5.344

15.879

.576

.065

.600

8.794

.072

13.846

.507

.117

4.323

.164

6.103

.094

.036

.232

表8显示残差统计的结果，标准化残差的绝对值最大为1.286，小于设定值3。

如超过3，则显示具体观察单位Casenumber的标准化残差，以帮助发现离群点。

表8残差统计量

残差统计量a

极小值

极大值

均值

标准偏差

预测值

179.029

272.737

226.620

30.5678

标准预测值

-1.557

1.509

预测值的标准误差

.632

1.367

1.043

.227

调整的预测值

175.986

270.603

226.168

30.7402

-2.1642

1.7404

.0000

1.3746

标准残差

-1.286

1.034

.816

Student化残差

-1.554

1.599

.095

1.098

已删除的残差

-3.1640

4.6143

.4516

2.5960

Student化已删除的残差

-1.836

1.928

.127

1.206

Mahal距离

.368

5.036

2.700

1.495

Cook的距离

1.239

.280

.385

居中杠杆值

.041

.560

.300

.166

图2农业经济总产值的预测值与其Student化残差散点图

从图2的农业经济总产值的预测值与其Student化残差散点图中可以看到，所有观测量随机地落在垂直围绕±

2的范围内，预测值与Student化残差值之间没有明显的关系，所以回归方程应该满足线性与方差齐性的假设且拟和效果较好。

3.3线性回归的结果及分析

多元线性回归方程为：

代入2006年的统计数据，得到

2006年农业经济总产值的实际值为8210.0亿元，误差为

可见回归模型的预测还是比较准确的。

4．总结与讨论

本文以北京市农业经济总产值为例，分析了农业经济总产值与各种农产品产量的关系。

首先分析了农业经济总产值与各种农产量的线性关系，建立了线性回归模型，再利用逐步回归法进行回归分析，得到最符合实际情况的回归模型。

从最终的线性回归模型中我们可以看到，农业经济总产值可以由粮食产量,干鲜果品产量,蔬菜产量很好地解释。

原因主要有两个方面，首先，粮食、干鲜果品产量、蔬菜产量属于日常消费量很大的基础性农产品，具有良好的价格稳定性，符合前文提到的第一个假设。

然后，这三类产品在北京市的农业经济占较大的比重。

这三个产业的产量浮动将影响整个北京市农业经济总产值。

粮食和蔬菜产量占比重大的主要原因是北京市有大量居民，这些居民的日常饮食所带来的需求量很大，而随着生活质量的提高，对均衡营养的追求使得干鲜果品已成为人们生活中不可缺少的一部分。

同时也可以看到，尽管猪牛羊肉的产量与农业经济总产值也具有一定的线性关系，但由于近年来猪肉价格飞涨，并不具有良好的价格稳定性，因而不满足前文的第一个假设，所以逐步回归分析过程中这一变量被剔除了。

然而，最终的结果显示，拟合曲线和实际点还是有一个一定的偏差，而且最终分析得到的自变量个数也比较少，可能还有其他产业较显著的影响了农业经济总产值，有待进一步考察。

参考文献

[1]孙海燕,周梦,李卫国,冯伟,应用数理统计,北京航空航天大学,2004.9

[2]周复恭,黄运成,应用线性回归分析,中国人民大学出版社,1989.8

[3]北京市统计信息网,2009北京市统计年鉴

[4]倪青山,刘小丹,SPSS应用•实验教程,湖南大学出版社,2007

地区生产总值及经济发展状况的统计分析

学号：

本文运用统计学方法，基于从2006和2007年度分地区生产总值的各项指标数据对各省市自治区经济发展状况进行了分类研究。

研究结果显示了我国各省市的经济优势地区和经济薄弱地区，对更好地进行统筹规划，促进各地区经济健康协调发展有积极意义。

对各地区的经济发展状况进行的聚类和判别分析结果显示，北京﹑上海﹑山东﹑广东等东部沿海省份及直辖市在经济发展中处于领先地位，属于经济较发达地区；

辽宁﹑湖南﹑河南等中部省份处于中游，属于中等发达地区；

而位于我国西部的西藏﹑青海﹑宁夏等省份，经济发展较为缓慢，属于欠发达地区。

分析结果与我国目前地区经济发展情况基本相符。

地区生产总值，地区经济发展，SPSS，聚类分析，判别分析

1.引言

国内生产总值是某国家领土面积内的经济情况的度量。

是指在一定时期内（一个季度或一年），一个国家或地区的经济中所生产出的全部最终产品和劳务的价值，常被公认为衡量国家经济状况的最佳指标。

它不但可反映一个国家的经济表现，更可以反映一国的国力与财富。

地区生产总值是指由地方政府组织、支配的生产总值。

是地方经济建设、政府机器运行和各方面事业发展的关键因素和物质基础。

分地区生产总值可以较为准确反映地区经济发展状况，通过建立地区生产总值模型，对各地区经济发展状况进行分类，具有一定的准确性和合理性。

本文应用数理统计软件SPSS对各地区生产总值进行聚类和判别分析，分析和评定各地区经济发展情况，同时对各地区进行分类，确定经济优势地区和经济薄弱地区。

2.地区经济发展的聚类和判别分析

分地区生产总值主要包括的内容有:

（1）第一产业:

包括农、林、牧、渔业。

（2）第二产业:

包括工业及建筑业。

（3）第三产业:

包括交通运输、仓储和邮政业、批发和零售业、住宿和餐饮业、金融业、房地产业及其他产业。

（一）相关自变量的选择

本文从分析各地区生产总值的主要内容出发，展开对地区经济发展的聚类分析。

鉴于第一产业的各个元素在地区生产总值中所占比重不大，为了便于分析，我们将农林牧渔等第一产业部分合为一类，与工业、建筑业、交通运输、仓储和邮政业、批发和零售业、住宿和餐饮业、金融业、房地产业、其他产业等元素一起作为自变量进行聚类分析和判别分析。

需要聚类和判别的地区为北京、上海等31个省市、自治区、直辖市（不包括港澳台地区）。

我们选用2006和2007年度地区生产总值的数据进行分析（2006年度数据来自中国统计年鉴2007，2007年度数据来自中国统计年鉴2008，见附件）。

（二）聚类分析

首先采取系统聚类法（hierarchicalcluster）进行对所有31个地区聚类分析（数据为2007年度地区生产总值）：

表1处理过程汇总

表1表示所有观测量都加入聚类判别分析，没有遗漏。

表2聚类过程小结

聚类进度表，表中列出了观测量或类合并的详细步骤。

图1树状谱系图

图中横向聚类表示差异的大小，从图中可以清晰的看出整个的观测量的聚类过程。

分析结果显示，青海、宁夏、海南、西藏、贵州、甘肃、重庆、新疆和云南等省份可以划归一类，它们在经济发展中处于不利地位，是经济欠发达地区。

北京、河北、河南、上海、浙江、江苏、山东、广东等省份作为经济较发达地区，可以划归另一类。

其余省份划归第三类，为经济中等发达地区。

下面基于做好的分类对结果进行判别分析，确定聚类结果的准确性。

（三）判别分析

为了鉴别聚类分析结果的准确性，我们选用2006年相同地区的数据对上述分类进行判别分析。

在这里我们选用Fisher判别法构造判别函数。

分析结果如下：

表3案例分析过程

表3表明所有变量都进入了判别分析。

表4变量表

用逐步分析方法选择用于构造判别函数的变量。

表5逐步分析法变量表

表6特征值

Eigenvalues代表用于分析的前两个典则判别函数的特征值,是组间平方和与组内平方和之比值。

最大特征值与组均值最大的向量对应,第二大特征值对应着次大的组均值向量。

表7标准化的典则判别式函数系数

标准化的典则判别式函数系数（使用时必须用标准化的自变量）。

由图可知Fisher判别法构造的两个典则判别函数为：

Y1=1.275X1+1.824X2-1.654X3

Y2=-0.639X1-0.815X2-0.065X3

表8结果

预测分类结果小结,可以看出初始分组的正确率。

表9详细分类结果

从图中我们可以看出，有一个观测量被错误地分到了第1类上，这个观测量是16山东。

预测结果应是第二类，但不排除是此地区2006年的发展使其经济状况改善的结果。

上图为观测量分类点图，从图中我们可以清楚地看到观测量的分类情况，可见三个类型的中心点距离较远，区分效果较好。

3.问题的总结及研究意义

本文以SPSS16.0为分析工具，通过地区生产总值对地区经济发展进行了聚类和判别分析，对我国各地区经济发展状况有了初步的了解。

总体来说，我国经济发展东强西弱的结果没有改变。

我国东部沿海各省份的经济发展明显强于中西部地区；

中部地区经济地位近年来不上不下；

而位于我国西部偏远地区的

展开阅读全文