题目基于R对国内各省市区主要经济指标的相关性分析与回归分析 2.docx

资源描述

题目基于R对国内各省市区主要经济指标的相关性分析与回归分析 2.docx

《题目基于R对国内各省市区主要经济指标的相关性分析与回归分析 2.docx》由会员分享，可在线阅读，更多相关《题目基于R对国内各省市区主要经济指标的相关性分析与回归分析 2.docx（19页珍藏版）》请在冰豆网上搜索。

题目基于R对国内各省市区主要经济指标的相关性分析与回归分析 2.docx

题目基于R对国内各省市区主要经济指标的相关性分析与回归分析2

基于R对国内各省、市、区GDP与主要经济指标的回归分析

学号：

************姓名：

杨治峰班级：

地矿学院（“三矿”专业）

摘要：

基于对2012年国内生产总值的数据分析，找出我国GDP与多个指标，尤其是对投资、消费、出口等基本指标的依赖关系，运用相关分析和回归分析方法，建立回归模型，找出我国GDP的增长受社会固定资产依赖性较强，尤其是东部的山东省，也受制于出口收入，而我国消费水平依然不高的问题并为之提出改进措施和经济发展的预测，对国家各地区经济的科学发展建言献策

关键词：

R语言、相关分析、回归分析、中国GDP

1引言

在当前复杂多变的国际经济形势下，我国国民生产总值（GDP）依然保持较快发展，国民生产总值是一个综合指标，依赖于多个指标的良性组合。

世界各国都十分重视GDP结构问题的研究。

本文基于对2012年国内生产总值的数据分析，找出我国GDP与多个指标，尤其是对投资、消费、出口等基本指标的依赖关系，建立回归模型，尝试着探索出我国GDP存在的结构性问题和不足之处，并为之提出改进措施和经济发展的预测，对国家各地区经济的科学发展建言献策！

2.数据与分析方法

2.1.数据描述性统计

2.1.1.数据源的格式化处理

R软件在读入excel数据源的时候，必须先对数据源进行格式化处理和调整才可以达到R软件的读取标准。

如表头的单行单列、文字间空格符号的消除等，调整完后，依据个人习惯将数据存入txt文本格式，命名为“ryuan.txt”。

2.1.2.数据的读取

>A=read.table（"ryuan.txt",header=T）

#解析变量成y,x1,x2,x3,x4,x5,x6,x7,;

X=A[,c（1,4,2,9,6,8,3）]

y=A[,c

（1）]#地区生产总值（亿元）

y2=A[,c（4）]#人均地区生产总值（元）

x1=A[,c

（2）]#社会固定资产投资（亿元）

x2=A[,c（9）]#出口总额（亿美元）

x3=A[,c（6）]#城镇人均消费支出（元）

x4=A[,c（8）]#农民人均消费支出（元）

x5=x3+x4#各地区人均消费总额（元）

x6=A[,c（3）]#各地区居民消费价格指数

B=data.frame（"地区生产总值（亿元）"=y,"社会固定资产投资（亿元）"=x1,"出口总额（亿美元）"=x2,"各地区人均总额（元）"=x5）

2.1.3.对读入的数据进行描述性统计。

根据研究需要，先将数据进行结构性分析，找出解释变量和被解释变量，并将其按列抽取出来，做解析变量，方便之后分析统计工作对变量的调取。

再通过R软件的强大功能对数据进行相关的的描述性统计，初步了解选取数据的各项指标，如数据类型、数据量纲等，可以清晰的看到数据如各行和各列的和、最大值、最小值、平均值、数据排序、数据方差、标准差、判断数据是否符合正态分布，更利于对数据的整体把握，找到自己想要了解的特定的数据属性。

2.2数据可视化

2.2.1.定量变量分析

定量变量的基本特征，最简单的展现定量数据的图形应该属于直方图hist函数

Hist（y）#国内生产总值的直方图

定量变量间的关系，描述两个变量之间的关系的最有用的指令是散点图plot的函数，他是R中最强大的绘图函数。

plot（y,x1,plot（y,x1,cex=1.3,lwd=2,col=2,pch=15,xlab="地区生产总值（亿元）",ylab="社会固定资产投资（亿元）"））

#地区生产总值与社会固定资产投资散点图

从上图可以看出，国民生产总值与社会固定资产投资有较强的相关关系，国民生产总值增加，社会固定资产也相应增加。

plot（x3,x4,cex=1.6,lwd=3,col=6,xlab="城镇人均消费支出（元）",ylab="农民人均消费支出（元）"）

#城镇人均消费支出与农民人均消费支出

从上图可以看出，城镇居民人均消费支出于农民人均消费支出也呈现很强的线性相关关系，城镇居民人均消费支出增加，农民人均消费支出也增加，表明全国人均消费支出各地区同步增长，当然我们也可以看到全国各地区域间消费差距较大，城乡之间消费差距较大，甚至是数倍的差距。

同理，我们依次可以做出国民生产总值与出口总额、社会人均消费、居民消费价格乃至整个的散点矩阵图。

并从散点图形中判别出相关关系。

pairs（C,cex=1.5,lwd=2,pch=16,col=4）#多元线性相关散点矩阵图

cor（C）#多元线性相关系数矩阵

地区生产总值社会固定资产投资出口总额各地区人均总额

地区生产总值1.00000000.88389130.79705250.4771797

社会固定资产投资0.88389131.00000000.45935960.1895959

出口总额0.79705250.45935961.00000000.6163032

各地区人均总额0.47717970.18959590.61630321.0000000

boxplot（X）#箱尾图

箱尾图可以较清晰地表示出数据的分布特征，从上图可以看出，每项指标都有异常值，在GDP总值里，广东、江苏、山东名列三甲；在人均生产总值里，天津特别突出，远高于其他省份。

在人均消费支出里，北京、上海二市突出出来。

新疆在消费价格指数位方面是唯一的异常值，表明其在本方面表现为全国最高！

barplot（y,main="全国各地区GDP条形图",col=rainbow（8））#条形图

条形图是一种非常直观的数据表达形式，从本图中可以形象的看出全国各省市GDP数据大小。

广东、江苏、山东条形最高，产值最大。

barplot（apply（X,2,mean））#均值条形图

均值条形图统通常比较各变量在不同观察单位上的均值变化大小，本图对地区生产总值、人均生产总值、社会固定资产投资、出口总额、人均消费支出、居民消费价格指数七项指标作均值表示。

pie（y,main="全国各地区GDP份额饼状图"）#饼状图

饼状图功能类似条形图，直观形象的表现数据。

本图中以全国GDP为整个饼状图，把各省市当做各个饼图的份额，从饼块的大小上清晰地查阅到各省占全国的份额。

广东、江苏、山东占全国GDP份额最大，新疆、贵州、甘肃地区密集在一起不可显示，说明GDP份额较小。

faces（X,ncol.plot=7）#脸谱图

effectofvariables:

modifieditemVar

"heightofface""地区生产总值.亿元."

"widthofface""人均地区生产总值.元."

"structureofface""社会固定资产投资.亿元."

"heightofmouth""出口总额.亿美元."

"widthofmouth""城镇人均消费支出.元."

"smiling""农民人均消费支出.元."

"heightofeyes""居民消费价格指数"

"widthofeyes""地区生产总值.亿元."

"heightofhair""人均地区生产总值.元."

"widthofhair""社会固定资产投资.亿元."

"styleofhair""出口总额.亿美元."

"heightofnose""城镇人均消费支出.元."

"widthofnose""农民人均消费支出.元."

"widthofear""居民消费价格指数"

"heightofear""地区生产总值.亿元."

脸谱图将每个指标用人的某一部位的形状或大小来表示，利用P个指标数值就可以勾勒出一个人的脸谱，而脸谱之间的差异性反映了所对应的样本之间的差异特征。

从本图中可以看到GDP较高的省份脸部各部位都较大，例如广东、江苏、山东、浙江。

stars（X,full=T,lwd=1,draw.segments=T,key.loc=c（19,2））#星象图

星相图将每个变量的各个观察单位的数值表示为一个图形，n个观察单位就有就有n个图，每个图的每个角表示每个变量。

2.3.数据的基本相关分析，以此揭示所选取数据集数据基本结构关系；

线性相关分析是用相关系数来表示两个变量间相互的线性关系，并判断其密切程度的统计方法。

社会固定资产投资与地区生产总值相关性分析及假设检验

cor（y,x1）

r=0.8838913

cor.test（y,x1）

Pearson'sproduct-momentcorrelation

data:

yandx1

t=10.1774,df=29,p-value=4.422e-11

alternativehypothesis:

truecorrelationisnotequalto0

95percentconfidenceinterval:

0.77103920.9429128

sampleestimates:

cor

0.8838913

建立检验假设：

H0：

p=0，H1≠0（α=0.05）

计算相关系数t的值

计算t值和p值做结论

由于p=4.422e-11<0.05,由于在显著性水平上拒绝H0，接受H1，可认为社会固定资产投资与地区生产总值呈正的线性关系。

同理，我们得到：

出口总额与地区生产总值相关系数并假设检验

cor（y,x2）

[1]0.7970525

人均地区生产总值与地区生产总值相关系数并假设检验

cor（y,y2）

[1]0.3970403

各地区人均消费值与地区生产总值相关系数并假设检验

cor（y,x5）

[1]0.4771797

居民消费价格指数与地区生产总值相关系数并假设检验

cor（y,x6）

[1]-0.3576302

城镇人均消费支出与农民人均消费支出相关系数并假设检验

cor（x3,x4）

[1]0.9131506