题目基于R对国内各省市区主要经济指标的相关性分析与回归分析 2Word文档格式.docx
《题目基于R对国内各省市区主要经济指标的相关性分析与回归分析 2Word文档格式.docx》由会员分享,可在线阅读,更多相关《题目基于R对国内各省市区主要经济指标的相关性分析与回归分析 2Word文档格式.docx(19页珍藏版)》请在冰豆网上搜索。
如表头的单行单列、文字间空格符号的消除等,调整完后,依据个人习惯将数据存入txt文本格式,命名为“ryuan.txt”。
2.1.2.数据的读取
>
A=read.table("
ryuan.txt"
header=T)
A
#解析变量成y,x1,x2,x3,x4,x5,x6,x7,;
X=A[,c(1,4,2,9,6,8,3)]
X
y=A[,c
(1)]#地区生产总值(亿元)
y
y2=A[,c(4)]#人均地区生产总值(元)
y2
x1=A[,c
(2)]#社会固定资产投资(亿元)
x1
x2=A[,c(9)]#出口总额(亿美元)
x2
x3=A[,c(6)]#城镇人均消费支出(元)
x3
x4=A[,c(8)]#农民人均消费支出(元)
x4
x5=x3+x4#各地区人均消费总额(元)
x5
x6=A[,c(3)]#各地区居民消费价格指数
x6
B=data.frame("
地区生产总值(亿元)"
=y,"
社会固定资产投资(亿元)"
=x1,"
出口总额(亿美元)"
=x2,"
各地区人均总额(元)"
=x5)
2.1.3.对读入的数据进行描述性统计。
根据研究需要,先将数据进行结构性分析,找出解释变量和被解释变量,并将其按列抽取出来,做解析变量,方便之后分析统计工作对变量的调取。
再通过R软件的强大功能对数据进行相关的的描述性统计,初步了解选取数据的各项指标,如数据类型、数据量纲等,可以清晰的看到数据如各行和各列的和、最大值、最小值、平均值、数据排序、数据方差、标准差、判断数据是否符合正态分布,更利于对数据的整体把握,找到自己想要了解的特定的数据属性。
2.2数据可视化
2.2.1.定量变量分析
定量变量的基本特征,最简单的展现定量数据的图形应该属于直方图hist函数
Hist(y)#国内生产总值的直方图
定量变量间的关系,描述两个变量之间的关系的最有用的指令是散点图plot的函数,他是R中最强大的绘图函数。
plot(y,x1,plot(y,x1,cex=1.3,lwd=2,col=2,pch=15,xlab="
ylab="
))
#地区生产总值与社会固定资产投资散点图
从上图可以看出,国民生产总值与社会固定资产投资有较强的相关关系,国民生产总值增加,社会固定资产也相应增加。
plot(x3,x4,cex=1.6,lwd=3,col=6,xlab="
城镇人均消费支出(元)"
农民人均消费支出(元)"
)
#城镇人均消费支出与农民人均消费支出
从上图可以看出,城镇居民人均消费支出于农民人均消费支出也呈现很强的线性相关关系,城镇居民人均消费支出增加,农民人均消费支出也增加,表明全国人均消费支出各地区同步增长,当然我们也可以看到全国各地区域间消费差距较大,城乡之间消费差距较大,甚至是数倍的差距。
同理,我们依次可以做出国民生产总值与出口总额、社会人均消费、居民消费价格乃至整个的散点矩阵图。
并从散点图形中判别出相关关系。
pairs(C,cex=1.5,lwd=2,pch=16,col=4)#多元线性相关散点矩阵图
cor(C)#多元线性相关系数矩阵
地区生产总值社会固定资产投资出口总额各地区人均总额
地区生产总值1.00000000.88389130.79705250.4771797
社会固定资产投资0.88389131.00000000.45935960.1895959
出口总额0.79705250.45935961.00000000.6163032
各地区人均总额0.47717970.18959590.61630321.0000000
boxplot(X)#箱尾图
箱尾图可以较清晰地表示出数据的分布特征,从上图可以看出,每项指标都有异常值,在GDP总值里,广东、江苏、山东名列三甲;
在人均生产总值里,天津特别突出,远高于其他省份。
在人均消费支出里,北京、上海二市突出出来。
新疆在消费价格指数位方面是唯一的异常值,表明其在本方面表现为全国最高!
barplot(y,main="
全国各地区GDP条形图"
col=rainbow(8))#条形图
条形图是一种非常直观的数据表达形式,从本图中可以形象的看出全国各省市GDP数据大小。
广东、江苏、山东条形最高,产值最大。
barplot(apply(X,2,mean))#均值条形图
均值条形图统通常比较各变量在不同观察单位上的均值变化大小,本图对地区生产总值、人均生产总值、社会固定资产投资、出口总额、人均消费支出、居民消费价格指数七项指标作均值表示。
pie(y,main="
全国各地区GDP份额饼状图"
)#饼状图
饼状图功能类似条形图,直观形象的表现数据。
本图中以全国GDP为整个饼状图,把各省市当做各个饼图的份额,从饼块的大小上清晰地查阅到各省占全国的份额。
广东、江苏、山东占全国GDP份额最大,新疆、贵州、甘肃地区密集在一起不可显示,说明GDP份额较小。
faces(X,ncol.plot=7)#脸谱图
effectofvariables:
modifieditemVar
"
heightofface"
地区生产总值.亿元."
widthofface"
人均地区生产总值.元."
structureofface"
社会固定资产投资.亿元."
heightofmouth"
出口总额.亿美元."
widthofmouth"
城镇人均消费支出.元."
smiling"
农民人均消费支出.元."
heightofeyes"
居民消费价格指数"
widthofeyes"
heightofhair"
widthofhair"
styleofhair"
heightofnose"
widthofnose"
widthofear"
heightofear"
脸谱图将每个指标用人的某一部位的形状或大小来表示,利用P个指标数值就可以勾勒出一个人的脸谱,而脸谱之间的差异性反映了所对应的样本之间的差异特征。
从本图中可以看到GDP较高的省份脸部各部位都较大,例如广东、江苏、山东、浙江。
stars(X,full=T,lwd=1,draw.segments=T,key.loc=c(19,2))#星象图
星相图将每个变量的各个观察单位的数值表示为一个图形,n个观察单位就有就有n个图,每个图的每个角表示每个变量。
2.3.数据的基本相关分析,以此揭示所选取数据集数据基本结构关系;
线性相关分析是用相关系数来表示两个变量间相互的线性关系,并判断其密切程度的统计方法。
社会固定资产投资与地区生产总值相关性分析及假设检验
cor(y,x1)
r=0.8838913
cor.test(y,x1)
Pearson'
sproduct-momentcorrelation
data:
yandx1
t=10.1774,df=29,p-value=4.422e-11
alternativehypothesis:
truecorrelationisnotequalto0
95percentconfidenceinterval:
0.77103920.9429128
sampleestimates:
cor
0.8838913
建立检验假设:
H0:
p=0,H1≠0(α=0.05)
计算相关系数t的值
计算t值和p值做结论
由于p=4.422e-11<
0.05,由于在显著性水平上拒绝H0,接受H1,可认为社会固定资产投资与地区生产总值呈正的线性关系。
同理,我们得到:
出口总额与地区生产总值相关系数并假设检验
cor(y,x2)
[1]0.7970525
人均地区生产总值与地区生产总值相关系数并假设检验
cor(y,y2)
[1]0.3970403
各地区人均消费值与地区生产总值相关系数并假设检验
cor(y,x5)
[1]0.4771797
居民消费价格指数与地区生产总值相关系数并假设检验
cor(y,x6)
[1]-0.3576302
城镇人均消费支出与农民人均消费支出相关系数并假设检验
cor(x3,x4)
[1]0.9131506
相关分析结论如下:
1.我国各地GDP与社会固定资产投资、出口总额、人均消费支出等呈现正线性相关性,其中与社会固定资产投资相关性最强,出口收入次之,说明我国GDP的增长受社会固定资产依赖性较强,也受制于出口收入,尤其是在沿海省份表现尤为突出。
而良性的GDP增长需要国民消费的增长,这既符合我国继续扩大内需,促进消费的政策,也有利于我国节约资源,保证经济稳定的需要。
2.城镇居民消费与农村人均消费同步增长,是我国各地经济快速发展的积极信号,尤其是广阔的农村市场对消费的潜力巨大。
我国应当继续保障农民的医疗、教育、社会保障的投入,使农民不再有后顾之忧,真正的开发广阔的农村消费市场,是我国经济继续腾飞的有力保证和新的引擎。
3.居民消费价格指数与地区生产总值相关系数成负线性相关。
尤其是在西部和边疆地区,其地区生产总值较低物价却较高,不利于当地居民生活条件的改善。
总体因为受当地受地理条件限制和生产方式落后致使经济发展,而交通不便运输成本较高是其物价较高的主因。
建议政府加大这些地区的交通运输业的发展,提高地区生产自己能力,降低物价,提高人民生活水平。
2.4.多元线性回归分析
回归模型是通过回归分析研究多个变量之间的依存关系,将变量区分为自变量和因变量,并研究确定自变量和因变量之间的具体关系的方程式。
分析中所形成的这种关系式成为回归模型。
在实际生活中,常会遇到一个因变量与多个自变量的数量关系的问题,故要建立多元回归模型。
本案