完整版多元回归分析中变量的选择SPSS的应用毕业论文.docx
《完整版多元回归分析中变量的选择SPSS的应用毕业论文.docx》由会员分享,可在线阅读,更多相关《完整版多元回归分析中变量的选择SPSS的应用毕业论文.docx(31页珍藏版)》请在冰豆网上搜索。
完整版多元回归分析中变量的选择SPSS的应用毕业论文
毕业论文
题目多元回归分析中的变量选取
——SPSS的应用
院(系)数学与统计学院
专业年级2010级统计学
指导教师职称副教授
多元回归分析中的变量选取——SPSS的应用
殷婷
摘要
本文不仅对于复杂的统计计算通过常用的计算机应用软件SPSS来实现,同时通过对两组数据的实证分析,来研究统计学中多元回归分析中的变量选取,让大家对统计中的多元回归数据的选取和操作方法有更深层次的了解。
一组数据是对于淘宝交易额的未来发展趋势的研究,一组数据时对于我国财政收入的研究。
本文通过两个实证从不同程度上对数据选取的研究运用通俗的语言和浅显的描述将SPSS在多元回归分析中的统计分析方法呈现在大家面前,让大家对多元回归分析以及SPSS软件都可以有更深一步的了解。
通过SPSS软件对数据进行分析,对数据进行处理的方法进行总结,找出SPSS对于数据处理和分析的优缺点,最后得在对变量的选取和软件的操作提出建议。
关键词:
统计学SPSS变量的选取多元回归分析
Abstract
Inthispaper,notonlyforcomplexstatisticalcalculationsdonebythecommonlyusedcomputerapplicationsoftwareofSPSS,throughtheempiricalanalysisofthetwogroupsofdataatthesametime,tostudythestatisticsofthevariablesinthemultivariateregressionanalysis,leteverybodytoselectmultipleregressioninstatisticaldataandoperationmethodshaveadeeperunderstanding.Isasetofdataforthefuturedevelopmenttrendoftaobaotransactionsofresearch,asetofdatafortheresearchofourcountry'sfinancialincome.Inthispaper,throughtwoempiricaltoselectdatafromdifferentextentresearchusingacommonlanguageandplaintheSPSSstatisticalanalysismethodinmultipleregressionanalysisofpresentinfrontofeveryone,leteveryonetomultipleregressionanalysisandSPSSsoftwarecanhaveadeeperunderstanding.ThroughtheSPSSsoftwaretoanalyzedata,andsummarizesmethodofdataprocessing,findouttheadvantagesanddisadvantagesofSPSSfordataprocessingandanalysis,finallyhadtoputforwardtheproposaltotheoperationoftheselectionofvariablesandsoftware.
Keywords:
StatisticalSPSSTheselectionofvariablesmultipleregressionanalysis
目录
摘要1
英文摘要1
引言3
第一章回归分析3
1.1自变量的选择4
1.2国内外研究现状5
第二章案例分析一:
淘宝交易额的研究6
2.1数据的来源及变量的选取6
2.2相关分析7
2.2.1散点图7
2.2.2计算相关系数8
2.3回归分析11
2.4小结13
第三章案例分析二:
财政收入的研究14
3.1数据的来源及变量的选取14
3.2相关分析15
3.2.1散点图15
3.2.2计算相关系数17
3.3回归分析19
3.4逐步回归21
3.5小结24
第四章总结及建议25
参考文献26
引言
统计学是一门提供数据信息的收集、处理、归纳和分析的理论与方法的科学。
然而随着社会的发展,统计的运用范围越来越广泛,统计学作为高等院校经济类专业和工商管理类专业的核心课程,不管是在经济管理领域,或是在军事、医学等领域的研究中对于数量分析与统计分析都需要更高的要求,需要用到的数学知识较多,应用方面的灵活性也较强,计算量大且复杂。
随着我国社会主义市场经济的日趋完善,不管是在宏观经济的经济调控领域还是在微观的企业管理领域中,人们必须准确及时的获得经济运行中的各类信息才能得到高效的监控和科学的管理。
然而科学研究的深入,研究的对象也日益变得复杂,复杂系统的研究问题更是成为当今研究的热点。
为了更好的描述一个复杂的现象,就需要大量的数据和信息,如何高效、准确地利用已知的信息便成为当今社会研究的一项重要课题。
基于以上背景,本文通过总结和吸取其他国内外学者对统计学研究的,并结合我国的实际情况,本文采用了案例一对于网络购物这块的的研究,通过对2005年到2012年的居民消费水平,以及我国网络普及度,我国人人均纯收入以及我国的居民消费水平对淘宝网的未来发展趋势进行定量数据的研究以及案例二对于我国财政收入的研究,通过对2000年到2012年的人均国内生产总值,经济活动人口,全社会固定投资,进出口总额,居民消费价格水平对我国财政收入的影响进行定量数据的研究。
通过对数据的选取,以及软件的操作方法来告知读者如何在SPSS的操作中变量选取的原则、要求和方法。
第一章自变量的选择
1.1自变量的选择
在多元线性回归模型中,自变量的选择实质上就是模型的选择。
现设一切可供选择的变量是t个,它们组成的回归模型称为全模型(记:
),在获得n组观测数据后,我们有模型
其中:
是的观测值,是未知参数向量,是结构矩阵,并假定X的秩为。
现从这t个变量中选变量,不妨设,那么对全模型中的参数和结构矩阵可作如下的分块(记:
):
,
我们称下面的回归模型为选模型:
其中:
是的观测值,是未知参数向量,是结构矩阵,并假定的秩为。
自变量的选择可以看成是这样的两个问题,一是究竟是用全模型还是用选模型,二是若用选模型,则究竟应包含多少变量最适合。
如果全模型为真,而我们用了选模型,这就表示在方程中丢掉了部分有用变量,相反,如果选模型为真,而我们选用了全模型,这就表示在方程中引入了一些无用变量,下面从参数估计和预测两个角度来看一看由于模型选择不当带来的后果。
为了讨论方便起见,先引入几个记号:
全模型中参数的估计:
其中:
为矩阵的秩。
在点点上的预测值为
在选模型中参数的估计:
在
上的预测值为
1.2国内外研究现状
在科学技术飞速发展的今天,统计学广泛吸收和融合相关学科的新理论,不断开发应用新技术和新方法,深化和丰富了统计学传统领域的理论与方法,并拓展了新的领域。
今天的统计学已展现出强有力的生命力。
在我国,社会主义市场经济体制的逐步建立,实践发展的需要对统计学提出了新的更多、更高的要求。
随着我国社会主义市场经济的成长和不断完善,统计学的潜在功能将得到更充分更完满的开掘。
在应用回归分析去处理实际问题时,回归自变量选择是首先要解决的重要问题。
通常,在做回归分析时,人们根据所研究问题的目的,结合经济理论罗列出对因变量可能有影响的的一些因素作为自变量引进回归模型,其结果是把一些对因变量影响很小的,有些甚至没有影响的自变量也选入了回归模型中,这样一来,不但计算量变大,而且估计和预测的精度也会下降。
此外,如果遗漏了某些重要变量,回归方程的效果肯定不好。
在一些情况下,某些自变量的观测数据的获得代价昂贵,如果这些自变量本身对因变量的影响很小或根本没有影响,我们不加选择的引进回归模型,势必造成观测数据收集和模型应用的费用不必要的加大。
因此,在应用回归分析中,对进入模型的自变量作精心的选择是十分必要的。
SPSS软件作为当今国际上运用广泛的统计分析软件,因其具有自动统计绘图、数据的深入分析、易学易用、功能齐全等特点,在各个领域得到了迅速普及,并成为各行业管理组织提高管理水平、形成科学决策的重要手段。
然而,我国对该软件的理解和运用还处于早期应用阶段,对其功能的研究开发与实际生活当中的运用与西方发达国家相差甚远。
特别是在管理决策方面,管理者对客观现实的准确把握对于决策起着至关重要的作用,他们花费大量人力、物力、财力收集统计数据,但是由于没有进行深度分析而浪费,或者仅仅利用SPSS软件进行简单分析而未进行深度开发,致使所得信息有限、各信息间的关系不明确,最终导致管理者的判断出现偏差。
第二章案例分析一:
淘宝交易额的研究
2.1数据的来源及变量的解释
为研究淘宝网未来发展趋势,从新浪官方微博淘宝数据魔方中获得淘宝2009年聚划算中购物群众的年龄比例作为定性数据,进行研究年龄对淘宝购物的影响。
并在新浪财经网上获得淘宝网自2005年到2012年的淘宝交易额以及淘宝注册人数的数据。
在中商情报局里获得我国近网络普及度等数据并从国家统计年鉴中选取统计指标居民消费水平。
淘宝注册人数()在一定程度上反应了网络购物的群众的人数,反应了当今社会网络购物的普遍性。
同时淘宝的注册人数也展现了人们对网络购物的认可度,换言之也就是说接受了网络购物并会在网上进行消费,是对网络购物很大程度上的支持。
我国网络普及度()是指我国近几年网络在我国普及的范围,这一块更好的反映了网络对居民网络消费的影响,因为网络是网络消费的必要条件。
我国网络普及度反映的是在我国日趋发展的经济下,网络也得到了普遍的广泛,人们对网络的接受程度,信任程度也是直接影响到淘宝的网络购物。
居民消费水平()是指居民在物质产品和劳务的消费过程中,对满足人们生存、发展和享受需要方面所达到的程度。
通过消费的物质产品和劳务的数量和质量反映出来。
居民消费水平是指居民在物质产品和劳务的消费过程中,对满足人们生存、发展和享受需要方面所达到的程度。
它主要通过消费的物质产品和劳务的数量和质量来反映。
居民消费水平的提高也能很好的展现在网络消费上作出的贡献。
通过对以上这三个定量数据的研究来其与淘宝交易额的关系,从而研究淘宝未来的发展趋势以及优劣态。
原始数据如下:
由于数据之间单位的不同,为了消除量纲的影响,把数据标准化进行处理,得到如下标准化的数据(所有取值保留了两位小数):
2.2相关分析
2.2.1散点图
对y与各个变量作出散点图
(1)淘宝注册人数与y的相关性散点图:
(2)网络普及度与淘宝网交易总额的相关性检验:
(3)我国居民消费水平与淘宝交易的相关性检验:
由以上三个散点图可知,其所有的点均落在了左上至右下的一条直线上,表明了数据之间存在显著相关关系。
所以我们还需要对数据进行进一步的分析,得到确切的答案。
2.2.2计算相关系数
(1)复相关系数r是用来衡量回归直线对于观察值配合的密切程度,即用来衡量因变量y与自变量,,之间相关的密切程度。
以下是用SPSS对数据进行相关性分析,得到如下的相关系数图
解析:
图中有带“**”号的结果表明有关的两变量在0.01的显著性水平下显著相关,由上图可知,y与的相关系数为0.992>0,表示呈一定的线性关系,相关系数检验对应的概率P值为0.000,小于显著性水平0.05,说明淘宝交易额与淘宝注册人数之间相关性显著。
y与的相关系数为0.901>0,表示呈一定的线性关系,相关系数检验对应的概率P值为0.002,小于显著性水平0.05,说明淘宝交易额与我国网络普及度之间相关性显著。
y与的相关系数为0.965>0,表示呈一定的线性关系,相关系数检验对应的概率P值为0.000,小于显著性水平0.05,说明淘宝交易额与居民消费水平之间相关性显著。
综上所述通过SPSS得出的相关系数的矩阵得到为:
0.992=0.901=0.965
由以上数据可以看出,各列之间存在正相关关系。
即淘宝网注册人数、我国网络普及度、我国居民消费水平与淘宝交易总额y存在正相关关系。
(2)计算偏相关系数:
在多变量的情况下,变量之间的相关系数是相当复杂的。
任意两个变量之间都有可能存在着相关关系,因此,只知道被解释变量与解释变量的总的相关程度是不够的。
如果需要了解某两个变量间的相关程度,就应在消除其他变量影响的情况下来计算他们的相关系数,这就是偏相关系数。
下面是用SPSS作出的偏相关系数:
①消除我国网络普及度和居民消费水平的影响后,计算淘宝注册人数与淘宝交易额的偏相关系数为:
Correlations
ControlVariables
y
x1
x2&x3
y
Correlation
1.000
.894
Significance(2-tailed)
.
.016
df
0
4
x1
Correlation
.894
1.000
Significance(2-tailed)
.016
.
df
4
0
解析:
由上可知,淘宝注册人数与淘宝交易额的偏相关系数为0.894。
②消除淘宝交易额和居民消费水平的影响后,我国网络普及度和淘宝交易额的偏相关系数为:
Correlations
ControlVariables
y
x2
x3&x1
y
Correlation
1.000
-.806
Significance(2-tailed)
.
.053
df
0
4
x2
Correlation
-.806
1.000
Significance(2-tailed)
.053
.
df
4
0
解析:
由上可知我国网络普及度与淘宝交易额的偏相关系数为-0.806。
③消除淘宝注册人数和我国网络普及度的影响后,我国居民消费水平和淘宝交易额的偏相关系数:
Correlations
ControlVariables
y
x3
x1&x2
y
Correlation
1.000
.810
Significance(2-tailed)
.
.051
df
0
4
x3
Correlation
.810
1.000
Significance(2-tailed)
.051
.
df
4
0
解析:
由上可知,我国居民消费水平和淘宝交易额的偏相关系数为0.810。
④消除我国居民消费水平和淘宝交易额的影响后,淘宝注册人数和我国网络普及度的偏相关系数:
Correlations
ControlVariables
x1
x2
x3&y
x1
Correlation
1.000
.584
Significance(2-tailed)
.
.224
df
0
4
x2
Correlation
.584
1.000
Significance(2-tailed)
.224
.
df
4
0
解析:
由上可知,淘宝注册人数和我国网络普及度的偏相关系数为0.584。
⑤消除淘宝注册人数和淘宝交易额的影响后,我国居民消费水平和我国网络普及度的偏相关系数:
Correlations
ControlVariables
x2
x3
y&x1
x2
Correlation
1.000
.863
Significance(2-tailed)
.
.002
df
0
4
x3
Correlation
.863
1.000
Significance(2-tailed)
.002
.
df
4
0
解析:
由上可知,我国居民消费水平和我国网络普及度的偏相关系数为0.963。
⑥消除我国网络普及度和淘宝交易额的影响后,我国居民消费水平和淘宝注册人数的偏相关系数:
Correlations
ControlVariables
x3
x1
y&x2
x3
Correlation
1.000
-.505
Significance(2-tailed)
.
.306
df
0
4
x1
Correlation
-.505
1.000
Significance(2-tailed)
.306
.
df
4
0
解析:
由上可知,我国居民消费水平和淘宝注册人数的偏相关系数为-0.505。
综上:
从以上的偏相关系数来看,如果我国网络普及度和居民消费水平保持不变,淘宝注册人数与淘宝交易额之间存在显著相关,当淘宝交易额和居民消费水平的保持不变时,我国网络普及度和淘宝交易额之间存在显著负相关,当淘宝注册人数和我国网络普及度的保持不变时,我国居民消费水平和淘宝交易额的也存在显著相关,当我国居民消费水平和淘宝交易额保持不变时,淘宝注册人数和我国网络普及度之间存在显著相关,当我国网络普及度和淘宝交易额保持不变时,我国居民消费水平和淘宝注册人数存在显著负相关。
但是其关系强度较前者略低,所以经过以上系数得到的偏相关系数可以看出,其相关程度较原关系的强度低,应采用原数据的自变量和因变量。
即所采用的自变量和因变量保持不变。
2.3回归分析
对数据进行回归分析,得到如下结果:
解析:
复相关系数为0.997,判定系数为0.995,调整系数为0.990,估计值的标准误差为4.157。
ANOVAb
Model
SumofSquares
df
MeanSquare
F
Sig.
1
Regression
12661.524
3
4220.508
244.231
.000a
Residual
69.123
4
17.281
Total
12730.647
7
a.Predictors:
(Constant),x3,x1,x2
b.DependentVariable:
y
解析:
由上面结果的看其显著性检验结果为,回归平方和为12661.224,残差平方和69.123,总平方和12730.647,F统计量的值为244.231,对应的概率P值为0.000,小于显著性水平0.05,,即:
淘宝交易总额y与淘宝网注册人数、我国网络普及度和我国居民消费水平之间存在线性关系,所以可认为所建立的回归方程有效。
Coefficientsa
Model
UnstandardizedCoefficients
StandardizedCoefficients
t
Sig.
B
Std.Error
Beta
1
(Constant)
-59.709
21.531
-2.773
.050
x1
2.529
.636
.659
3.980
.016
x2
-15.985
5.870
-.563
-2.723
.043
x3
70.139
25.378
.879
2.764
.031
a.DependentVariable:
y
解析:
由上图可知,因变量y与常数项和自变量,,的回归的标准化回归系数分别为-59.709,2.529,-15.985,70.139。
3个回归系数B的显著性水平小于0.05,这里可以认为自变量,,对因变量y有显著性影响。
于是得到回归方程为:
由上图可知对数据进行t值检验,在给定的,自由度n=8-2=6的临界值时,查表得2.447
因为,,的参数对应的t统计量的绝对值均大于2.447,这说明5%的显著性水平下,斜率系数均显著不为0,表明淘宝网注册人数,我国网络普及度,我国居民消费水平等变量联合起来对该商品的消费支出有显著的影响。
P检验:
由上表可以看出各自变量以及常数项的P值分别为:
0.05,0.016,0.043及0.031,可以看出其P值均小于0.05,均通过检验
综上所述,三个自变量对因变量都有显著性影响,并都通过了检验可以得到最优方程式为:
2.4小结
通过SPSS操作最后得到的淘宝交易额的预测方程式:
再加上最后对数据的检验可以得出淘宝网注册人数,我国网络普及度,我国居民消费水平等变量联合起来对淘宝交易总额y有显著的影响。
影响公式可以近似为:
即:
淘宝注册人数增加就可使得淘宝网的交易额增加。
众所周知我国网络普及度是在逐年增加的,这里表现出的网络普及度为负指标,并不代表网络普及度要递减才可以使得淘宝交易额增加,随着社会的发展,中国的发展更是越来越迅速,网络普及度的增加使得更多的地方有网络,更多的人了解网络才能使得我国淘宝注册人数的增加。
这两个自变量之间存在着相对严密的关系。
人均收入的增加固使得人们的消费指数上升,那么人们在网络购物和日常消费的比例也会发生变化,这里我们可以看出这个比例是在增加的,那么淘宝交易额增加也是必不可少的。
第三章案例分析二:
我国财政收入的研究
3.1数据的来源及变量的解释
为研究我国财政收入情况,为研究人均国内生产总值,经济活动人口,全社会固定资产投资,进出口总额,居民消费价格指数对财政收入的影响,通过中国国家统计局下载2000年到2012年的数据进行研究。
人均国内生产总值是指国内生产总值的绝对值与该年平均人口的比值,是衡量一个国家或地区每个居民对该国家或地区的经济贡献或创造价值的指标。
经济活动人口是指在16周岁及以上,有劳动能力,参加或要求参加社会经济活动的人口。
包括就业人员和失业人员。
全社会固定资产投资是指以货币形式表现的在一定时期内全社会建造和购置固定资产的工作量以及与此有关的费用的总称。
其反映固定资产投资规模、结构和发展速度的综合性指标的同时,也是观察工程进度和考核投资效果的重要依据。
我国的进出口总额是指实际进出我国国境的货物总金额。
其用以观察一个国家在对外贸易方面的总规模。
财政收入y指国家财政参与社会产品分配所取得的收入,是实现国家职能的财力保证。
财政收入按现行分税制财政体制划分为中央本级收入和地方本级收入。
原数据如下:
年份
财政收入(亿元)y
人均国内生产总值(元)x1
经济活动人口(万人)x2
全社会固定资产投资(亿元)x3
进出口总额(人民币亿元)x4
1992年
3483.37
2311.09
66782
8080.1
9119.6
1993年
4348.95
2998.36
67468
13072.3
11271
1994年
5218.1
4044
68135
17042.1
20381.9
1995年
6242.2
5045.73
68855
20019.3
23499.9
1996年
7407.99
5845.89
69765
2291