3云南省局基于PCA主成分分析的卷烟销售与宏观经济关系研究定稿.docx
《3云南省局基于PCA主成分分析的卷烟销售与宏观经济关系研究定稿.docx》由会员分享,可在线阅读,更多相关《3云南省局基于PCA主成分分析的卷烟销售与宏观经济关系研究定稿.docx(21页珍藏版)》请在冰豆网上搜索。
3云南省局基于PCA主成分分析的卷烟销售与宏观经济关系研究定稿
基于PCA主成分分析的
云南卷烟销售与云南经济关系研究
赵旻
ResearchontherelationshipbetweenCigaretteMarketandmacroeconomybasedonPCAprincipalcomponentanalysis
摘要:
本文运用主成分分析法(PCA)对宏观经济数据与卷烟销售情况作关系分析并解读。
在数据使用上,通过分析城镇农村市场差异,明确了对农村城镇市场分别进行分析的思路,并提出了销售额数据按照不同CPI还原的思路,降低数据受价格指数变动影响程度;在宏观指标选择上,运用相关性分析,确保宏观经济指标对销售额数据的影响度确切;在关系分析阶段,运用了PCA主成分分析,去除数据的相关性,将销售额与销售量基于去除相关性的宏观指标表示;在结论解读阶段,基于对销售业务的理解,对销售数据基于宏观经济数据的表达式进行了解读。
关键词:
PCA卷烟销售宏观经济CPI
Abstract:
ByusingPCAprinciplecomponentanalysismethod,thispaperanalyzeandexplainrelationshipbetweenMacroeconomicdataandCigaretteMarket.Regardingtheselectionofdata,thisarticleclarifiedthatshouldusingdifferentmethodologytoanalyzecitiesandruralareas,alsotakeCPIaffectionoutofthesalesdatatogetcleansalesdata,lowerthevolatilityofsalesaffectedbyCPIindex.AlsoregardingtheMacroindicators,thisarticleusingcorrelationanalysistoassuretheindicatorsarecorrelatedtosales;inrelationshipanalysisperiod,usingPCAprinciplecomponentanalysistodeductthecorrelation,expressthesalesrevenueandsalesvolumeindimensionofmacroindicators.Inconclusionstage,thisarticleexplainstheexpressionofsalesdatabaseduponmulti-dimensionalunderstandingofmacro-economicindicators.
Keywords:
PCACigaretteMarketMacroeconomicCPI
2014年,国家烟草专卖局提出开展市场化取向改革相关要求,对各省开展消费需求预测工作做了详细的部署,云南省积极响应国家局要求,开展卷烟销量分析、预测工作。
烟草产业作为国民经济的重要组成部分,宏观经济对卷烟市场发展有着不可忽视的影响,经济波动对卷烟市场运行有直接的影响。
卷烟市场在不同阶段以不同速度发展,和国内整体经济发展程度、人民生活水平、物价程度等经济因素是分不开的。
通过对地区人口因素、经济因素、价格因素、生活水平等宏观环境因素与卷烟市场经济运行关键指标的综合分析,构建经济指标和卷烟销售之间的关系模型,可从宏观层面定量的判定经济对卷烟市场运行影响的方向和力度,对预测地区卷烟市场的未来容量有积极的作用。
因此研究宏观经济与卷烟市场运行之间的关系现实意义重大。
卷烟消费预测分析主要是3种研究方式,一是基于回归模型的卷烟需求预测,二是基于时间序列模型的卷烟需求预测,三是基于组合预测方法的卷烟需求预测。
基于回归模型的卷烟需求预测又主要有利用利用宏观经济信息做卷烟需求预测回归模型与利用微观个体信息做卷烟需求预测回归模型。
汪世贵等基于1953-1989年的数据,通过建立自变量为居民消费总额,因变量为卷烟零售总额的一元回归方程;自变量为居民消费额指数,因变量为卷烟消费总量的一元回归方程;自变量为居民消费水平指数,因变量为卷烟消费总量的一元回归方程,取得了模型拟合值与实际值平均绝对偏差较小的结果。
席昊利用1952-1993共24年的样本数据,建立了以居民消费额、社会偏好程度、人口总量、工资总额为解释变量,国内年卷烟销量为因变量,的四元回归模型,得到人口总量、社会偏好程度、工资总额和消费水平指数是决定未来卷烟市场消费量大小的关键因素,并预测未来1995-2005共10年国内卷烟销售量将呈增长势头。
毛正中等从性别、民族、教育、职业、收入水平、年龄、卷烟价格、地区(城乡)、风险认知、知识、控烟宣传等因素研究对卷烟消费需求的影响;中国预防医学科学院研究了吸烟历史、与吸烟相关的知识与态度、戒烟情况、性别、年龄、受教育程度等因素与卷烟消费之间的关系;白远良等利用1997-2002年中国烟草行业和相关经济学指标,从宏观层面构建了我国卷烟消费需求的数学模型,认为居民消费支出、卷烟价格、地区差异、经济增长、产业升级、城乡居民消费差异和卷烟平均消费倾向等因素对我国卷烟需求具有显著影响。
白远良等考察每包卷烟价格、卷烟平均消费倾向、人均消费支出、教育水平、地区差异等对人均卷烟消费量的影响,结果表明:
教育水平越高,卷烟需求量越大;其他四个因素也显著影响卷烟需求。
但这些研究,在对CPI的使用上,均使用CPI综合指数,且将CPI作为自变量与GDP、收入等指标并列作为表达自变量,没有更好的利用CPI本身的定义;在对人口指标的使用上,一些论文将其与经济指标并列,作为自变量,但从实际意义上难以解释。
本文使用SPSS软件作为分析研究工具,采用云南省GDP、城市居民收入、城市居民支出、农村纯收入收入、农村支出、居民消费价格指数CPI(城市CPI,农村CPI,综合CPI,烟酒CPI)、固定资产投资、社会零售品总额等经济数据研究其与云南省卷烟销量、销售额关系。
在数据使用上,通过分析城镇农村市场差异,明确了对农村城镇市场分别进行分析的思路,并提出了销售额数据按照不同CPI还原的思路,降低数据受价格指数变动影响程度;在宏观指标选择上,运用相关性分析,确保宏观经济指标对销售额数据的影响度确切;在关系分析阶段,运用了PCA主成分分析,去除数据的相关性,将销售额与销售量基于去除相关性的宏观指标表示;在结论解读阶段,基于对销售业务的理解,对销售数据基于宏观经济数据的表达式进行了解读。
1.数据来源
销量、销售额数据来源于省局营销业务系统,经济数据来源于国家统计局、云南省统计局。
2.数据预处理
2.1各月各CPI求解
根据货币数量论观点,通货膨胀是一种货币现象。
不同历史时间段的不同规模货币,对通胀和主要的宏观经济变量的作用效果不尽相同,从而形成不一的宏观经济条件和各时期不同的通胀水平。
而经济发展过程中由于一定程度的通货膨胀,实物量的增减变动不能直接由数据确切反映,必须消除价格变动的因素后,才能真实地反映经济发展动态。
为了消除价格因素的影响,需要将各指标进行可比价换算。
中国通货膨胀指数CPI反映了数据相对某一个基期的价值,本文选择利用居民消费价格指数(CPI)对本研究中涉及的价格总量数据进行逐期缩减至基期。
现有CPI共有城镇CPI、农村CPI、综合CPI、烟酒CPI等若干细分类,在此做以下处理,求CPI原始值。
本文选择2010年1月为基期,所有CPI均为先同比到2010年,再环比折合回2010.1基期。
计算步骤如下:
2.1.1原始的CPI计算原理为
CPI=当期消费价格/基期消费价格*100
现将原始CPI同除以100,即得到:
CPI1=当期消费价格/基期消费价格
2.1.2将所有的CPI1换算成以2010年对应月份为基期的同比CPI2。
如:
求2008年9月同比2010年9月的CPI1
首先得到2009年9月及2010年9月的同比CPI1,即与对应的上一年同月为基期的CPI/100,再利用下列公式求的CPI2,即:
CPI2(2008-9/2010-9)=1/(CPI1(2009-9/2008-9)*CPI1(2010-9/2009-9))
2.1.3以2010年对应月份为基期的同比CPI2,换算成以2010年1月为基期的CPI3。
如:
以2007年对应的CPI2为例,将CPI2(2007-3/2010-3)换算成CPI3(2007-3/2010-1)
CPI3(2007-3/2010-1)=CPI2(2007-3/2010-3)*CPI1(2010-3/2010-2)*CPI1(2010-2/2010-1)
2.1.42010年各月环比的求解
由:
环比的增长率=当期消费价格/上一期消费价格-1
则有:
环比CPI=1+环比增长率
已知CPI综合、CPI烟酒2012年各月的环比,及2012年对应2011年各月同比消费价格指数,求2011年各月环比。
如:
求2011年8月对7月的环比CPI
CPI(2011-8/2011-7)=CPI(2012-7/2011-7)/CPI(2012-8/2011-8)*CPI(2012-8/2012-7)
求得2011年各月的环比后,再加2011年对应2010年各月同比CPI,进而求得2010年各月的环比CPI。
求2010年4月对3月的环比CPI
CPI(2010-4/2010-3)=CPI(2011-3/2010-3)/CPI(2011-4/2010-4)*CPI(2011-4/2011-3)
2.2对应分析周期处理数据周期
CPI数据、固定资产投资总额为月度数据;城镇居民可支配收入、消费支出,农村人纯收入、消费支出为季度数据;社会消费品零售总额GDP总额为年度数据,本文选择季度为分析周期。
CPI城市用于城市收入、支出换算,CPI农村用于农村收入、支出换算,CPI综合用于除收入和支出指标外的GDP、社会零售品总额、固定资产投资经济指标换算,CPI烟酒用于销售额换算。
各类型的CPI算法相同,均为折算到同一个基期。
表CPI数据还原表
表CPI折算后经济数据表
2.3人口数据使用
在人口吸烟率不变或微降情况下,人口增长率导致卷烟消费量增加。
自1987年以来,我国人口自然增长率呈逐年递减趋势,1998年后,一直控制在10‰内。
但基数庞大,惯性影响,人口总数仍处于缓增长阶段。
本文选择云南省人口数作为人口因素的分析指标,以人均消费卷烟量、人均消费卷烟额为研究对象,以此研究其他经济因素对卷烟消费需求的影响。
人均卷烟消费量=卷烟销量/人口数
人均卷烟消费额=卷烟销售总额/人口数
由于人口数指标仅有年度指标,本文假设单年具有同样的增长率,求出此恒定增长率,折算到每月。
2.4自变量的标准化
将除以相应CPI的GDP1、投资1、零售总额1、农村(城镇)收入1及农村(城镇)支出1数据进行标准化,标准化的公式为:
标准化的数据=(原始数据-均值)/标准差
3.区分农村城镇市场
文献分析了农村向城镇转型时期的影响因素和经济特点。
本文也针对云南省卷烟农村市场和城镇市场销量销售额做了一些分析。
城镇和农村发展经济状况和卷烟销售情况存在较大差异,云南省农村市场和城镇市场经济水平、产品偏好区别大,在市场拓展、结构提升等市场发展状态、阶段不尽相同。
3.1城市、农村销售额、销售量差异
图农村和城市人均销售额差值变化图
表城市和农村卷烟销售情况对比表
随着时间流逝,城市和农村的消费差值一直在扩大,在同一年中,第一季度差值最大,其次是第三季度,第四季度差值最小,传统的消费习惯形成了季节性的差异,第一、三季度受春节、中秋影响,卷烟的礼品功能突出。
图农村人均销售金额分析
图城市人均销售金额分析
上两图中,城市、农村销售额曲线表明,农村人口呈递减趋势,万人均销量基本稳定,但农村人均消费结构的提升,带动了农村销售总额的增加。
城市人口呈现增加趋势,人均销量、人均消费结构呈现提升趋势,带动了城市销售总额的增加。
因此,城市和农村市场差异较大,需单独开展分析预测工作。
3.2城市、农村市场销售额、销售量增长情况上有差别
分析近年城市农村销售增长情况并绘制图形,城市和农村具有显著区别.
表城市和农村年度卷烟销售变化表
图城市和农村年度卷烟销售变化图
4.分品类预测
不妨对城市市场的卷烟销售情况绘制时序图如下,可以看到各品类间季节性差异大、销售曲线完全不同:
图一类烟销量时序图图二类烟销量时序图
图三类烟销量时序图图四类烟销量时序图
图五类烟销量时序图图无价类烟销量时序图
观测时序图走势,一类烟、二类烟具有较为明显的长期增长趋势、季节效应,且以年为周期,具有循环特征,。
三类烟呈现季节效应,但2011年1-2012,3,及2012.4月-2014.4月趋势不一致;四类烟具有较为明显的长期下降趋势、季节效应;五类烟2012年2月份前数据分布与后面的趋势相差较大,且后面的具有趋势和季节效应,无明显的非平稳性,无价类具有趋势及季节效应,各品类烟差异较大,需要分品类进行分析。
5.建模方法
5.1相关性分析-格兰杰因果检验
相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。
格兰杰因果关系检验,经济学家开拓了一种试图分析变量之间的格兰杰因果关系的办法。
该检验方法为2003年诺贝尔经济学奖得主克莱夫·格兰杰(CliveW.J.Granger)所开创,用于分析经济变量之间的格兰杰因果关系。
他给格兰杰因果关系的定义为“依赖于使用过去某些时点上所有信息的最佳最小二乘预测的方差。
”本文使用格兰杰因果检验确保应变量和自变量相关。
表格兰杰因果检验表
检验结果如表所示,各变量的P值均远远小于0.05,所以,所选的宏观经济
变量序列都是卷烟结构的格兰杰原因。
5.2主成分分析
本文使用了PCA主成分分析方法。
在统计分析中,主成分分析(Principalcomponentsanalysis,PCA)是一种分析、简化数据集的技术。
主成分分析主要是通过对协方差矩阵进行特征分解,过保留低阶主成分,忽略高阶主成分,以得出数据的主成分(即特征矢量)与它们的权值,减少数据集的维数,同时保持数据集的对方差贡献最大的特征。
在不丢失重要信息的情况下,把多指标转化为少数几个综合指标,实现降维,找出表达性最强的相关指标。
主成分回归(PrincipalComponentRegression,PCR)是一种多元回归分析方法,旨在解决自变量间存在多重贡献性问题。
5.2.1农村人均销量
GDP1、投资1、零售总额1、农村可支配收入1及农村消费支出1进行主成分分析,得到每个主成分用自变量的表达式。
表农村主成分得分表
ComponentScoreCoefficientMatrix
Component
1
2
3
4
5
农支出除农CPI
.217
-.450
.404
2.093
1.359
农收入除农CPI
.208
.748
1.485
-.716
-.808
GDP除云南CPI
.225
-.718
-.376
-.641
-11.442
投资除云南CPI
.205
1.220
-1.159
.305
.039
零售除云南CPI
.225
-.649
-.332
-.992
10.857
再利用主成分进行线性回归得模型的拟合优度及自变量的系数的估计。
ModelSummaryc
Model
R
RSquare
AdjustedRSquare
Std.ErroroftheEstimate
Durbin-Watson
1
.784a
.615
.601
4.57625
2
.857b
.735
.714
3.87297
2.012
a.Predictors:
(Constant),REGRfactorscore2foranalysis1
b.Predictors:
(Constant),REGRfactorscore2foranalysis1,REGRfactorscore3foranalysis1
c.DependentVariable:
农销量除农人口
农村每万人人均销售量=45.781-5.680F2+2.506F3
=36.937+0.018农支出1-0.002农收入1
+0.007GDP1-0.016投资1+0.016零售总额1
5.2.2农村人均销售金额
主成分与5.2.1中的相同。
再利用主成分进行线性回归得模型的拟合优度及自变量的系数的估计:
ModelSummarye
Model
R
RSquare
AdjustedRSquare
Std.ErroroftheEstimate
Durbin-Watson
1
.632a
.399
.376
15.20539
2
.863b
.745
.725
10.09422
3
.912c
.832
.811
8.37819
4
.939d
.881
.861
7.18700
2.193
a.Predictors:
(Constant),REGRfactorscore2foranalysis1
b.Predictors:
(Constant),REGRfactorscore2foranalysis1,REGRfactorscore1foranalysis1
c.Predictors:
(Constant),REGRfactorscore2foranalysis1,REGRfactorscore1foranalysis1,REGRfactorscore3foranalysis1
d.Predictors:
(Constant),REGRfactorscore2foranalysis1,REGRfactorscore1foranalysis1,REGRfactorscore3foranalysis1,REGRfactorscore4foranalysis1
e.DependentVariable:
调整后的农销售金额除农人口
农村人均销售金额=69.621+11.327F1-12.160F2+5.653F3-4.289F4
=-44.561+0.006农支出1+0.021农收入1
+0.06GDP1-0.033投资1+0.073零售总额1
5.2.3城镇人均销量
GDP1、投资1、零售总额1、城镇可支配收入1及城镇消费支出1进行主成分分析,得到每个主成分用自变量的表达式。
表城镇主成分得分表
ComponentScoreCoefficientMatrix
Component
1
2
3
4
5
城支出除城CPI
.213
-.614
1.011
3.129
1.075
城收入除城CPI
.215
-.218
1.926
-2.595
-.547
GDP除云南CPI
.218
-.247
-1.570
-.824
9.394
投资除云南CPI
.189
1.527
.180
.706
.177
零售除云南CPI
.219
-.259
-1.464
-.282
-10.032
再利用主成分进行线性回归得模型的拟合优度及自变量的系数的估计:
ModelSummaryb
Model
R
RSquare
AdjustedRSquare
Std.ErroroftheEstimate
Durbin-Watson
1
.862a
.743
.733
13.97740
2.334
a.Predictors:
(Constant),REGRfactorscore2foranalysis2
b.DependentVariable:
城市销量除城市人口
城镇每万人人均销量=166.153-23.325F2
=82.521+0.032城支出1+0.007城收入1
+0.013GDP1-0.059投资1+0.035零售总额1
5.2.4城镇人均销售金额
主成分与5.2.3中的相同。
再利用主成分进行线性回归得模型的拟合优度及自变量的系数的估计:
ModelSummarye
Model
R
RSquare
AdjustedRSquare
Std.ErroroftheEstimate
Durbin-Watson
1
.679a
.461
.440
82.97001
2
.906b
.822
.807
48.66805
3
.945c
.893
.879
38.50805
4
.956d
.914
.899
35.19161
2.310
a.Predictors:
(Constant),REGRfactorscore1foranalysis2
b.Predictors:
(Constant),REGRfactorscore1foranalysis2,REGRfactorscore2foranalysis2
c.Predictors:
(Constant),REGRfactorscore1foranalysis2,REGRfactorscore2foranalysis2,REGRfactorscore3foranalysis2
d.Predictors:
(Constant),REGRfactorscore1foranalysis2,REGRfactorscore2foranalysis2,REGRfactorscore3foranalysis2,REGRfactorscore4foranalysis2
e.DependentVariable:
调整后的城销售金额除城人口
城镇人均销售金额=349.206+75.323F1-66.603F2-29.581F3+16.221F4
=-129.027+0.0173城支出1-0.087城收入1
+0.144GDP1-0.134投资1+0.414零售总额1
6.建模结果及解读
6.1建模结果
农村每万人销售量=36.937+0.018农支出1-0