贝叶斯判别分析在股票投资分析中的应用.docx
《贝叶斯判别分析在股票投资分析中的应用.docx》由会员分享,可在线阅读,更多相关《贝叶斯判别分析在股票投资分析中的应用.docx(17页珍藏版)》请在冰豆网上搜索。
贝叶斯判别分析在股票投资分析中的应用
贝叶斯判别分析在传媒板块股票分析中的应用
摘要…………………………………………………………………3
1.引言……………………………………………………………….3
2.综合评价指标体系的建立……………………………………….4
3.聚类分析方法…………………………………………………….4
3.1离差平方和法…………………………………………………4
3.2距离测度的选定……………………………………………….5
3.3数据的标准化………………………………………………….5
4.股票投资的实证分析……………………………………….....…5
5.贝叶斯判别………………………………………………….……8
5.1判别分析的基本方法………………………………...…………8
5.2贝叶斯判别的基本思想和规则………………………….……9
5.2.1标准的Bayes判别………………………………………9
5.2.2考虑错判损失的Bayes判别分析……………………...9
5.3判别分析的应用……………………………………………….10
6.总结………………………………………………...……………12
参考文献………………………………………………...…...……12
摘要:
随着中国股票市场的不断发展,对股票的投资更加理性化和科学化,股票投资分析的作用也日益重要起来。
本文对20家出版传媒公司2011年的财务数据从盈利能力、偿债能力、成长能力和资本扩张能力等四个方面进行聚类分析,并对其分类结果应用贝叶斯判别来量化分析,从而检验分类结果。
对传媒版块的股票进行投资分析,据此总结出传媒版块股票的类型和特点,为市场各参与者提供有效把握该版块长期成长趋势的借鉴。
关键词:
股票投资;聚类分析;判别分析
Abstract:
WiththedevelopmentofstockmarketinChina,thestragedyofinvestmenttendstobemorereasonableandscientific.Asaresult,theanalysisofstockinvestmentwillperformavitalroleininvestment.Inthearticle,thefinancialdateofthepublicationofthemediacompaniesof20isanalysedontheaspectofprofitability,sovency,growthabilityandcapitalexpansioncapacity.Theoutcomeofclusteranalysisisadjusted,applyingtheBayesdiscriminantanalysis.Accodingtotheanalysisofstockamongthemediasection,thetypeandtraitofstocksaresummarized,whichcanprovideabenefinalreferencefortheinvestorstograspthegrowthtrendofthissectionefficiently.
KeyWords:
StockInvestmentClusterAnalysisBayesDiscriminant
1.引言
中国证劵市场经过了数十年的发展和完善,逐渐趋于成熟和科学,证劵投资分析的有效性和必要性也越来越强。
通过各种专业性的分析方法可以对影响证劵波动的各类信息进行综合性质的分析,从而判断证劵价格波动的行为,这就是证劵投资分析。
它是证劵投资过程中的一个重要环节。
常用的证劵分析方法有基本分析和技术分析,在此不讨论技术分析,而着重研究基本分析。
因为基本分析可以较为全面的掌控证劵价格的基本走势,主要适用于周期相对较长的证劵价格预测和相对成熟的证劵市场。
这与多元统计在证劵投资分析中的基本要求相符合。
基本分析,又称之为基本面分析,可细分为宏观经济分析、行业分析和公司分析。
其中公司分析是基础分析的核心,公司分析主要是通过对公司财务报告的分析,从中寻找出影响公司股票价格的公司内在财务情况,作为投资决策的主要依据。
对公司进行的财务分析可以在较大的程度上确定该公司的股票是否具有投资价值,这是投资者做投资分析的主要目的。
然而基础分析中的影响因素大多都是定性分析,存在不少的主观性,所得到的长期分析结果可信度不高,为了寻求理性的长期投资的参考依据,必须采取数据量化分析,从公司股票的基本特征之中发掘出股票的真实投资价值。
这就需要在基础分析之上,对公司财务状况进行多元统计分析。
此外,经济学家马柯维茨的现代投资组合理论是利用一定时期内证劵收益率的数学期望和方差分别衡量其获益能力和风险大小,进行分散性投资。
但是这个理论存在一些限制,如前提是有效市场,需要职业的金融管理人员和现代化的计算设备。
但是很明显中国证劵市场是非有效市场,存在大量的散户和投机者,现代投资组合理论无法有效地在中国的证劵市场得到应用。
相比较而言,多元统计分析在应用时,受到的局限小,操作性强,具有可以推广给广大投资者采用的优越性。
多元统计分析主要有三大分析方法:
聚类分析、判别分析、主成分分析。
其中聚类分析可以基于股票各类基本层面因素的考察,利用建立起来的综合评价指标体系对公司股票的相似程度进行比较分类,这样做可以清晰地了解公司股票的总体特征,区别出各类优劣股票,缩小投资的范围,还可以利用分类的总体价格水平来预估股票价格的波动趋势和时机。
对于不在样本之中的同行业股票可以利用判别分析对其进行归类,得到该股票的大概走势和特征。
最后得到分类出来的判别函数,将类别特征进行量化总结。
2.综合评价指标体系的建立
公司的基础层面上可以分为四大类:
公司的盈利能力、偿债能力、成长能力、资本扩张管理能力。
从这四个方面入手分析公司股票的基本情况,进而依照各股票的特征进行分类。
并针对不同特征的股票采取不同的投资决策。
盈利能力的大小直接影响了股票价值的高低。
净资产利润率反应股东投资报酬的大小,每股收益是测定股票投资价值的重要指标,综合反映公司的获利能力。
总资产利润率=净利润/平均资产总额
每股收益=净利润/期末总股本
偿债能力可以反映出上市公司资产的稳定安全程度。
资产负债率标志着公司的长期偿债能力,相对的,流动比率反映了短期偿债能力。
资产负债率=期末负债总值/期末资产总值
流动比率=期末流动资产/期末流动负债
资本管理能力显示出公司的运行状态和资本的有效利用。
存货周转率和应收账款周转率反映公司的管理资本能力。
存货周转率=销货成本/平均存货余额
应收账款周转率反映公司应收账款周转速度的比率
成长能力可以包含收入增长率、净利润增长率、每股净资产和每股分红送股,反映公司在资本上的扩张能力和重组能力,净利润的大小决定了投资者的回报多少,也会影响到股票的价格波动。
收入增长率=本期业务收入/上期业务收入-1
净利润增长率=本期净利润/上期净利润-1
每股净资产=期末净资产/期末总股本
如上,完成了聚类分析建立在基础层面上的指标体系的建立。
3.聚类分析方法
在诸多现实问题中我们都可以应用到聚类分析。
聚类分析就是根据数据的特征来吧分类对象按照一定的规则分成若干类,最后具有相同或者相似特征的样品会被分到同一类当中去,而不同类的样品之间具有相对较高的差异性。
其中系统聚类法是最为常用的聚类方法,常用的系统聚类方法有最短距离法、最长距离法、中间距离法、类平均法、重心法、离差平方和法、可变法和可变类平均法等。
所有这些方法都有各自所适用的场合和局限。
其中,离差平方和法和类平均法的聚类效果相对较好。
3.1离差平方和法
本文中我们采取离差平方和法进行聚类,它是建立在合并两个聚类时使“信息损失”最小这个思想的基础之上的。
如果分类合理的话,那么同类样品的离差平方和较小,而类间的离差平方和应该较大。
类中各样品到类重心即均值的平方欧氏距离之和称为离差平方和。
设类
和
合并称为新的类
,则
、
和
的离差平方和分别是
它们反映了各自类内样品的分散程度。
如果
和
这两类相距较近,则合并后所增加的离差平方和
应较小;否则,合并后的离差平方和则应该较大。
我们定义
和
之间的平方距离为
。
3.2距离测度的选定
根据所建立的综合体系中的指标特性,采取欧氏距离来描述样品数据之间的相似程度。
欧氏距离:
其中
表示第i个样品和第j个样品之间的距离,
表示第i个样品的第k个指标,p代表指标的总个数。
3.3数据的标准化
为了避免由于各种指标的量度不同在求距离时所带来误差,这里有必要将指标数据进行标准化处理。
为了保证数据特征不变,选用SPSS软件中的Zscore方法:
其中
表示样品i的指标j的值,
表示指标j的平均值。
而
表示指标j的标准差。
经过上述变换之后。
每个指标的均值为0,方差为1,此时每一个指标都处于同一量度。
4.股票投资的实证分析
根据之前所建立的综合评价指标体系,对所随机抽取的20家出版传媒公司2011年的财务数据进行聚类分析,指标变量的设定如下:
a:
每股收益;b:
净资产收益;c:
资产负债率;d:
流动比率;e:
存货周转率;f:
应收账款周转率;g:
收入增长率;h:
净利润增长率;i:
每股净资产;j:
每股分红送股。
应用SPSS18.0,对20家出版媒体公司的股票进行分类。
分类结果见表案例处理摘要(Table1)和表群集成员(Table2)。
Table1.案例处理摘要
案例
有效
缺失
合计
N
百分比
N
百分比
N
百分比
19
95%
1
5%
20
100.0%
通过案例处理摘要中可以看出:
20家出版传媒公司的财务数据中存在缺失值,证劵代码2400的省广股份在存货周转率这个指标上存在缺失值,无法算出省广股份与其他样品之间的欧氏距离,从而被排除在聚类分析的整个过程中,然而这个缺失值并不影响接下来的判别分析。
在判别分析中,该缺失值将会被该指标的均值所代替,保证协方差矩阵的完整,从而将缺失的证劵代码2400省广股份加入分类的结果之中,反而突显出判别分析在聚类分析结果上的一种完善。
Table2.群集成员
案例
5群集
4群集
3群集
1:
600373
1
1
1
2:
600088
2
2
2
3:
601098
1
1
1
4:
2181
3
3
1
5:
600825
4
4
3
6:
601801
4
4
3
7:
300148
5
3
1
8:
2238
2
2
2
9:
600551
4
4
3
10:
300027
5
3
1
11:
793
1
1
1
12:
300133
5
3
1
13:
300235
1
1
1
14:
600832
2
2
2
15:
917
3
3
1
16:
601999
4
4
3
17:
600880
1
1
1
18:
600386
1
1
1
19:
2292
5
3
1
群集成员表格给出分为3,4,5类的分类结果,为了保证分类的合理,选择4群集的聚类结果:
第一类:
中文传媒600373,中南传媒601098,华闻传媒793,博瑞传播600880,方直科技300235,北巴传媒600386
第二类:
中视传媒600088,天威视讯2238,东方明珠600832
第三类:
粤传媒2181,天舟文化300148,华谊兄弟300027,华策影视300133,电广传媒917,奥飞动漫2292
第四类:
皖新传媒601801,新华传媒600825,时代出版600551,出版传媒601999,
Table3.组统计量
WardMethod
均值
标准差
有效的N(列表状态)
未加权的
已加权的
1
a
.5733
.35229
6
6.000
b
19.9833
16.48174
6
6.000
c
27.6717
7.24735
6
6.000
d
2.6533
1.74862
6
6.000
e
7.6217
3.96827
6
6.000
f
17.4150
6.08369
6
6.000
g
30.4083
7.61987
6
6.000
h
30.1767
12.70953
6
6.000
i
3.2867
1.50234
6
6.000
j
.0033
.00816
6
6.000
2
a
.2533
.06110
3
3.000
b
7.7300
.85082
3
3.000
c
30.3933
8.57154
3
3.000
d
2.3133
.47089
3
3.000
e
18.5333
26.79665
3
3.000
f
136.4533
62.58510
3
3.000
g
5.9733
19.19209
3
3.000
h
6.3267
35.13594
3
3.000
i
3.4267
1.28204
3
3.000
j
.0617
.05393
3
3.000
3
a
.7850
.73538
6
6.000
b
10.5000
5.24960
6
6.000
c
20.7200
23.47967
6
6.000
d
13.7933
18.98310
6
6.000
e
4.1333
2.57101
6
6.000
f
14.1383
21.23783
6
6.000
g
53.0450
24.81067
6
6.000
h
273.9067
500.94327
6
6.000
i
8.0067
6.51913
6
6.000
j
.4092
.45045
6
6.000
4
a
.3500
.18744
4
4.000
b
10.0950
1.52553
4
4.000
c
33.0775
13.98793
4
4.000
d
2.3875
1.18579
4
4.000
e
4.2150
3.30926
4
4.000
f
5.2975
1.48558
4
4.000
g
4.3125
3.09039
4
4.000
h
3.1200
13.12364
4
4.000
i
3.7825
1.81828
4
4.000
j
.0950
.13820
4
4.000
合计
a
.5426
.48276
19
19.000
b
12.9721
10.41266
19
19.000
c
27.0442
15.22901
19
19.000
d
6.0616
11.41700
19
19.000
e
7.5258
10.69063
19
19.000
f
32.6247
52.20017
19
19.000
g
28.2047
25.41971
19
19.000
h
97.6821
291.83254
19
19.000
i
4.9037
4.22965
19
19.000
j
.1600
.30218
19
19.000
从组统计量表中可以发现每个类别在公司的盈利能力、偿债能力、成长能力、资本扩张管理能力对应的十个指标上的特征:
第三类是在这19家数据完整的出版传媒公司中盈利能力最强,每股收益0.785远高于平均水平0.5426,净资产收益10.5接近平均值12.9721;偿债能力表现在资产负债率20.72属于全部类别中的最低,而流动比率13.7933远远高于其他组别;成长能力方面存货周转率4.1333低于平均数7.5258,应收账款周转率14.1383远低于均值32.6247;在资本扩张能力方面收入增长率、净利润增长率、每股净资产、每股分红送股都远超其他组别。
从这些数据中可以看出:
第三类中的公司都是属于新兴公司,具有较好的发展前景和市场环境,目前收益大,发展速度快,资本扩张能力强,但是由于资本储量相对少,导致公司的偿债能力较弱,成长能力收到资本运转时所带来的阻碍。
该类股票适合短中期方向的投资决策。
以此类比分析其他三类:
第一类中的公司算得上是发展较为成熟的公司有较强的偿债能力,来保证足够的资本进行运作,盈利能力处于中等水平,资本扩张渐进于饱和状态,但是仍具有一定的成长能力,此类股票适合中期投资决策。
第二类公司的盈利能力属所有组别最低的,是自身资本量巨大所导致的,该类公司规模庞大,资本管理运行稳定,偿债能力很强,在资本和主营业项目的支持下,仍保有很强的成长能力,这类股票适合长期稳定投资决策。
第四类公司相较于第二类而言,具有较好的盈利能力和不错的偿债能力,但是在资本扩张能力和公司成长能力上较弱,估计是由于主营业项目的市场逐渐成熟和饱和。
该类股票也适合于长期投资决策。
5.贝叶斯判别
5.1判别分析的基本方法
判别分析是多元统计中用于判别样品所属类型的一种统计分析方法。
即在已知研究对象已按照某种方法将其分为若干类的情况下,确定新的样品的观测数据属于哪一类。
判别准则是用于衡量新样品与各已知组别接近程度的思路原则,而用判别函数来描述基于一定判别准则计算出的用于衡量新样品与各已知组别的接近程度。
基于不同的判别准则可以将其分为距离判别、费希尔判别与贝叶斯判别。
5.2贝叶斯判别的基本思想和规则
贝叶斯判别准则是希望所给的准则误判概率越小越好,即误判带来的平均损失越小越好。
一个理想的判别方法,既要考虑到各个总体出现的先验概率,又要考虑到错判造成的损失,贝叶斯判别就具有这些优点,其判别效果更加理想,应用也更为广泛。
5.2.1标准的Bayes判别
设有总体
,
具有概率密度函数
。
根据以往的统计分析,可以知道
出现的概率为
。
应用贝叶斯公式:
可得:
当样本
发生时,其属于
的概率为
i从1到k分别计算
。
若i=l时
取到最大值,则将
判给
即Bayes的判别规则是:
5.2.2考虑错判损失的Bayes判别分析
假设D1,D2,…,Dk是R(p)的一个分划,当样品X落入Di时则可判别
。
用
表示将来自总体Gi的样品错判到总体Gj的条件概率:
若C(j/i)表示相应错判所造成的损失,则平均错判损失为:
Bayes判别分析的解就是要找到使ECM最小的分划。
可证明划分的贝叶斯解为:
其中
根据贝叶斯解我们易知当抽取了一个未知总体的样品值x,要判别它属于哪个总体,只要先计算出k个按先验概率加权的误判平均损失,再比较其大小,选取其中最小的,则可判定样品属于该总体。
5.3贝叶斯判别分析的应用
在之前聚类分析的结果之上,本文采用贝叶斯判别对20家出版传媒公司2011年的财务数据进行了判别分析。
根据前面聚类分析的结果我们可以对19家出版传媒上市公司进行分组,其中第十号样品省广股份因为数据有缺省无法进行聚类。
通过聚类分析的结果我们来进一步应用贝叶斯判别进行分析。
表4为贝叶斯判别函数的特征值表,其三个判别函数的相关性很高,判别函数较为可靠。
Table4.贝叶斯判别函数特征值
函数
特征值
方差的%
累积%
正则相关性
1
43.626
88.7
88.7
.989
2
4.198
8.5
97.2
.899
3
1.378
2.8
100.0
.761
表5给出了各类总体的先验概率。
在这里,我们利用聚类分析的结果,使用样本频率代替先验概率。
Table5.先验概率
组
先验概率
分析个数
1
.316
6
2
.158
3
3
.316
6
4
.211
4
总计
1.000
19
表6给出了Bayes线性判别函数的系数。
表中的每一列表示样品判入相应类的Bayes判别函数系数。
Table6.Bayes判别函数系数
函数
1
2
3
4
a
-132.960
37.310
-159.977
-138.300
b
2.942
-.188
3.462
3.040
c
.744
1.711
1.245
1.014
d
-1.954
5.277
-1.553
-1.132
e
-.510
3.311
-.320
-.137
f
-.154
1.394
-.066
.028
g
.372
-2.590
.128
-.150
h
.257
.478
.434
.283
i
19.038
-5.857
22.944
19.560
j
-2.766
188.166
30.142
30.766
(常量)
-37.666
-153.273
-71.669
-46.468
将各样品的自变量值代入上述两个Bayes判别函数,得到两个函数值。
比较这两个函数值,哪个函数得出值比较大就可以判断该样品判入哪一类。
其贝叶斯判别的结果如表7所示。
Table7.按照案例顺序的统计量
案例数目
带有缺失值的预测函数的数目
实际组
最高组
预测组
P(D>d|G=g)
p
df
初始
dimension1
1
1
1
.689
3
2
2
2
.065
3
3
1
1
.381
3
4
3
3
.857
3
5
4
4
.701
3
6
4
4
.685
3
7
3
3
.407
3
8
2
2
.935
3
9
4
4
.563
3
11
3
3
.059
3
12
1
1
.934
3
13
3
3
.677
3
14
1
1
.756
3
15
2
2
.244
3
16
3
3
.788
3
17
4
4
.699
3
18
1
1
.593
3
19
1
1
.945
3
20
3
3
.200
3
交叉验证a
dimension1
1
1
1
.000
10
2
2
2
.000
10
3
1
4**
.646
10
4
3
4**
.000
10
5
4
3**
.000
10
6
4
4
.883
10
7
3
1**
.222
10
8
2
2
.000
10
9
4
3**
.003
10
11
3
3
.000
10
12
1
1
.87