贝叶斯判别分析在股票投资分析中的应用Word格式.docx
《贝叶斯判别分析在股票投资分析中的应用Word格式.docx》由会员分享,可在线阅读,更多相关《贝叶斯判别分析在股票投资分析中的应用Word格式.docx(17页珍藏版)》请在冰豆网上搜索。
最后得到分类出来的判别函数,将类别特征进行量化总结。
2.综合评价指标体系的建立
公司的基础层面上可以分为四大类:
公司的盈利能力、偿债能力、成长能力、资本扩张管理能力。
从这四个方面入手分析公司股票的基本情况,进而依照各股票的特征进行分类。
并针对不同特征的股票采取不同的投资决策。
盈利能力的大小直接影响了股票价值的高低。
净资产利润率反应股东投资报酬的大小,每股收益是测定股票投资价值的重要指标,综合反映公司的获利能力。
总资产利润率=净利润/平均资产总额
每股收益=净利润/期末总股本
偿债能力可以反映出上市公司资产的稳定安全程度。
资产负债率标志着公司的长期偿债能力,相对的,流动比率反映了短期偿债能力。
资产负债率=期末负债总值/期末资产总值
流动比率=期末流动资产/期末流动负债
资本管理能力显示出公司的运行状态和资本的有效利用。
存货周转率和应收账款周转率反映公司的管理资本能力。
存货周转率=销货成本/平均存货余额
应收账款周转率反映公司应收账款周转速度的比率
成长能力可以包含收入增长率、净利润增长率、每股净资产和每股分红送股,反映公司在资本上的扩张能力和重组能力,净利润的大小决定了投资者的回报多少,也会影响到股票的价格波动。
收入增长率=本期业务收入/上期业务收入-1
净利润增长率=本期净利润/上期净利润-1
每股净资产=期末净资产/期末总股本
如上,完成了聚类分析建立在基础层面上的指标体系的建立。
3.聚类分析方法
在诸多现实问题中我们都可以应用到聚类分析。
聚类分析就是根据数据的特征来吧分类对象按照一定的规则分成若干类,最后具有相同或者相似特征的样品会被分到同一类当中去,而不同类的样品之间具有相对较高的差异性。
其中系统聚类法是最为常用的聚类方法,常用的系统聚类方法有最短距离法、最长距离法、中间距离法、类平均法、重心法、离差平方和法、可变法和可变类平均法等。
所有这些方法都有各自所适用的场合和局限。
其中,离差平方和法和类平均法的聚类效果相对较好。
3.1离差平方和法
本文中我们采取离差平方和法进行聚类,它是建立在合并两个聚类时使“信息损失”最小这个思想的基础之上的。
如果分类合理的话,那么同类样品的离差平方和较小,而类间的离差平方和应该较大。
类中各样品到类重心即均值的平方欧氏距离之和称为离差平方和。
设类
和
合并称为新的类
,则
、
的离差平方和分别是
它们反映了各自类内样品的分散程度。
如果
这两类相距较近,则合并后所增加的离差平方和
应较小;
否则,合并后的离差平方和则应该较大。
我们定义
之间的平方距离为
。
3.2距离测度的选定
根据所建立的综合体系中的指标特性,采取欧氏距离来描述样品数据之间的相似程度。
欧氏距离:
其中
表示第i个样品和第j个样品之间的距离,
表示第i个样品的第k个指标,p代表指标的总个数。
3.3数据的标准化
为了避免由于各种指标的量度不同在求距离时所带来误差,这里有必要将指标数据进行标准化处理。
为了保证数据特征不变,选用SPSS软件中的Zscore方法:
表示样品i的指标j的值,
表示指标j的平均值。
而
表示指标j的标准差。
经过上述变换之后。
每个指标的均值为0,方差为1,此时每一个指标都处于同一量度。
4.股票投资的实证分析
根据之前所建立的综合评价指标体系,对所随机抽取的20家出版传媒公司2011年的财务数据进行聚类分析,指标变量的设定如下:
a:
每股收益;
b:
净资产收益;
c:
资产负债率;
d:
流动比率;
e:
存货周转率;
f:
应收账款周转率;
g:
收入增长率;
h:
净利润增长率;
i:
每股净资产;
j:
每股分红送股。
应用SPSS18.0,对20家出版媒体公司的股票进行分类。
分类结果见表案例处理摘要(Table1)和表群集成员(Table2)。
Table1.案例处理摘要
案例
有效
缺失
合计
N
百分比
19
95%
1
5%
20
100.0%
通过案例处理摘要中可以看出:
20家出版传媒公司的财务数据中存在缺失值,证劵代码2400的省广股份在存货周转率这个指标上存在缺失值,无法算出省广股份与其他样品之间的欧氏距离,从而被排除在聚类分析的整个过程中,然而这个缺失值并不影响接下来的判别分析。
在判别分析中,该缺失值将会被该指标的均值所代替,保证协方差矩阵的完整,从而将缺失的证劵代码2400省广股份加入分类的结果之中,反而突显出判别分析在聚类分析结果上的一种完善。
Table2.群集成员
5群集
4群集
3群集
1:
600373
2:
600088
2
3:
601098
4:
2181
3
5:
600825
4
6:
601801
7:
300148
5
8:
2238
9:
600551
10:
300027
11:
793
12:
300133
13:
300235
14:
600832
15:
917
16:
601999
17:
600880
18:
600386
19:
2292
群集成员表格给出分为3,4,5类的分类结果,为了保证分类的合理,选择4群集的聚类结果:
第一类:
中文传媒600373,中南传媒601098,华闻传媒793,博瑞传播600880,方直科技300235,北巴传媒600386
第二类:
中视传媒600088,天威视讯2238,东方明珠600832
第三类:
粤传媒2181,天舟文化300148,华谊兄弟300027,华策影视300133,电广传媒917,奥飞动漫2292
第四类:
皖新传媒601801,新华传媒600825,时代出版600551,出版传媒601999,
Table3.组统计量
WardMethod
均值
标准差
有效的N(列表状态)
未加权的
已加权的
a
.5733
.35229
6
6.000
b
19.9833
16.48174
c
27.6717
7.24735
d
2.6533
1.74862
e
7.6217
3.96827
f
17.4150
6.08369
g
30.4083
7.61987
h
30.1767
12.70953
i
3.2867
1.50234
j
.0033
.00816
.2533
.06110
3.000
7.7300
.85082
30.3933
8.57154
2.3133
.47089
18.5333
26.79665
136.4533
62.58510
5.9733
19.19209
6.3267
35.13594
3.4267
1.28204
.0617
.05393
.7850
.73538
10.5000
5.24960
20.7200
23.47967
13.7933
18.98310
4.1333
2.57101
14.1383
21.23783
53.0450
24.81067
273.9067
500.94327
8.0067
6.51913
.4092
.45045
.3500
.18744
4.000
10.0950
1.52553
33.0775
13.98793
2.3875
1.18579
4.2150
3.30926
5.2975
1.48558
4.3125
3.09039
3.1200
13.12364
3.7825
1.81828
.0950
.13820
.5426
.48276
19.000
12.9721
10.41266
27.0442
15.22901
6.0616
11.41700
7.5258
10.69063
32.6247
52.20017
28.2047
25.41971
97.6821
291.83254
4.9037
4.22965
.1600
.30218
从组统计量表中可以发现每个类别在公司的盈利能力、偿债能力、成长能力、资本扩张管理能力对应的十个指标上的特征:
第三类是在这19家数据完整的出版传媒公司中盈利能力最强,每股收益0.785远高于平均水平0.5426,净资产收益10.5接近平均值12.9721;
偿债能力表现在资产负债率20.72属于全部类别中的最低,而流动比率13.7933远远高于其他组别;
成长能力方面存货周转率4.1333低于平均数7.5258,应收账款周转率14.1383远低于均值32.6247;
在资本扩张能力方面收入增长率、净利润增长率、每股净资产、每股分红送股都远超其他组别。
从这些数据中可以看出:
第三类中的公司都是属于新兴公司,具有较好的发展前景和市场环境,目前收益大,发展速度快,资本扩张能力强,但是由于资本储量相对少,导致公司的偿债能力较弱,成长能力收到资本运转时所带来的阻碍。
该类股票适合短中期方向的投资决策。
以此类比分析其他三类:
第一类中的公司算得上是发展较为成熟的公司有较强的偿债能力,来保证足够的资本进行运作,盈利能力处于中等水平,资本扩张渐进于饱和状态,但是仍具有一定的成长能力,此类股票适合中期投资决策。
第二类公司的盈利能力属所有组别最低的,是自身资本量巨大所导致的,该类公司规模庞大,资本管理运行稳定,偿债能力很强,在资本和主营业项目的支持下,仍保有很强的成长能力,这类股票适合长期稳定投资决策。
第四类公司相较于第二类而言,具有较好的盈利能力和不错的偿债能力,但是在资本扩张能力和公司成长能力上较弱,估计是由于主营业项目的市场逐渐成熟和饱和。
该类股票也适合于长期投资决策。
5.贝叶斯判别
5.1判别分析的基本方法
判别分析是多元统计中用于判别样品所属类型的一种统计分析方法。
即在已知研究对象已按照某种方法将其分为若干类的情况下,确定新的样品的观测数据属于哪一类。
判别准则是用于衡量新样品与各已知组别接近程度的思路原则,而用判别函数来描述基于一定判别准则计算出的用于衡量新样品与各已知组别的接近程度。
基于不同的判别准则可以将其分为距离判别、费希尔判别与贝叶斯判别。
5.2贝叶斯判别的基本思想和规则
贝叶斯判别准则是希望所给的准则误判概率越小越好,即误判带来的平均损失越小越好。
一个理想的判别方法,既要考虑到各个总体出现的先验概率,又要考虑到错判造成的损失,贝叶斯判别就具有这些优点,其判别效果更加理想,应用也更为广泛。
5.2.1标准的Bayes判别
设有总体
,
具有概率密度函数
根据以往的统计分析,可以知道
出现的概率为
应用贝叶斯公式:
可得:
当样本
发生时,其属于
的概率为
i从1到k分别计算
若i=l时
取到最大值,则将
判给
即Bayes的判别规则是:
5.2.2考虑错判损失的Bayes判别分析
假设D1,D2,…,Dk是R(p)的一个分划,当样品X落入Di时则可判别
用
表示将来自总体Gi的样品错判到总体Gj的条件概率:
若C(j/i)表示相应错判所造成的损失,则平均错判损失为:
Bayes判别分析的解就是要找到使ECM最小的分划。
可证明划分的贝叶斯解为:
根据贝叶斯解我们易知当抽取了一个未知总体的样品值x,要判别它属于哪个总体,只要先计算出k个按先验概率加权的误判平均损失,再比较其大小,选取其中最小的,则可判定样品属于该总体。
5.3贝叶斯判别分析的应用
在之前聚类分析的结果之上,本文采用贝叶斯判别对20家出版传媒公司2011年的财务数据进行了判别分析。
根据前面聚类分析的结果我们可以对19家出版传媒上市公司进行分组,其中第十号样品省广股份因为数据有缺省无法进行聚类。
通过聚类分析的结果我们来进一步应用贝叶斯判别进行分析。
表4为贝叶斯判别函数的特征值表,其三个判别函数的相关性很高,判别函数较为可靠。
Table4.贝叶斯判别函数特征值
函数
特征值
方差的%
累积%
正则相关性
43.626
88.7
.989
4.198
8.5
97.2
.899
1.378
2.8
100.0
.761
表5给出了各类总体的先验概率。
在这里,我们利用聚类分析的结果,使用样本频率代替先验概率。
Table5.先验概率
组
先验概率
分析个数
.316
.158
.211
总计
1.000
表6给出了Bayes线性判别函数的系数。
表中的每一列表示样品判入相应类的Bayes判别函数系数。
Table6.Bayes判别函数系数
-132.960
37.310
-159.977
-138.300
2.942
-.188
3.462
3.040
.744
1.711
1.245
1.014
-1.954
5.277
-1.553
-1.132
-.510
3.311
-.320
-.137
-.154
1.394
-.066
.028
.372
-2.590
.128
-.150
.257
.478
.434
.283
19.038
-5.857
22.944
19.560
-2.766
188.166
30.142
30.766
(常量)
-37.666
-153.273
-71.669
-46.468
将各样品的自变量值代入上述两个Bayes判别函数,得到两个函数值。
比较这两个函数值,哪个函数得出值比较大就可以判断该样品判入哪一类。
其贝叶斯判别的结果如表7所示。
Table7.按照案例顺序的统计量
案例数目
带有缺失值的预测函数的数目
实际组
最高组
预测组
P(D>
d|G=g)
p
df
初始
dimension1
.689
.065
.381
.857
.701
.685
7
.407
8
.935
9
.563
11
.059
12
.934
13
.677
14
.756
15
.244
16
.788
17
.699
18
.593
.945
.200
交叉验证a
.000
10
4**
.646
3**
.883
1**
.222
.003
.87