QuatitativeMethods统计初步及市场回报.docx
《QuatitativeMethods统计初步及市场回报.docx》由会员分享,可在线阅读,更多相关《QuatitativeMethods统计初步及市场回报.docx(19页珍藏版)》请在冰豆网上搜索。
QuatitativeMethods统计初步及市场回报
封面
作者:
PanHongliang
仅供个人学习
7.统计初步及市场回报(StatisticalConceptsandMarketReturns)
要点7.a:
区别描述统计量和推断统计量;区别总体和样本;区别不同的度量尺度。
总体(population)和样本(sample)
描述统计量(descriptivestatistics)用于描述数据集的特性;推断统计量(inferentialstatistics)是根据已有特性作出推断、预测和判断的统计量。
我们把对某一个问题的研究对象的全体称为总体。
每一个对总体特点的描述称为参数(parameter)。
总体有很多参数。
投资者常常只关心使用一些参数,如均值收益率和收益率标准差等。
组成总体的每个基本单元称为个体,从总体中随机抽取的n个个体组成称为容量为n的样本。
每一个对样本特点的描述称为样本统计量(samplestatistic)。
通常情况下,虽然我们可以采取穷举法列出总体所有个体来研究总体,但这是费时费力的,也是没有必要的。
因此我们通常通过研究总体的样本来估计总体的性质。
度量尺度(Measurementscale)
度量尺度定义为度量的不同水平,可以分为如下几类,考试中要知道每一种度量尺度的强弱程度以及他们所代表的度量含义:
1.名义量(Nominalscale)
这是最弱的一种度量尺度。
直接使用原始观察值,没有按照特别的顺序进行分类或计数。
2.顺序量(Ordinalscale)
这是较高级的一种度量尺度。
所有的观察值被分类到不同的类别中,这些类别按照某种特性排序。
比如我们按照绩效对100种成长基金进行排序,将数字1分派给绩效最好的基金,数字10分派给最差的基金。
注意到我们可以得出1比2好的结论,但是我们无法判断绩效的差别。
3.区间量(Intervalscale)
这种度量尺度提供了排序方法,并且每个量的差别值是一样的。
比如50比40大10,我们就可以说,50和40间的差别与30和20间的差别是一样的。
4.比例量(Ratioscale)
这是最强的一种度量尺度。
它不仅具有区间量的优点,并且可以和原始数据一样提供零点。
要点7.b:
解释参数、样本统计量、频率分布。
参数和样本统计量
1.参数:
前面提到,每一个对总体特点的描述称为参数(parameter),即参数是用来度量总体特征的。
2.样本统计量
与参数相对应,每一个对样本特点的描述就称为样本统计量(samplestatistic),即样本统计量是用来度量样本特征的。
频率分布(FrequencyDistribution)
频率分布是一张表,把所得到的数据按照区间分门别类,统计个数,用于分析大量数据。
有如下几个步骤:
第一步:
建立一张区间表。
所谓的区间是指一段数值,而观察值恰好落在这一段数值内。
要求每个观察值只能落在一个区间内,而且所有的区间覆盖整个整体。
区间数的决定很重要。
太少的区间数使我们失去重要的性质,而太多的区间数使我们不能很好的总结。
第二步:
将每个观察值分入相应的区间中。
第三步:
对每个区间的观察值进行计数。
每个区间的计数称为绝对频率,或简称频率。
要点7.c:
根据给定的频率分布计算和阐述相对频率与累积相对频率
1.相对频率(relativefrequency)
另外的一种有用的表达数据的方法是相对频率。
相对频率就是把上述计算得出的每一个频率除以观察值总数得出的小数,也就是总观察值数的百分比数。
2.累积相对频率(cumulativerelativefrequency)
将每阶段之前的相对频率加起来就构成每阶段的累积相对频率。
要点7.d:
描述柱状图和频率多边形代表的数据特点。
图形表示
1.柱状图(histogram):
用柱状来表示频率大小。
其优点是可以直接看出那个区间的值最多。
柱状图的横轴是区间,而竖轴是绝对频率。
2.频率多边形(frequencypolygon)
第二个图形工具是用多边形来描述数据。
我们将区间的中点标在横轴上,竖轴表示频率。
在图上按照顺序标出相应的点,每个点用直线连接起来。
如下图:
柱状图和频率多边形的优势在于他们能够迅速地发现大多数的观察值位于哪里。
要点7.e:
定义、计算并解释数据的中心趋势,包括总体平均,样本平均,算术平均,加权平均或均值(包括将投资组合看成是一个加权平均),几何平均,调和平均,中位数和众数。
中心趋势的测量
1.总体平均(populationmean——)
公式定义为:
一个总体有且只有一个平均。
2.样本平均(samplemean——)
样本平均可以用来推断总体均值。
样本平均定义如下:
注:
n是样本大小,而N是总体大小。
例2-21:
A公司股票历年来收益率如下所示:
12%,25%,34%,15%,19%,40%,54%,34%,25%,29%。
我们取出其中5个收益率作为一个样本:
12%,34%,15%,19%,54%,25%。
计算总体和样本的均值。
解题思路:
总体平均
样本平均。
3.算术平均(arithmeticmean)
上述的两种平均就是算术平均,它们是最常用的度量方法,有如下特点:
数据集都有算术平均数据集中;所有的数据都包含在算术平均的计算中。
满足如下公式:
算术平均也有如下缺点:
容易被数据极值(extremevalues)影响;如果数据集是个开集,则此数据集不能决定均值(因为n未知)。
4.几何平均(GeometricMean)
几何平均用于计算多阶段的投资收益。
其定义如下:
注意到根号下的乘积必须是正的,我们要对每个收益率加上1,然后乘积,开根,最后再将数值减去1,得到平均值。
例2-22:
某公司股票2000年至2002年连续三年的收益率为-7.25%、14.46%和9.33%。
计算2000年至2002年几何均值。
解题思路:
。
5.调和平均
调和平均用于某些特定的计算方式,例如计算投资的平均成本,其定义如下:
例2-23:
某投资者连续3个月每次以2,000元的资金购买股票,这三次股票的价格分别为8,9和10元,请问该投资者拥有股票的平均成本?
解题思路:
为了检验其结果,从加权平均的角度考虑,
6.几何平均和算术平均的比较
几何平均总是小于等于算术平均,这个关系经常会在考试中考到;几何平均是精确的度量。
例2-24:
某一股票现在股价10元。
一年后,其股价20元。
第二年年底,股价跌至10元。
我们计算年收益率算术平均和几何平均如下:
第一年收益率=20/10-1=100%
第二年收益率=10/20-1=-50%
算术平均=(100%-50%)/2=25%
几何平均=
由以上计算可以看出,几何平均要比算术平均精确,它计算的是正确的收益率。
7.加权平均(WeightedMean)
从数学上看,加权平均就是给每个数据一个权重:
例2-25:
基金经理A构造了一个基金组合,其中股票占50%,债券占45%,剩余的部分存入银行。
如果股票的预期收益率为14%,债券的预期收益率为6%,银行存款利率为1.98%。
计算该基金组合的收益率。
解题思路:
由公式可知:
。
8.中数(median)
把样本数据从大到小进行排序,如果数据个数是奇数,那么当中的那个数据就是median;如果数据个数是偶数,那么当中两个数的均值就是median。
例2-26:
某投资组合中各股票收益率为15%,34%,10%,24%和22%,计算收益率集合的中值。
解题思路:
从大到小排序得34%,24%,22%,15%,10%
数据个数是奇数5,中数就是当中的数据22%。
例2-27:
我们在上述数据中加入一个数据26%,那么排序结果为34%,26%,24%,22%,15%,10%,个数为偶数6,当中两个数是24%和22%,于是中数为(24%+22%)/2=23%。
9.众数(mode)
样本数据中,某数据个数最多的数据就是众数。
例2-28:
某投资组合中各股票收益率为15%,34%,10%,24%和22%,计算收益率集合的众数。
解题思路:
我们看到15%出现了两次,比其他任何数据都多,于是15%是众数。
注:
众数不唯一。
如果每个数值出现的频率都一样,那么该数据集没有众数。
要点7.f:
定义、计算并解释四分位数、五分位数、十分位数和百分位数
分位数(Quantile)是对于一个数值的一般称谓,在一个分布中,等于或低于该值的特定数据比例。
四分位数(quartiles)——此分布把数据分为四部分,每个部分包含数据集25%的数据;
五分位数(quintile)——此分布把数据分为五部分,每个部分包含数据集20%的数据;
十分位数(decile)——此分布把数据分为十部分,每个部分包含数据集10%的数据;
百分位数(percentile)——此分布把数据分为一百个部分,每个部分包含数据集1%的数据。
Ly=(n+1)y/100
在观察值是某个特定的分位数是第几个数可以利用以上公式求得,n代表数据集中共用几个数,y代表有多少比例的数据在这个分位数之下。
例如数据集中共有五个数,第三个四分位数就是,有75%的数在这个数之下,所以Ly=(n+1)y/100=(5+1)75/100=4.5,说明这个第三个四分位数是在数据集中从小到大排列的第4.5个数,需要把第4个数和第5个数进行算术平均就可以得出答案。
考试中要求会计算具体分位数的值,并且要仔细区分试题是考哪一种分位数,特别是四分位数和五分位数英文单词很相像。
要点7.g:
定义、计算并解释
(1)全距和平均绝对离差
(2)样本和总体的方差和标准差。
离散度(dispersion)的测量
1.全距(range)
range=最大值-最小值
2.平均绝对离差(MAD)
例2-29:
ED公司股票连续五年的收益率为:
30%,12%,25%,20%和23%,计算MAD。
解题思路:
=[30+12+25+20+23]/5=22%
MAD=[|30-22|+|12-22|+|25-22|+|20-22|+|23-22|]/5=4.8%
3.总体方差(populationvariance)
或者
例2-30:
数据如上例,如果这些数据来源于所有的小型投资公司,求方差。
解题思路:
这是个总体问题。
=[30+12+25+20+23]/5=22%
=[(30-22)2+(12-22)2+(25-22)2+(20-22)2+(23-22)2]/5=35.60%2
4.总体标准差(Populationstandarddeviation)
通常方差很难解释股票的波动,因为它的量纲是均值的平方,所以我们将方差开方,称之为总体标准差:
例2-31:
上题的标准差为
。
5.样本方差(Samplevariance)
样本来源于总体,其计算方法与总体稍有不同。
或者
注意到样本方差分母与总体的相差1。
例2-32:
数据如上例,这些数据是从所有小型投资公司中抽取某些公司统计得出的,则
=[30+12+25+20+23]/5=22%
=[(30-22)2+(12-22)2+(25-22)2+(20-22)2+(23-22)2]/(5-1)=44.5%2
6.样本标准差(samplestandarddeviation)
例2-33:
数据如上,且这些数据是从所有小型投资公司中抽取某些公司统计得出的,则
请注意上述概念公式的区别,考试中会出现有关sample还是population计算。
要点7.h:
用切比雪夫不等式计算个体落入偏离均值一定标准差范围内的观察值的比例。
切比雪夫不等式(Chebyshev'sinequality)
切比雪夫不等式是指在任何一个观测值集中,不管其分布的形状,至少有1-1/k2的比例的观测值落在距离均值有k个标准差的区间中,当所有k>1。
例2-34:
对任意分布而言,距离均值3个标准差范围内的数据占总数据集合的比例有多少?
解题思路:
1-1/k2=1-(1/32)=0.8889or88.89%。
36%的观察值落在均值附近正负1.25个标准差之内;
56%的观察值落在均值附近正负1.5个标准差之内;
75%的观察值落在均值附近正负2个标准差之内;
89%的观察值落在均值附近正负3个标准差之内;
94%的观察值落在均值附近正负4个标准差之内;
CFA考试中要求会利用切比雪夫不等式计算落在区间数据的比例以及通过均值和标准差计算上下边界。
要点7.i:
定义、计算并解释变异系数和夏普比率。
相对离散度(Relativedispersion)
直接比较两个或两个以上数据集的离散度是困难的。
不同的数据集,其收益率是不一样的,量纲也不一样。
为了克服这个困难,我们需要一个相对度量。
相对离散度就是这样的一系列变量。
一个比较常用的变量是变异系数(coefficientofvariation,CV)。
其定义如下:
它表示相对于均值而言到底有多少离散,而且允许在不同的数据集间比较。
例2-35:
3个月的回购利率为0.24%,标准差为0.30%,而同期股票指数的收益率为1.10%,标准差为6.71%。
计算该回购和指数的CV。
解题思路:
国库券CV=0.30/0.24=1.25标准普尔CV=6.71/1.10=6.10
解释:
国库券的相对离散度要比标准普尔的小。
夏普比率(SharpeRatio)
夏普测度表示的是每单位风险的超额收益。
其定义如下:
SharpeRatio=
其中:
投资组合收益(portfolioreturn),无风险利率(riskfreereturn),标准差。
例2-36:
3个月的回购利率为0.24%,标准差为0.30%,而同期股票指数的收益率为1.10%,标准差为6.71%。
我们认为该3个月的回购利率是无风险利率,计算指数的夏普比率。
解题思路:
夏普比率=(1.10-0.24)/6.71=0.128
解释:
标准普尔指数每单位风险获得超额收益0.128。
CFA考试要求,这两个概念请熟练掌握概念和计算,同时也要会计算告诉你变异系数求夏普比率,或者告知你夏普比率求变异系数。
要点7.j:
描述、解释偏度,并解释为什么一个分布会有正偏和负偏,描述一个非对称分布的均值、中数和众数的相对位置。
收益分布的对称度(symmetry)和偏度(skewness)
收益分布的对称度可以告诉我们数据偏离均值的程度。
1.对称分布:
均值两边的分布对称的
正态分布就是对称分布的一个例子,它有如下特点:
均值和中数相等。
该分布由均值和方差决定。
如果我们从正态分布的数据中取部分观察值,那么,粗略的讲,有66%的观察值落在距离均值+/-1标准差的区间,大约有95%的观察值落在距离均值+/-2标准差的区间,大约有99%的观察值落在距离均值+/-3标准差的区间。
2.偏度(skewness):
用来度量非对称分布的,对称分布的偏度为0。
正偏(positivelyskewness):
该分布右边厚尾;正(右)偏态(均值>中数>众数)
负偏(negativelyskewness):
该分布左边厚尾。
负(左)偏态(均值<中数<众数)
为了记住相互之间的关系,想象“拉”正态分布的“尾巴”(正态分布具有相等的均值,中数和众数)。
如果你拉的是右边的正的“尾巴”,你就会得到正(右)偏态。
如果你牢记,增加分布端点的极值对均值的影响最大,对众数或者分布的最高点却没有任何影响,那么你就可以记住前述图形所反映出来的关系。
有两种偏度的度量:
绝对偏度和相对偏度。
绝对偏度:
absskewness=
相对偏度:
relativeskewness(SK)=,其中s为标准差
解释:
如果相对偏度为零,那么意味着该分布不偏。
相对偏度如果为正数,那么该分布为正偏;如果为负数,那么该分布为负偏。
如果SK的绝对数值大于0.5,那么该分布的偏度较大。
要点7.k:
定义、解释样本偏度和峰度的度量。
收益分布的峰度
峰度就是指与正态分布相比较,“尖”的程度。
比正态分布“尖”的,称为leptokurtic,对应的,比正态分布不“尖”的或“平”的,称为platykurtic。
正态分布的峰度是3。
峰度(Kurtosis)用于和正态分布图高峰形态的比较。
包括尖峰(leptokurtic)、中峰(mesokurtic)和低峰(platykurtic)。
峰度:
kurtosis=,其中s为标准差
超额峰度的计算为:
excesskurtosis=kurtosisi-3。
解释:
超额峰度为正数,则该分布称为Leptokurtic分布;为负数,则该分布称为Platykurtic分布。
如果峰度的绝对数值大于1,那么该分布的峰度较大
超峰度(Excesskurtosis)是指与正态分布相比较,“尖”的程度。
具有4个峰度的分布具有额外的1个峰度。
我们称之具有正的超额峰度。
具有正的超额峰度的分布更多的收益集聚在均值附近,以及更多的收益偏离均值(更宽的尾巴)。
在金融中,正的超峰度是风险组合与管理中的重要因素,因为更宽的尾部意味着更大的极端结果可能性,换句话来说就是更大的风险。
正态分布与尖峰分布的形状如下图所示:
要点7.l:
当计算投资收益率时,讨论算术平均和几何平均的使用
算术平均回报是适合用来预测在未来时期内单个阶段回报,而几何平均回报是适合用来预测在未来时期内跨越多阶段的复合回报。
该考点是2010年CFA协会新增考点,请学员加以注意。
练习题:
ABCCorporationannualreturnarelistedbelow
1997
1998
1999
2000
2001
2002
2003
5%
-2%
11%
-6%
5%
22%
9%
5.WhatisthearithmeticmeanreturnforABC?
解题思路:
=(5-2+11-6+5+22+9)%/7=6.29%
6.WhatisthemedianreturnrateforABC?
解题思路:
我们从小到大进行排序得:
-6%,-2%,5%,5%,9%,11%,22%。
由于数据集个数为7个,所以第四个就是median,即median=5%。
注:
如果删去1997年的数据,那么集合中只有6个数据,因此,median=(5%+9%)/2=7%。
7.WhatisthemodereturnforABC?
解题思路:
历年来收益率个数较多的是5%,即mode=5%。
8.WhatistherangereturnforABC?
解题思路:
历年来收益率的极大和极小值分别为22%和-6%,因此,range=22%-(-6%)=28%。
9.WhatisthemeanabsolutedeviationforABC?
解题思路:
根据公式
10.IftheABCreturnisapopulation,whatisthepopulationvariance?
解题思路:
根据公式
11.IftheABCreturnisasample,whatisthesamplestandarddeviation?
解题思路:
根据公式
注:
分清楚是population还是sample,并且分清楚是variance还是standarddeviation。
12.Foranormaldistribution,whatapproximatepercentageoftheobservationfallwithin±1standarddeviationofthemean?
解题思路:
由题意可知,以均值为中心,±1个标准差之间面积的大小,大约占66%。
13.TheannualreturnsforABCstockover2001、2002and2003were–7%、2%and9%,respectively.WhatisthegeometricmeanreturnforABC?
解题思路:
计算如下:
((1+(-7%))×(1+2%)×(1+9%))1/3-1=1.12%
14.Whichofthefollowingismostaccurateregardingadistributionofreturnsthathasameanlowerthanitsmedian?
a)Positivelyskewed.
b)Negativeexcessskewness.
c)Negativelyskewed.
解题思路:
选择C。
由题意,mean考试一般还会问你是左边厚尾还是右边厚尾巴。
所以我们要记住正偏是右边厚尾,有正的极大值在分布的右边;而负偏是左边后尾,有负的极大值在分布的左边。
8.概率论初步(ProbabilityConcepts)
要点8.a:
定义随机变量、结果、事件、互斥事件和遍历事件。
一个随机变量(randomvariable)是一个不确定的量或者数字;
一个结果(outcome)是一个随机变量的观察值;
一个事件(event)是一个单个结果或者一组结果;
一个互斥事件(mutualexclusiveevents)是不可能发生在同一时间的事件;
一个遍历事件(exhaustiveevents)是包括了所有可能结果。
要点8.b:
解释概率的两个性质;区别经验的、先验的和主观的概率。
随机变量和概率
我们把对某种自然现象作一次观察或进行一次科学试验,统称为一个试验。
如果这个试验在相同条件下可以重复进行,而且每次试验的结果事前不可预言,我们就称它为一个随机试验。
试验的每一个可能结果称为随机事件,一般用大写字母表示,如A、B、E等。
我们用随机变量来表示其结果的不确定。
某个事件出现的可能性就称为该事件的概率(probability),用P来表示。
通常,把必然发生的事件的概率定为1,把不可能发生的事件的概率定为0,而一般随机事件的概率是介于0与1之间的一个数。
概率越大就表示该事件发生的可能性越大。
概率有两大特点:
1.每一个事件的概率介于0和1之间,
2.对于互斥(mutualexclusive)和遍历(exhaustive)的一系列事件,E1、E2、…、En,有
注:
mutualexclusive是指两个或两个以上的事件相互排斥,不可能同时出现;exhaustive是指包含了所有可能发生结果的总和。
我们用一个例子来说明上述概念。
对于一个骰子来说,它只有6面,我们把掷骰子称为试验。
每次掷骰子的结果是不确定的,这就是随机试验。
每次试验的结果必然是在I={1,2,3,4,5,6}里面。
我们把结果分成偶数和奇数两个部分,即有事件A={1,3,5}和事件B={2,4,6}两类。
A和B各占了一半的结果。
于是P(A)=P(B)=0.5。
每次结果要么落在事件A里面,要么落在事件B里面,不可能同时落在A和B中,这就意味着互斥。
事件A和B合起来代表了所有的结果。
这就是遍历,也就是P(A)+P(B)=1。
一般的我们把概率分为三类:
经验的(empirically)、先验的(priori)和主观的(subj