均值方差等精品.docx

资源描述

均值方差等精品.docx

《均值方差等精品.docx》由会员分享，可在线阅读，更多相关《均值方差等精品.docx（14页珍藏版）》请在冰豆网上搜索。

均值方差等精品.docx

均值方差等精品

均值,方差等（精品）

样本均值样本均值又叫样本均数。

即为样本的均值。

均值是指在一组数据中所有数据之和再除以数据的个数。

它是反映数据集中趋势的一项指标。

例如1、2、3、4四个数据的均值为（1+2+3+4）/4=2.5。

样本（sample），是指从总体中抽出的一部分个体。

样本中所包含个体数目称样本容量或含量，用符号N或n表示。

总体（population）是指客观存在的，并在同一性质的基础上结合起来的许多个别单位的整体，即具有某一特性的一类事物的全体，又叫母体或全域。

简单地说，总体也就是我们所研究的性质相同个体的总和。

样本是受审查客体的反映形象或其自身的一部分。

按一定方式从总体中抽取的若干个体，用于提供总体的信息及由此对总体作统计推断。

又称子样。

例如因为人力和物力所限，不能每年对全国的人口进行普查，但可以通过抽样调查的方式来得到需要的信息。

从总体中抽取样本的过程叫抽样。

最常用的抽样方式是简单随机抽样，按这种方式抽样，总体中每个个体都有同等的机会被抽入样本，这样得到的样本称简单随机样本。

样本的平均值称样本均值，样本偏离样本均值的平方的平均值称为样本方差，在数理统计中，常常用样本均值来估计总体均值，用样本方差来估计总体方差。

样本方差样本方差定义样本方差样本关于给定点x在直线上散布的数字特征之一，其中的点x称为方差中心。

样本方差数值上等于构成样本的随机变量对离散中心x之方差的平方和。

设X、，，各是同分布实随机变量，点x是选定的方差中心（x〔R）。

那么，量s。

（x）=艺（x一x）z称为关于点x的样本方差（samplevariance），由于s。

（x）=s。

（见）+n（无一x），）s。

（无）二s。

，其中了二（X、+十戈）加，可见当x二了时关于x的样本方差取最小值.较小的S。

说明样本元素关于见集中；相反，较大的S。

说明样本元素分散，样本方差的概念，可以自然地推广到多维样本的样本协方差矩阵。

方差定义，设X是一个随机变量，若E{[X-E（X）]_}存在，则称E{[X-E（X）]_}为X的方差，记为V（X），是衡量一组数据的离散程度的统计量编辑本段样本方差计算方法设X1,X2,,Xn是一个样本，S_=sum（（xi-E（x））_）/（n-1）称为样本方差，其中E（x）是样本均值。

例如，一样本取值为3,4,4,5,4，则样本均值=（3+4+4+5+4）/5=4，样本方差S2=（（3-4）_+0+0+（5-4）_+0）/4=0.5。

样本方差是常用的统计量之一，是描述一组数据变异程度或分散程度大小的指标。

S称为样本标准差。

如在上例中，S=0.7071。

称（S/X）100%为样本变异系数。

由于S与X都是从同一个样本资料中求得，两者的单位相同，故变异系数为一纯数。

当两种样本资料所用的单位不同时，只要计算出变异系数，就可以比较它们的变异程度。

标准差标准差（StandardDeviation），也称均方差（meansquareerror），是各数据偏离平均数的距离的平均数，它是离均差平方和平均后的方根，用表示。

标准差是方差的算术平方根。

标准差能反映一个数据集的离散程度。

平均数相同的，标准差未必相同。

简介标准差的意义离散度极差离均差的平方和1.方差（S2）2.标准差（SD）3.变异系数（CV）解释标准差与标准误的区别1.标准误Excel函数外汇术语样本标准差应用实例1.选基金2.股市分析中3.标准差在确定企业最优资本结构中的应用展开简介标准差的意义离散度1.极差2.离均差的平方和3.方差（S2）4.标准差（SD）5.变异系数（CV）解释标准差与标准误的区别1.标准误Excel函数外汇术语样本标准差应用实例1.选基金2.股市分析中标准差在确定企业最优资本结构中的应用编辑本段简介标准差（StandardDeviation），在概率统计中最常使用作为统计分布程度（statisticaldispersion）上的测量。

标准差定义为方差的算术平方根，反映组内个体间的离散程度。

测量到分布程度的结果，原则上具有两种性质：

为非负数值，与测量资料具有相同单位。

一个总量的标准差或一个随机变量的标准差，及一个子集合样品数的标准差之间，有所差别。

标准计算公式假设有一组数值X1,X2,X3,......Xn（皆为实数），其平均值为，公式如图1.图1标准差也被称为标准偏差，或者实验标准差，公式如图2。

图2简单来说，标准差是一组数据平均值分散程度的一种度量。

一个较大的标准差，代表大部分数值和其平均值之间差异较大；一个较小的标准差，代表这些数值较接近平均值。

例如，两组数的集合{0,5,9,14}和{5,6,8,9}其平均值都是7，但第二个集合具有较小的标准差。

标准差可以当作不确定性的一种测量。

例如在物理科学中，做重复性测量时，测量数值集合的标准差代表这些测量的精确度。

当要决定测量值是否符合预测值，测量值的标准差占有决定性重要角色：

如果测量平均值与预测值相差太远（同时与标准差数值做比较），则认为测量值与预测值互相矛盾。

这很容易理解，因为如果测量值都落在一定数值范围之外，可以合理推论预测值是否正确。

标准差应用于投资上，可作为量度回报稳定性的指标。

标准差数值越大，代表回报远离过去平均数值，回报较不稳定故风险越高。

相反，标准差数值越细，代表回报较为稳定，风险亦较小。

例如，A、B两组各有6位学生参加同一次语文测验，A组的分数为95、85、75、65、55、45，B组的分数为73、72、71、69、68、67。

这两组的平均数都是70，但A组的标准差为17.078分，B组的标准差为2.16分（此数据是在R统计软件中运行获得），说明A组学生之间的差距要比B组学生之间的差距大得多。

如是总体，标准差公式根号内除以n如是样本，标准差公式根号内除以（n-1）因为我们大量接触的是样本，所以普遍使用根号内除以（n-1）公式意义所有数减去其平均值的平方和，所得结果除以该组数之个数（或个数减一，即变异数），再把所得值开根号，所得之数就是这组数据的标准差。

深蓝区域是距平均值小于一个标准差之内的数值范围。

在正态分布中，此范围所占比率为全部数值之68%。

根据正态分布，两个标准差之内（深蓝，蓝）的比率合起来为95%。

根据正态分布，三个标准差之内（深蓝，蓝，浅蓝）的比率合起来为99%。

正态分布图标准差的意义标准计算公式假设有一组数值（皆为实数），其平均值为：

.此组数值的标准差为：

样本标准差在真实世界中，除非在某些特殊情况下，找到一个总体的真实的标准差是不现实的。

大多数情况下，总体标准差是通过随机抽取一定量的样本并计算样本标准差估计的。

从一大组数值当中取出一样本数值组合，常定义其样本标准差：

样本方差s是对总体方差的无偏估计。

s中分母为n-1是因为的自由度为n1，这是由于存在约束条件。

这里示范如何计算一组数的标准差。

例如一群儿童年龄的数值为{5,6,8,9}：

第一步，计算平均值第二步，计算标准差编辑本段离散度标准差是反应一组数据离散程度最常用的一种量化形式，是表示精确度的重要指标。

说起标准差首先得搞清楚它出现的目的。

我们使用方法去检测它，但检测方法总是有误差的，所以检测值并不是其真实值。

检测值与真实值之间的差距就是评价检测方法最有决定性的指标。

但是真实值是多少，不得而知。

因此怎样量化检测方法的准确性就成了难题。

这也是临床工作质控的目的：

保证每批实验结果的准确可靠。

虽然样本的真实值是不可能知道的，但是每个样本总是会有一个真实值的，不管它究竟是多少。

可以想象，一个好的检测方法，其检测值应该很紧密的分散在真实值周围。

如果不紧密，与真实值的距离就会大，准确性当然也就不好了，不可能想象离散度大的方法，会测出准确的结果。

因此，离散度是评价方法的好坏的最重要也是最基本的指标。

一组数据怎样去评价和量化它的离散度呢?

人们使用了很多种方法：

极差最直接也是最简单的方法，即最大值－最小值（也就是极差）来评价一组数据的离散度。

这一方法在日常生活中最为常见，比如比赛中去掉最高最低分就是极差的具体应用。

离均差的平方和由于误差的不可控性，因此只由两个数据来评判一组数据是不科学的。

所以人们在要求更高的领域不使用极差来评判。

其实，离散度就是数据偏离平均值的程度。

因此将数据与均值之差（我们叫它离均差）加起来就能反映出一个准确的离散程度。

和越大离散度也就越大。

但是由于偶然误差是成正态分布的，离均差有正有负，对于大样本离均差的代数和为零的。

为了避免正负问题，在数学有上有两种方法：

一种是取绝对值，也就是常说的离均差绝对值之和。

而为了避免符号问题，数学上最常用的是另一种方法－－平方，这样就都成了非负数。

因此，离均差的平方和成了评价离散度一个指标。

方差（S2）由于离均差的平方和与样本个数有关，只能反应相同样本的离散度，而实际工作中做比较很难做到相同的样本，因此为了消除样本个数的影响，增加可比性，将标准差求平均值，这就是我们所说的方差成了评价离散度的较好指标。

样本量越大越能反映真实的情况，而算数均值却完全忽略了这个问题，对此统计学上早有考虑，在统计学中样本的均差多是除以自由度（n-1），它的意思是样本能自由选择的程度。

当选到只剩一个时，它不可能再有自由了，所以自由度是n-1。

标准差（SD）由于方差是数据的平方，与检测值本身相差太大，人们难以直观的衡量，所以常用方差开根号换算回来这就是我们要说的标准差。

在统计学中样本的均差多是除以自由度（n-1），它是意思是样本能自由选择的程度。

当选到只剩一个时，它不可能再有自由了，所以自由度是n-1。

变异系数（CV）标准差能很客观准确的反映一组数据的离散程度，但是对于不同的检目，或同一项目不同的样本，标准差就缺乏可比性了，因此对于方法学评价来说又引入了变异系数CV。

一组数据的平均值及标准差常常同时做为参考的依据。

在直觉上，如果数值的中心以平均值来考虑，则标准差为统计分布之一自然的测量。

定义公式：

其中N应为n-1，即自由度标准差与平均值定义公式1、方差s_=[（x1-x）_+（x2-x）_+......（xn-x）_]/（n）（x为平均数）2、标准差=方差的算术平方根errorbar。

在实验中单次测量总是难免会产生误差，为此我们经常测量多次，然后用测量值的平均值表示测量的量，并用误差条来表征数据的分布，其中误差条的高度为标准误。

这里即标准差standarddeviation和标准误standarderror的计算公式分别为标准差标准误编辑本段解释从几何学的角度出发，标准差可以理解为一个从n维空间的一个点到一条直线的距离的函数。

举一个简单的例子，一组数据中有3个值，X1,X2,X3。

它们可以在3维空间中确定一个点P=（X1,X2,X3）。

想像一条通过原点的直线。

如果这组数据中的3个值都相等，则点P就是直线L上的一个点，P到L的距离为0,所以标准差也为0。

若这3个值不都相等，过点P作垂线PR垂直于L，PR交L于点R，则R的坐标为这3个值的平均数：

公式运用一些代数知识，不难发现点P与点R之间的距离（也就是点P到直线L的距离）是。

在n维空间中，这个规律同样适用，把3换成n就可以了。

编辑本段标准差与标准误的区别标准差与标准误都是心理统计学的内容，两者不但在字面上比较相近，而且两者都是表示距离某一个标准值或中间值的离散程度，即都表示变异程度，但是两者是有着较大的区别的。

首先要从统计抽样的方面说起。

现实生活或者调查研究中，我们常常无法对某类欲进行调查的目标群体的所有成员都加以施测，而只能够在所有成员（即样本）中抽取一些成员出来进行调查，然后利用统计原理和方法对所得数据进行分析，分析出来的数据结果就是样本的结果，然后用样本结果推断总体的情况。

一个总体可以抽取出多个样本，所抽取的样本越多，其样本均值就越接近总体数据的平均值。

表示的就是样本数据的离散程度。

标准差就是样本平均数方差的开平方，标准差通常是相对于样本数据的平均值而定的，通常用MSD来表示，表示样本某个数据观察值相距平均值有多远。

从这里可以看到，标准差受到极值的影响。

标准差越小，表明数据越聚集；标准差越大，表明数据越离散。

标准差的大小因测验而定，如果一个测验是学术测验，标准差大，表示学生分数的离散程度大，更能够测量出学生的学业水平；如果一个测验测量的是某种心理品质，标准差小，表明所编写的题目是同质的，这时候的标准差小的更好。

标准差与正态分布有密切联系：

在正态分布中，1个标准差等于正态分布下曲线的68.26%的面积，1.96个标准差等于95%的面积。

这在测验分数等值上有重要作用。

标准误表示的是抽样的误差。

因为从一个总体中可以抽取出无数多种样本，每一个样本的数据都是对总体的数据的估计。

标准误代表的就是当前的样本对总体数据的估计，标准误代表的就是样本均数与总体均数的相对误差。

标准误是由样本的标准差除以样本容量的开平方来计算的。

从这里可以看到，标准误更大的是受到样本容量的影响。

样本容量越大，标准误越小，那么抽样误差就越小，就表明所抽取的样本能够较好地代表总体。

编辑本段Excel函数Excel中有STDEV、STDEVP;STDEVA,STDEVPA四个函数，分别表示样本标准差、总体标准差；包含逻辑值运算的样本标准差、包含逻辑值运算的总体标准差（excel用的是标准偏差字样）。

在计算方法上的差异是：

样本标准差=（样本方差/（数据个数-1））_；总体标准差=（总体方差/（数据个数））_。

函数的excel分解：

（1）stdev（）函数可以分解为（假设样本数据为A1：

E10这样一个矩阵）：

stdev（A1：

E10）=sqrt（DEVSQ（A1：

E10）/（COUNT（A1：

E10）-1））

（2）stdevp（）函数可以分解为（假设总体数据为A1：

E10这样一个矩阵）：

stdev（A1：

E10）=sqrt（DEVSQ（A1：

E10）/（COUNT（A1：

E10）））同样的道理stdeva（）与stdevpa（）也有同样的分解方法。

编辑本段外汇术语标准差指统计上用于衡量一组数值中某一数值与其平均值差异程度的指标。

标准差被用来评估价格可能的变化或波动程度。

标准差越大，价格波动的范围就越广，股票等金融工具表现的波动就越大。

在excel中调用函数STDEV估算样本的标准偏差。

标准偏差反映相对于平均值（mean）的离散程度。

编辑本段样本标准差在真实世界中，除非在某些特殊情况下，不然找到一个总体的真实的标准差是不现实的。

大多数情况下，总体标准差是通过随机抽取一定量的样本并计算样本标准差估计的。

编辑本段应用实例选基金在投资基金上，一般人比较重视的是业绩，但往往买进了基金的算法近期业绩表现最佳的基金之后，基金表现反而不如预期，这是因为所选基金波动度太大，没有稳定的表现。

衡量基金波动程度的工具就是标准差（StandardDeviation）。

标准差是指基金可能的变动程度。

标准差越大，基金未来净值可能变动的程度就越大，稳定度就越小，风险就越高。

比方说，一年期标准差是30%的基金，表示这类基金的净值在一年内可能上涨30%，但也可能下跌30%。

因此，如果有两只收益率相同的基金，投资人应该选择标准差较小的基金（承受较小的风险得到相同的收益），如果有两只相同标准差的基金，则应该选择收益较高的基金（承受相同的风险，但是收益更高）。

建议投资人同时将收益和风险计入，以此来判断基金。

例如，A基金二年期的收益率为36%，标准差为18%；B基金二年期收益率为24%，标准差为8%，从数据上看，A基金的收益高于B基金，但同时风险也大于B基金。

A基金的每单位风险收益率为2（0.36/0.18），而B基金为3（0.24/0.08）。

因此，原先仅仅以收益评价是A基金较优，但是经过标准差即风险因素调整后，B基金反而更为优异。

另外，标准差也可以用来判断基金属性。

据晨星统计，今年以来股票基金的平均标准差为5.14，积配型基金的平均标准差为5.04；保守配置型基金的平均标准差为4.86；普通债券基金平均标准差为2.91；货币基金平均标准差则为0.19；由此可见，越是积极型的基金，标准差越大；而如果投资人持有的基金标准差高于平均值，则表示风险较高，投资人不妨在观赏奥运比赛的同时，也检视一下手中的基金。

股市分析中股票价格的波动是股票市场风险的表现,因此股票市场风险分析就是对股票市场价格波动进行分析。

波动性代表了未来价格取值的不确定性,这种不确定性一般用方差或标准差来刻画（Markowitz,1952）。

下表是中国和美国部分时段的股票统计指标,其中中国证券市场的数据由钱龙软件下载,美国证券市场的数据取自ECI的WorldStockExchangeDataDisk。

表2股票统计指标年份业绩表现波动率上证综指标准普尔指数上证综指标准普尔指数1996110.9316.460.2376O.05731997-0.1331.01O.1188O.083619988.9426.67O.0565O.0676199917.2419.53O.15120.0433201943.86-10.140.0970.04212019-15.34-13.04O.0902O.07322019-20.82-23.37O.0582O.1091通过计算可以得到：

上证综指业绩期望值（110.93-0.13+8.94+17.24+43.86-15.34-20.82）/7=20.67上证波动率期望值0.1156标准普尔业绩期望值6.7214标准普尔波动率期望值0.0680而标准差的计算公式则根据公分析图2式

（2）计算：

上证综指的业绩标准差上证波动率标准差0.0632标准普尔指数业绩标准差21.71标准普尔波动率标准差0.02365因为标准差是绝对值，不能通过标准差对中美直接进行对比，而变异系数可以直接比较。

计算可得：

上证业绩变异系数45.2457/20.672．1889上证波动率变异系数0.0632/0.11560.5467标准普尔业绩变异系数21.71/6.72143.2299标准普尔波动率变异系数0.02365/0.06800.3478通过比较可以看出上证波动率变异系数要大于标准普尔波动率变异系数，说明长期来讲中国股市稳定性相对较差，还是一个不太成熟的股票市场。

标准差在确定企业最优资本结构中的应用资本结构指的是企业各种资金来源的比例关系，是企业筹资活动的结果。

最优资本结构是指能使企业资本成本最低且企业价值最大的资本结构；产权比率，即借入资本与自有资本的构成比例，是反映企业资本结构的重要变量。

企业的资产由债务性资金和权益性资金组成，但其分析图风险等级和收益率各不相同。

根据投资组合理论，投资的多样化可以分散掉一定的风险，因此资金提供者需要决定投资于债务性资金和权益性资金的比例。

以便在权衡风险和收益的情况下保证其利益的最大化。

理论探索而外部资金提供者利益的最大化也就是企业价值的最大化，这一投资比例对于企业融资而言也就是企业的最优资本结构比例。

假定某企业的资金通过发行债券和股票两种方式获得，并且都属于风险性资产。

其中债券的收益率为rD，风险通过标准差D来衡量；股票的收益率为rE，风险为E；股票和债券的相关系数为pDE，协方差为COV（rD,rE）；债券所占的比重为wD，股票所占比重为WE（WD+WE=1）。

根据投资组合理论，企业外部投资者对该企业投资所获的期望收益率为E（rp）=WDE（rD）+wEE（rE），方差为方差1、企业债务性资金和权益性资金完全正相关，即相关系数pDE为1。

企业外部投资者获得的期望收益率为E（rp）=wDE（rD）+wEE（rE），风险标准差为=wDD+wEE,也就是组合的标准差等于各个部分标准差的加权平均值，通过投资组合不可能分散掉投资风险。

根据投资组合理论，投资组合的不同比例对于投资者而言是无差异的。

2、企业债务性资金和权益性资金完全负相关，即其相关系数为-1。

投资者获得的报酬率的期望值及其方差分别为。

根据投资组合理论，只有当投资比例大于E/（D+E）时其投资组合才是有效的。

对于企业筹资而言，也即企业的权益性资金的比例大干E/（D+E），企业的筹资比例才是有效的，而且当组合比例为E/（D+E）时，企业的筹资组合风险为零。

3、企业债务性资金和权益性资金的相关系数大于-1小于1。

理论上，一个企业的两种筹资方式之间的相关程度较高，一方面两种筹资方式都承担系统风险，另一方面它们也承担相同的公司风险。

因此从实践来看，企业的不同筹资方式间的相关程度不可能是完全的正相关和负相关。

对于一个企业而言，债务性资金对企业有固定的要求权，权益性资金对企业只有剩余要求权，因此债务性资金的波动不可能像权益性资金的波动那么大。

同时企业的风险会同时影响企业的债务性资金和权益性资金，因此企业的债务性资金和权益性资金的相关系数不可能为负数。

企业不同的筹资方式间的相关系数一般在0-1之间。

那

展开阅读全文