方差.docx

上传人:b****7 文档编号:9625963 上传时间:2023-02-05 格式:DOCX 页数:47 大小:126.12KB
下载 相关 举报
方差.docx_第1页
第1页 / 共47页
方差.docx_第2页
第2页 / 共47页
方差.docx_第3页
第3页 / 共47页
方差.docx_第4页
第4页 / 共47页
方差.docx_第5页
第5页 / 共47页
点击查看更多>>
下载资源
资源描述

方差.docx

《方差.docx》由会员分享,可在线阅读,更多相关《方差.docx(47页珍藏版)》请在冰豆网上搜索。

方差.docx

方差

心理和教育方面的实验或调查所得到的数据,大都具有随机变量的性质。

而对这些随机变量的描述,仅有前一章所讲集中趋势的度量是不够的。

集中量数只描述数据的集中趋势和典型情况,它还不能说明一组数据的全貌。

数据除典型情况之外,还有变异性的特点。

对于数据变异性即离中趋势进行度量的一组统计量,称作差异量数,这些差异量数有标准差或方差,全距,平均差,四分差及各种百分差等等。

 

第一节   方差与标准差  

    

方差(Variance)也称变异数、均方。

作为统计量,常用符号S2表示,作为总体参数,常用符号σ2表示。

它是每个数据与该组数据平均数之差乘方后的均值,即离均差平方后的平均数。

方差,在数理统计中又常称之为二阶中心矩或二级动差。

它是度量数据分散程度的一个很重要的统计特征数。

标准差(Standarddeviation)即方差的平方根,常用S或SD表示。

若用σ表示,则是指总体的标准差,本章只讨论对一组数据的描述,尚未涉及总体问题,故本章方差的符号用S2,标准差的符号用S。

符号不同,其含义不完全一样,这一点望读者能够给予充分的注意。

一、方差与标准差的计算

(一)未分组的数据求方差与标准差

基本公式是:

(3—la)

(3—1b)

表3—1说明公式3—1a与3—1b的计算步骤

表3—1未分组的数据求方差与标准差

Xi

Xi—X=x

x2=(Xi—X)2

Xi2

6

5

7

4

6

8

0

-1

l

-2

0

2

0

l

1

4

0

4

36

25

49

16

36

64

N=6

∑Xi=36

∑x=0

∑x2=10

∑Xi2=226

 

应用3—1公式的具体步骤:

①先求平均数X=36/6=6;②计算Xi-X;③求(Xi-X)2即离均差x2;④将各离均差的平方求和(∑x2);⑤代入公式3—1a与3—1b求方差与标准差。

具体结果如下:

S2=10/6=1.67

(二)已分组的数据求标准差与方差

数据分组后,便以次数分布表的形式出现,这时原始数据不见了,若计算方差与标准差可用下式:

(3—3a)

(3—3b)

式中d=(Xc-AM)/i,AM为估计平均数

Xc为各分组区间的组中值

f为各组区间的次数

N=Σf为总次数或各组次数和

i为组距。

下面以表1—8数据为例,说明分组数据求方差与标准差的步骤:

表3—2次数分布表求方差与标准差 

分组

区间

Xc

f

d

fd

fd2

计算

96-

93-

90-

87-

84-

81-

78-

75-

72-

69-

66-

63-

60-

97

94

91

88

85

82

79

76

73

70

67

64

61

2

3

4

8

11

17

19

14

10

7

3

l

1

6

5

4

3

2

1

0

—1

—2

—3

—4

—5

—6

12

15

16

24

22

17

0

—14

—20

—21

—12

—5

—6

72

75

64

72

44

17

0

14

40

63

48

25

36

 

S2=32*

(570/100-(28/100)2)=50.5944

 

S=7.113

 

 

i=3

 

Σf=100

 

Σfd=28

Σfd2=570

 

   具体步骤:

①设估计平均数AM,任选一区间的Xc充任;

②求d

⑧用f乘d,并计算Σfd;

④用d与fd相乘得fd2,并求Σfd2;

⑤代入公式计算。

二、方差与标准差的意义

方差与标准差是表示一组数据离散程度的最好的指标。

其值越大,说明离散程度大,其值小说明数据比较集中,它是统计描述与统计分析中最常应用的差异量数。

它基本具备一个良好的差异量数应具备的条件:

①反应灵敏,每个数据取值的变化,方差或标准差都随之变化;②有一定的计算公式严密确定;③容易计算;④适合代数运算;⑤受抽样变动的影响小,即不同样本的标准差或方差比较稳定;⑥简单明了,这一点与其他差异量数比较稍有不足,但其意义还是较明白的。

除上述之外,方差还具有可加性特点,它是对一组数据中造成各种变异的总和的测量,能利用其可加性分解并确定出属于不同来源的变异性(如组间、组内等)并可进一步说明每种变异对总结果的影响,是以后统计推论部分常用的统计特征数。

在描述统计部分,只需要标准差就足以表明一组数据的离中趋势了。

标准差比其他各种差异量数具有数学上的优越性,特别是当已知一组数据的平均数与标准差后,便可知占一定百分比的数据落在平均数上下各两个标准差,或三个标准差之内。

对于任何一个数据集合,至少有1一1/h2的数据落在平均数的h(大于1的实数)个标准差之内。

(切比雪夫定理)。

例如某组数据的平均数为50,标准差是5,则至少有75%(1一1/22)的数据落在50-2*5至50+2*5即40至60之间,至少有88.9%(1一1/32)的数据落在50-3*5至50+3*5=35—65之间(h=2,1-1/h2=1-1/22=3/4=75%,h=3,-1/h2=1-1/32=8/9=88.9%)。

如果数据是呈正态分布,则数据将以更大的百分数落在平均数上下两个标准差之内(95%)或三个标准差之内(99.%)。

三、由各小组的标准差求总标准差

由于方差具有可加性特点,在已知几个小组的方差或标准差的情况下,可以计算出几个小组联合在一起的总的方差或标准差。

这种计算常在科研协作中应用,例如先了解各班学生情况,再了解全年级情况;或先了解各年级情况,再了解全校总的情况。

但这种方差或标准差的合成,只有在应用同一种观测手段,测量的是同一个特质,只是样本不同时,才能应用。

计算总方差或总标准差的公式如下;

(3—4a)

(3—4b)

式中

为总方差

为总标准差

N1…Nn为各小组数据个数

为总平均数

为各小组的平均数

四、标准差的应用

(一)差异系数(Coefficientofvariation)

当所观测的样本水平比较接近,而且是对同一个特质使用同一种测量工具进行测量时,要比较不同样本之间离散程度的大小,一般可直接比较标准差或方差的大小-标准差的值大说明该组数据较分散,若标准差小,则说明该组数据较集中。

标准差的单位与原数据的单位相同,因而有时称它为绝对差异量。

在对不同样本的观测结果的离散程度进行比较时,常会遇到下述情况:

①两个或多个样本所测的特质不同,即所使用的观测工具不同,如何比较其离散程度?

②即使使用的是同+种观测工具,但样本的水平相差较大时,如何比较它们的离散程度?

在第一种情况下,标准差的单位不同,显然不能直接比较标准差的大小。

第二种情况虽然标准差的单位相同,但两样本的水平不同,这可从平均数的大小明显不同确定。

通常情况下,平均数的值较大,其标准差的值一般也较大,平均数的值较小,其标准差的值也较小。

这种情况下,若直接比较标准差取值的大小,借以比较不同样本的分散情况是无意义的。

可见,上述两种情况下,若用绝对差异量进行直接比较以确定其分散程度的大小是不行的,这时可用相对差异量进行比较。

最常用的相对差异量就是差异系数。

差异系数,.又称变异系数、相对标准差等,通常用符号CV表示,其计算如下,

CV=S/M*100%(3—5)

式中S为某样本的标准差

M为该样本的平均数。

差异系数在心理与教育研究中常用于:

①同一团体不同观测值离散程度的比较,②对于水平相差较大,但进行的是同一种观测的各种团体,进行观测值离散程度的比较。

例2已知某小学一年级学生的平均体重为25公斤,体重的标准差是3.7公斤,平均身高110厘米,标准差为6.2厘米,问体重与身高的离散程度哪个大?

解:

CV体重=3.7/25*100%=14.8%

CV身高=6.2/110*100%=5.64%

通过比较差异系数可知,体重的分散程度比身高的分散程度大(14.8%>5.64%)。

例3通过同一个测验,一年级(7岁)学生的平均分数为60分,标准差为4.02分,五年级(14岁)学生的平均分数为80分,标准差为6.04分,问这两个年级的测验分数中哪一个分散程度大?

解:

CV一年级=4.02/60*100%=6.7%

CV五年级=6.04/80*100%=7.55%

答;五年级的测验分数分散程度大。

在应用差异系数比较相对差异大小时,一般应注意测量的数据要保证具有等距的尺度,这时计算的平均数和标准差才有意义,应用差异系数进行比较也才有意义。

另外,观测工具应具备绝对零,这时应用差异系数去比较分散程度效果才更好。

因此,差异系数常用于重量、长度、时间,编制得好的测验量表范围内。

第三,差异系数只能用于一般的相对差异量的描述上,至今尚无有效的假设检验方法,因此对差异系数不能进行统计推论。

(二)标准分数(standardscore)

标准分数又称基分数或z分数,是以标准差为单位表示一个分数在团体中所处位置的相对位置量数。

1.计算公式;

Z=(X—

)/S(3—6)

式中X代表原始数据,X为一组数据的平均数,S为标准差。

从公式3—6可以明了,Z分数的意义,它是一个数与平均数之差除以标准差所得的商数,它无实际单位。

如果了个数小于平均数,其值为负数,如果一个数的值大于平均数,其值为正数,如果一个数的值等于平均数,其值为零。

可见Z分数可以表明原数目在该组数据分布中的位置,故称为相对位置量数。

例4某班平均成绩为90分,标准差为3分,甲生得94.2分,乙生得89.1分,求甲乙'学生的Z分数各是多少?

解:

根据公式3—6

Z甲=(94.2—90)/3=1.4

Z乙=(89.1—90)/3=-0.3

Z分数表示其原分数在以平均数为中心时的相对位置,这比使用平均数和原分数表达了更多的信息。

2.Z分数的性质

①在一组数据中所有由原分数转换得出的z分数之和为零,其Z分数的平均数亦为零。

②一组数据中各z分数的标准差为1。

3.Z分数的应用

①Z分数可用于比较分属性质不同的观测值在各自数据分布中相对位置的高低。

因为z分数可以表明各原数目在该组数据分布中的相对位置,它无实际单位。

这样不同观测值的比较便可进行。

这里所说的数据分布中相对位置包括两个意思,一个是表示某原数目以平均数为中心以标准差为单位所处距离的远近与方向;另一个意思是表示某原数目在该组数据分布中的位置,即在该数目以下或以上的数据各有多少,如果在一个正态分布(或至少是一个对称分布)中,这两个意思可合二为一。

但在一个偏态分布中,这两个意思就不能统一。

这一点在应用z分数时要特别注意。

例如有一人的身高是170厘米,体重是65公斤(也可以是另一人的体重),究竟身高还是体重在各自的分布中较高?

这是属于两种不同质的观测,不能直接比较。

但若我们知道各自数据分布的平均数与标准差,这样我们可分别求出z分数进行比较。

设Z身高1.70=0.5,Z体重65=1.2,则可得出该人的体重离平均数的距离要比身高离平均数的距离远,即该人在某团体中身高稍偏高,而体重更偏重些。

如果该团体,身高与体重的次数分布为正态,我们还可更确切地知道该人的身高与体重在次数分布的相对位置是多少,从而进行更确切(或更数量化)的比较。

②当已知各不同质的观测值的次数分布为正态时,可用z分数求不同的观测值的总和或平均值,以示在团体中的相对位置。

在算术平均数一节中讲到,在计算平均数时,要求数据必须同质,否则会使平均数没有意义,但有时需要将不同质的数据合成,这时可采用Z分数。

例如已知高考的各科成绩分布是正态分布,但是由于各科的难易度不同,因此,各科成绩就属于不同质的数据。

以前常采取总和分数或求平均分数的方法,这是不科学的。

如果应用Z分数求总和或平均数则更有意义。

类似这种情况有期末成绩总和等。

举例如下

表3-3利用Z分数求总和

 

科目

原始分数

甲乙

全体考生

平均数标准差

Z分数

甲乙

语文

政治

外语

数学

理化

8589

7062

6872

5340

7287

70lO

655

698

506

758

1.5001.900

1.000-0.600

0.1250.375

0.500-1.667

0.3151.500

总计

348350

 

2.5001.505

假设二例是高等学校入学考试两名考生甲与乙的成绩分数。

如果按总分录取则取乙生,若按标准分数录取则应取甲生;为何会出现如此悬殊的差别?

这是由于不恰当地计算总和分数造成的,因为各科成绩难易度不同,分散程度也不同;:

各门学科的成绩分数是不等价的,亦即数据是不同质的,这时应用总和分数不够科学,故此出现这类问题,科学的方法应当用Z分数合成。

从Z分数可知甲生多数成绩是在平均数以上,即使有两种成绩低于平均数,差别也小。

总之成绩较稳定且在分布较高处,而乙生则不然。

可见应用Z分数更趋合理。

③表示标准测验分数

经过标准化的心理与教育测验,如果其常模分数分布接近正态分布,常常转换成正态标准分数。

转换公式为

Z=aZ+b(3—7)

式中Z'为正态标准分数,Z=(X—

)/σ,a、b为常数,σ为测验常模的标准差。

例如早期的智力测验所测的智力指标为智商(IQ)

这种表示智力的方法有一定局限性,因为人到成年以后智力不再随年龄而增长,到了老年甚至智力有衰退。

要用上面的公式表示,则不好。

因此,韦克斯勒(D.Wechsler)制定新的智力量表时则用离差智商的概念表示一个人在同龄团体中的相对智力。

IQ=15Z+100

(WAIS)韦氏成人智力量表,其中Z=(X—

)/S,X为原分数,

为某团体(或年龄组)的平均数,S为该年龄组的标准差。

离差智商的常数100与15实际为总平均数与标准差。

类似的标准测验分数还有:

普通分类测验(AGCT)Z'=20Z+100,比纳—西蒙智力测验Z'=16Z+100等等。

应用正态标准分数能更清楚地表明:

某一分数在相应团体中的位置。

(三)异常值的取舍

在十个正态分布中,平均数上下一定的标准差处,包含有确定百分数的数据个数;根据这个原理,在整理数据时,常采用主个标准差法则,,取舍数据,即如果有一个数据的取值落在平均数加减三个标准差之外,则在整理数据时,可将此数据作为异常值加以舍弃。

以上是指数据较多的情况,如果数据个数较少,亦可根据下表所列的标准差数的一半(全距与标准差比率一半)乘以标准差,然后再求与平均数的和、差,并以此二值为界取舍数据。

统计学的应用

概念

  样本中各数据与样本平均数的差的平方和的平均数叫做样本方差;样本方差的算术平方根叫做样本标准差。

  

  

样本方差和样本标准差都是衡量一个样本波动大小的量,样本方差或样本标准差越大,样本数据的波动就越大。

  方差和标准差。

方差和标准差是测算离散趋势最重要、最常用的指标。

方差是各变量值与其均值离差平方的平均数,它是测算数值型数据离散程度的最重要的方法。

标准差为方差的算术平方根,用S表示。

方差相应的计算公式为

标准差与方差不同的是,标准差和变量的计算单位相同,比方差清楚,因此很多时候我们分析的时候更多的使用的是标准差。

常见随机变量的期望和方差

  设随机变量X。

  X服从(0—1)分布,则E(X)=pD(X)=p(1-p)

  X服从泊松分布,即X~π(λ),则E(X)=λ,D(X)=λ

  X服从均匀分布,即X~U(a,b),则E(X)=(a+b)/2,D(X)=(b-a)^2/12

  X服从指数分布,即X~e(λ),E(X)=λ^(-1),D(X)=λ^(-2)

  X服从二项分布,即X~B(n,p),则E(x)=np,D(X)=np(1-p)

  X服从正态分布,即X~N(μ,σ^2),则E(x)=μ,D(X)=σ^2

  X服从标准正态分布,即X~N(0,1),则E(x)=0,D(X)=1

标准正态分布

  standardnormaldistribution

  期望值μ=0,即曲线图象对称轴为Y轴,标准差σ=1条件下的正态分布,记为N(0,1)。

  标准正态分布又称为u分布,是以0为均数、以1为标准差的正态分布,记为N(0,1)。

  标准正态分布曲线下面积分布规律是:

在-1.96~+1.96范围内曲线下的面积等于0.9500,在-2.58~+2.58范围内曲线下面积为0.9900。

统计学家还制定了一张统计用表(自由度为∞时),借助该表就可以估计出某些特殊u1和u2值范围内的曲线下面积。

百科名片

正态分布(normaldistribution)又名高斯分布(Gaussiandistribution),是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。

若随机变量X服从一个数学期望为μ、标准方差为σ2的高斯分布,记为:

则其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。

因其曲线呈钟形,因此人们又经常称之为钟形曲线。

我们通常所说的标准正态分布是μ=0,σ=1的正态分布。

目录

正态分布

1.正态分布的由来

2.正态分布

3.正态曲线下面积分布

4.标准正态曲线

5.一般正态分布与标准正态分布的转化

6.一般正态分布与标准正态分布的区别与联系

主要特征

发展

应用

1.综述

2.估计正态分布资料的频数分布

3.制定医学参考值范围

4.统计方法的理论基础

5.概率论中最重要的分布

6.主要内涵

7.整体论

8.重点论

9.发展论

研究过程

1.考试成绩及学生综合素质研究

正态分布

1.正态分布的由来

2.正态分布

3.正态曲线下面积分布

4.标准正态曲线

5.一般正态分布与标准正态分布的转化

6.一般正态分布与标准正态分布的区别与联系

主要特征

发展

应用

1.综述

2.估计正态分布资料的频数分布

3.制定医学参考值范围

4.统计方法的理论基础

5.概率论中最重要的分布

6.主要内涵

7.整体论

8.重点论

9.发展论

研究过程

1.考试成绩及学生综合素质研究

展开

编辑本段正态分布

正态分布的由来

  normaldistribution

  

正态分布

一种概率分布。

正态分布是具有两个参数μ和σ2的连续型随机变量的分布,第一参数μ是服从正态分布的随机变量的均值,第二个参数σ2是此随机变量的方差,所以正态分布记作N(μ,σ2)。

服从正态分布的随机变量的概率规律为取与μ邻近的值的概率大,而取离μ越远的值的概率越小;σ越小,分布越集中在μ附近,σ越大,分布越分散。

正态分布的密度函数的特点是:

关于μ对称,在μ处达到最大值,在正(负)无穷远处取值为0,在μ±σ处有拐点。

它的形状是中间高两边低,图像是一条位于x轴上方的钟形曲线。

当μ=0,σ2=1时,称为标准正态分布,记为N(0,1)。

μ维随机向量具有类似的概率规律时,称此随机向量遵从多维正态分布。

多元正态分布有很好的性质,例如,多元正态分布的边缘分布仍为正态分布,它经任何线性变换得到的随机向量仍为多维正态分布,特别它的线性组合为一元正态分布。

  正态分布最早由A.棣莫弗在求二项分布的渐近公式中得到。

C.F.高斯在研究测量误差时从另一个角度导出了它。

P.S.拉普拉斯和高斯研究了它的性质。

  生产与科学实验中很多随机变量的概率分布都可以近似地用正态分布来描述。

例如,在生产条件不变的情况下,产品的强力、抗压强度、口径、长度等指标;同一种生物体的身长、体重等指标;同一种种子的重量;测量同一物体的误差;弹着点沿某一方向的偏差;某个地区的年降水量;以及理想气体分子的速度分量,等等。

一般来说,如果一个量是由许多微小的独立随机因素影响的结果,那么就可以认为这个量具有正态分布(见中心极限定理)。

从理论上看,正态分布具有很多良好的性质,许多概率分布可以用它来近似;还有一些常用的概率分布是由它直接导出的,例如对数正态分布、t分布、F分布等。

  正态分布应用最广泛的连续概率分布,其特征是“钟”形曲线。

  附:

这种分布的概率密度函数为:

(如右图)

  

正态分布公式

正态分布

  1.正态分布:

若已知的密度函数(频率曲线)为正态函数(曲线)则称已知曲线服从正态分布,记号~。

其中μ、σ2是两个不确定常数,是正态分布的参数,不同的μ、不同的σ2对应不同的正态分布。

  正态曲线呈钟型,两头低,中间高,左右对称,曲线与横轴间的面积总等于1。

  2.正态分布的特征:

服从正态分布的变量的频数分布由μ、σ完全决定。

  

(1)μ是正态分布的位置参数,描述正态分布的集中趋势位置。

正态分布以X=μ为对称轴,左右完全对称。

正态分布的均数、中位数、众数相同,均等于μ。

  

(2)σ描述正态分布资料数据分布的离散程度,σ越大,数据分布越分散,σ越小,数据分布越集中。

也称为是正态分布的形状参数,σ越大,曲线越扁平,反之,σ越小,曲线越瘦高。

正态曲线下面积分布

  1.实际工作中,正态曲线下横轴上一定区间的面积反映该区间的例数占总例数的百分比,或变量值落在该区间的概率(概率分布)。

不同范围内正态曲线下的面积可用公式计算。

  2.几个重要的面积比例 轴与正态曲线之间的面积恒等于1。

正态曲线下,横轴区间(μ-σ,μ+σ)内的面积为68.268949%,横轴区间(μ-1.96σ,μ+1.96σ)内的面积为95.449974%,横轴区间(μ-2.58σ,μ+2.58σ)内的面积为99.730020%。

标准正态曲线

  1.标准正态分布是一种特殊的正态分布,标准正态分布的μ和σ2为0和1,通常用ξ(或Z)表示服从标准正态分布的变量,记为Z~N(0,1)。

  2.标准化变换:

此变换有特性:

若原分布服从正态分布,则Z=(x-μ)/σ~N(0,1)就服从标准正态分布,通过查标准正态分布表就可以直接计算出原正态分布的概率值。

故该变换被称为标准化变换。

  3.标准正态分布表:

标准正态分布表中列出了标准正态曲线下从-∞到X(当前值)范围内的面积比例。

一般正态分布与标准正态分布的转化

  由于一般的正态总体其图像不一定关于y轴对称,对于

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 党团工作 > 入党转正申请

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1