六西格玛管理数理统计方差与标准差.docx
《六西格玛管理数理统计方差与标准差.docx》由会员分享,可在线阅读,更多相关《六西格玛管理数理统计方差与标准差.docx(9页珍藏版)》请在冰豆网上搜索。
六西格玛管理数理统计方差与标准差
(六西格玛管理)数理统计_方差与标准差
心理和教育方面的实验或调查所得到的数据,大均具有随机变量的性质。
而对这些随机变量的描述,仅有前壹章所讲集中趋势的度量是不够的。
集中量数只描述数据的集中趋势和典型情况,它仍不能说明壹组数据的全貌。
数据除典型情况之外,仍有变异性的特点。
对于数据变异性即离中趋势进行度量的壹组统计量,称作差异量数,这些差异量数有标准差或方差,全距,平均差,四分差及各种百分差等等。
第壹节方差和标准差
方差(Variance)也称变异数、均方。
作为统计量,常用符号S2表示,作为总体参数,常用符号σ2表示。
它是每个数据和该组数据平均数之差乘方后的均值,即离均差平方后的平均数。
方差,于数理统计中又常称之为二阶中心矩或二级动差。
它是度量数据分散程度的壹个很重要的统计特征数。
标准差(Standarddeviation)即方差的平方根,常用S或SD表示。
若用σ表示,则是指总体的标准差,本章只讨论对壹组数据的描述,尚未涉及总体问题,故本章方差的符号用S2,标准差的符号用S。
符号不同,其含义不完全壹样,这壹点望读者能够给予充分的注意。
壹、方差和标准差的计算
(壹)未分组的数据求方差和标准差
基本公式是:
(3—la)
(3—1b)
表3—1说明公式3—1a和3—1b的计算步骤
表3—1未分组的数据求方差和标准差
Xi
Xi—X=x
x2=(Xi—X)2
Xi2
6
5
7
4
6
8
0
-1
l
-2
0
2
0
l
1
4
0
4
36
25
49
16
36
64
N=6
∑Xi=36
∑x=0
∑x2=10
∑Xi2=226
应用3—1公式的具体步骤:
①先求平均数X=36/6=6;②计算Xi-X;③求(Xi-X)2即离均差x2;④将各离均差的平方求和(∑x2);⑤代入公式3—1a和3—1b求方差和标准差。
具体结果如下:
S2=10/6=1.67
(二)已分组的数据求标准差和方差
数据分组后,便以次数分布表的形式出现,这时原始数据不见了,若计算方差和标准差可用下式:
(3—3a)
(3—3b)
式中d=(Xc-AM)/i,AM为估计平均数
Xc为各分组区间的组中值
f为各组区间的次数
N=Σf为总次数或各组次数和
i为组距。
下面以表1—8数据为例,说明分组数据求方差和标准差的步骤:
表3—2次数分布表求方差和标准差
分组
区间
Xc
f
d
fd
fd2
计算
96-
93-
90-
87-
84-
81-
78-
75-
72-
69-
66-
63-
60-
97
94
91
88
85
82
79
76
73
70
67
64
61
2
3
4
8
11
17
19
14
10
7
3
l
1
6
5
4
3
2
1
0
—1
—2
—3
—4
—5
—6
12
15
16
24
22
17
0
—14
—20
—21
—12
—5
—6
72
75
64
72
44
17
0
14
40
63
48
25
36
S2=32*
(570/100-(28/100)2)=50.5944
S=7.113
i=3
Σf=100
Σfd=28
Σfd2=570
具体步骤:
①设估计平均数AM,任选壹区间的Xc充任;
②求d
⑧用f乘d,且计算Σfd;
④用d和fd相乘得fd2,且求Σfd2;
⑤代入公式计算。
二、方差和标准差的意义
方差和标准差是表示壹组数据离散程度的最好的指标。
其值越大,说明离散程度大,其值小说明数据比较集中,它是统计描述和统计分析中最常应用的差异量数。
它基本具备壹个良好的差异量数应具备的条件:
①反应灵敏,每个数据取值的变化,方差或标准差均随之变化;②有壹定的计算公式严密确定;③容易计算;④适合代数运算;⑤受抽样变动的影响小,即不同样本的标准差或方差比较稳定;⑥简单明了,这壹点和其他差异量数比较稍有不足,但其意义仍是较明白的。
除上述之外,方差仍具有可加性特点,它是对壹组数据中造成各种变异的总和的测量,能利用其可加性分解且确定出属于不同来源的变异性(如组间、组内等)且可进壹步说明每种变异对总结果的影响,是以后统计推论部分常用的统计特征数。
于描述统计部分,只需要标准差就足以表明壹组数据的离中趋势了。
标准差比其他各种差异量数具有数学上的优越性,特别是当已知壹组数据的平均数和标准差后,便可知占壹定百分比的数据落于平均数上下各俩个标准差,或三个标准差之内。
对于任何壹个数据集合,至少有1壹1/h2的数据落于平均数的h(大于1的实数)个标准差之内。
(切比雪夫定理)。
例如某组数据的平均数为50,标准差是5,则至少有75%(1壹1/22)的数据落于50-2*5至50+2*5即40至60之间,至少有88.9%(1壹1/32)的数据落于50-3*5至50+3*5=35—65之间(h=2,1-1/h2=1-1/22=3/4=75%,h=3,-1/h2=1-1/32=8/9=88.9%)。
如果数据是呈正态分布,则数据将以更大的百分数落于平均数上下俩个标准差之内(95%)或三个标准差之内(99.%)。
三、由各小组的标准差求总标准差
由于方差具有可加性特点,于已知几个小组的方差或标准差的情况下,能够计算出几个小组联合于壹起的总的方差或标准差。
这种计算常于科研协作中应用,例如先了解各班学生情况,再了解全年级情况;或先了解各年级情况,再了解全校总的情况。
但这种方差或标准差的合成,只有于应用同壹种观测手段,测量的是同壹个特质,只是样本不同时,才能应用。
计算总方差或总标准差的公式如下;
(3—4a)
(3—4b)
式中为总方差
为总标准差
N1…Nn为各小组数据个数
为总平均数为各小组的平均数
四、标准差的应用
(壹)差异系数(Coefficientofvariation)
当所观测的样本水平比较接近,而且是对同壹个特质使用同壹种测量工具进行测量时,要比较不同样本之间离散程度的大小,壹般可直接比较标准差或方差的大小-标准差的值大说明该组数据较分散,若标准差小,则说明该组数据较集中。
标准差的单位和原数据的单位相同,因而有时称它为绝对差异量。
于对不同样本的观测结果的离散程度进行比较时,常会遇到下述情况:
①俩个或多个样本所测的特质不同,即所使用的观测工具不同,如何比较其离散程度?
②即使使用的是同+种观测工具,但样本的水平相差较大时,如何比较它们的离散程度?
于第壹种情况下,标准差的单位不同,显然不能直接比较标准差的大小。
第二种情况虽然标准差的单位相同,但俩样本的水平不同,这可从平均数的大小明显不同确定。
通常情况下,平均数的值较大,其标准差的值壹般也较大,平均数的值较小,其标准差的值也较小。
这种情况下,若直接比较标准差取值的大小,借以比较不同样本的分散情况是无意义的。
可见,上述俩种情况下,若用绝对差异量进行直接比较以确定其分散程度的大小是不行的,这时可用相对差异量进行比较。
最常用的相对差异量就是差异系数。
差异系数,.又称变异系数、相对标准差等,通常用符号CV表示,其计算如下,
CV=S/M*100%(3—5)
式中S为某样本的标准差
M为该样本的平均数。
差异系数于心理和教育研究中常用于:
①同壹团体不同观测值离散程度的比较,②对于水平相差较大,但进行的是同壹种观测的各种团体,进行观测值离散程度的比较。
例2已知某小学壹年级学生的平均体重为25公斤,体重的标准差是3.7公斤,平均身高110厘米,标准差为6.2厘米,问体重和身高的离散程度哪个大?
解:
CV体重=3.7/25*100%=14.8%
CV身高=6.2/110*100%=5.64%
通过比较差异系数可知,体重的分散程度比身高的分散程度大(14.8%>5.64%)。
例3通过同壹个测验,壹年级(7岁)学生的平均分数为60分,标准差为4.02分,五年级(14岁)学生的平均分数为80分,标准差为6.04分,问这俩个年级的测验分数中哪壹个分散程度大?
解:
CV壹年级=4.02/60*100%=6.7%
CV五年级=6.04/80*100%=7.55%
答;五年级的测验分数分散程度大。
于应用差异系数比较相对差异大小时,壹般应注意测量的数据要保证具有等距的尺度,这时计算的平均数和标准差才有意义,应用差异系数进行比较也才有意义。
另外,观测工具应具备绝对零,这时应用差异系数去比较分散程度效果才更好。
因此,差异系数常用于重量、长度、时间,编制得好的测验量表范围内。
第三,差异系数只能用于壹般的相对差异量的描述上,至今尚无有效的假设检验方法,因此对差异系数不能进行统计推论。
(二)标准分数(standardscore)
标准分数又称基分数或z分数,是以标准差为单位表示壹个分数于团体中所处位置的相对位置量数。
1.计算公式;
Z=(X—)/S(3—6)
式中X代表原始数据,X为壹组数据的平均数,S为标准差。
从公式3—6能够明了,Z分数的意义,它是壹个数和平均数之差除以标准差所得的商数,它无实际单位。
如果了个数小于平均数,其值为负数,如果壹个数的值大于平均数,其值为正数,如果壹个数的值等于平均数,其值为零。
可见Z分数能够表明原数目于该组数据分布中的位置,故称为相对位置量数。
例4某班平均成绩为90分,标准差为3分,甲生得94.2分,乙生得89.1分,求甲乙'学生的Z分数各是多少?
解:
根据公式3—6
Z甲=(94.2—90)/3=1.4
Z乙=(89.1—90)/3=-0.3
Z分数表示其原分数于以平均数为中心时的相对位置,这比使用平均数和原分数表达了更多的信息。
2.Z分数的性质
①于壹组数据中所有由原分数转换得出的z分数之和为零,其Z分数的平均数亦为零。
②壹组数据中各z分数的标准差为1。
3.Z分数的应用
①Z分数可用于比较分属性质不同的观测值于各自数据分布中相对位置的高低。
因为z分数能够表明各原数目于该组数据分布中的相对位置,它无实际单位。
这样不同观测值的比较便可进行。
这里所说的数据分布中相对位置包括俩个意思,壹个是表示某原数目以平均数为中心以标准差为单位所处距离的远近和方向;另壹个意思是表示某原数目于该组数据分布中的位置,即于该数目以下或之上的数据各有多少,如果于壹个正态分布(或至少是壹个对称分布)中,这俩个意思可合二为壹。
但于壹个偏态分布中,这俩个意思就不能统壹。
这壹点于应用z分数时要特别注意。
例如有壹人的身高是170厘米,体重是65公斤(也能够是另壹人的体重),究竟身高仍是体重于各自的分布中较高?
这是属于俩种不同质的观测,不能直接比较。
但若我们知道各自数据分布的平均数和标准差,这样我们可分别求出z分数进行比较。
设Z身高1.70=0.5,Z体重65=1.2,则可得出该人的体重离平均数的距离要比身高离平均数的距离远,即该人于某团体中身高稍偏高,而体重更偏重些。
如果该团体,身高和体重的次数分布为正态,我们仍可更确切地知道该人的身高和体重于次数分布的相对位置是多少,从而进行更确切(或更数量化)的比较。
、
②当已知各不同质的观测值的次数分布为正态时,可用z分数求不同的观测值的总和或平均值,以示于团体中的相对位置。
于算术平均数壹节中讲到,于计算平均数时,要求数据必须同质,否则会使平均数没有意义,但有时需要将不同质的数据合成,这时可采用Z分数。
例如已知高考的各科成绩分布是正态分布,可是由于各科的难易度不同,因此,各科成绩就属于不同质的数据。
以前常采取总和分数或求平均分数的方法,这是不科学的。
如果应用Z分数求总和或平均数则更有意义。
类似这种情况有期末成绩总和等。
举例如下
表3-3利用Z分数求总和
科目
原始分数
甲乙
全体考生
平均数标准差
Z分数
甲乙
语文
政治
外语
数学
理化
8589
7062
6872
5340
7287
70lO
655
698
506
758
1.5001.900
1.000-0.600
0.1250.375
0.500-1.667
0.3151.500
总计
348350
2.5001.505
假设二例是高等学校入学考试俩名考生甲和乙的成绩分数。
如果按总分录取则取乙生,若按标准分数录取则应取甲生;为何会出现如此悬殊的差别?
这是由于不恰当地计算总和分数造成的,因为各科成绩难易度不同,分散程度也不同;:
各门学科的成绩分数是不等价的,亦即数据是不同质的,这时应用总和分数不够科学,故此出现这类问题,科学的方法应当用Z分数合成。
从Z分数可知甲生多数成绩是于平均数之上,即使有俩种成绩低于平均数,差别也小。
总之成绩较稳定且于分布较高处,而乙生则不然。
可见应用Z分数更趋合理。
③表示标准测验分数
经过标准化的心理和教育测验,如果其常模分数分布接近正态分布,常常转换成正态标准分数。
转换公式为
Z=aZ+b(3—7)
式中Z'为正态标准分数,Z=(X—)/σ,a、b为常数,σ为测验常模的标准差。
例如早期的智力测验所测的智力指标为智商(IQ)
这种表示智力的方法有壹定局限性,因为人到成年以后智力不再随年龄而增长,到了老年甚至智力有衰退。
要用上面的公式表示,则不好。
因此,韦克斯勒(D.Wechsler)制定新的智力量表时则用离差智商的概念表示壹个人于同龄团体中的相对智力。
IQ=15Z+100
(WAIS)韦氏成人智力量表,其中Z=(X—)/S,X为原分数,为某团体(或年龄组)的平均数,S为该年龄组的标准差。
离差智商的常数100和15实际为总平均数和标准差。
类似的标准测验分数仍有:
普通分类测验(AGCT)Z'=20Z+100,比纳—西蒙智力测验Z'=16Z+100等等。
应用正态标准分数能更清楚地表明:
某壹分数于相应团体中的位置。
(三)异常值的取舍
于十个正态分布中,平均数上下壹定的标准差处,包含有确定百分数的数据个数;根据这个原理,于整理数据时,常采用主个标准差法则,,取舍数据,即如果有壹个数据的取值落于平均数加减三个标准差之外,则于整理数据时,可将此数据作为异常值加以舍弃。
之上是指数据较多的情况,如果数据个数较少,亦可根据下表所列的标准差数的壹半(全距和标准差比率壹半)乘以标准差,然后再求和平均数的和、差,且以此二值为界取舍数据。