当tα或α取定时,上述区间亦被确定,称为置信区间,其左右的两个端点称为置信下限和置信上限。
化探中常称左端点为负异常上限,右端点为正异常上限。
例如当tα=2时,异常下限为μ+2σ,这时α=0.046。
再看α值的意义。
由性质5知,当α越小时tα就越大置信区间就越大,所划出的异常值与背景值的差异就越显著,即这种差异值属于真正异常的可信度就越大;而反过来也可以说明置信区间的值属于背景值的可信度就越小。
所以α的大小决定了背景与异常的可靠性,或者广义的说,α的大小决定了识别任一样品是否属于某正态总体的可信程度。
在数理统计中,α称为置信度。
一般α由人为指定,可分别取0.1,0.05,0.001等。
这一概念在以后经常遇到。
值得指出的是,当我们用统计方法把某个样品划归背景或异常时,严格的应称这种划分是在置信度α下所做的推断。
在随后的讨论中我们将看到tα的意义。
它实际上是标准化变量的异常下限。
§2背景与异常划分的基本方法
由上述讨论知,若x~N(μ,σ),且μ,σ已知,则背景与异常划分的方法是显然的。
问题是,我们一般难以得到总体的分布参数μ和σ,也不知道x是否是满足正态分布条件。
本节主要讨论这两个问题,并引入很有实用价值的标准化变量的概念。
一、总体分布参数的估计
在一般实际问题中,我们不是从整体出发而是从样本出发,通常用样本均值来估计总体的均值μ,用样本方差S来估计总体方差σ,于是立刻得到异常界限的估计值为
Xα=+tαS(1.3)当tα为正值时,上式定义了正异常下限;当tα为负值时上式定义了负异常上限,其中tα由可信度α而定。
但由上节知,tα一般取2左右即可,这时α约为0.046。
应用中不必再做严格推算。
为简便起见,今后一般不讨论负异常上限。
所剩的问题是如何用样本来估计总体均值与方差,以后简称均值、方差,分别用x、S222来表示。
现介绍几种最常用的估计方法。
1、直接计算方法
在有计算机的条件下,这是最简便的方法。
设某正态样本容量为n,数据为xi,i=1,2,…,n,则样本均值和均方差分别为
1n=∑xi(1.4)ni=1
1n(xi−)2(1.5)S=∑ni=1
当n很大时,(1.5)式与常用无偏估计无多大差异。
2、直方图法
直方图是日常社会活动常见的图形,这里简明介绍其制作方法及有关参数的估计。
设正态样本数据为xi,i=1,2,…,n,则作图步骤为:
①将n个数据的取值范围[max(xi)-min(xi)]分为K个子区间(一般为组),方括号表示区间。
K一般取奇数5、7、9…等,大小视n的大小而定。
各区间的长度即组距为d=1[max(xi)-min(xi)]K
其中第j个子区间(组)为
[max(xi)+(j-1)d,min(xi)+jd),j=1,2,…,k
其中圆括号表示开区间,方括号表示闭区间,但第K区间左右都为闭区间。
各区间的中点值称为组中值。
②求出落在第j区间的样品数fj,j=1,2,…,k,称为组频数,进而求出各组频率fj=fj/n,j=1,2,…,k。
③求出各组的累积频率Fj=**∑f
i=1ji,j=1,2,…,k
④在方格纸上,以x为横坐标,以fj为纵坐标可作出频率分布直方图或频率分布曲线;以x为横坐标,以Fj为纵坐标,可作出频率累积直方图。
上述步骤对程序设计也是有用的。
图1-3是某元素含量分布的频率直方图或频率分布曲线,图1-4是相应的累积频率直方图与累积频率曲线如图所示两条曲线分别与图1-1、图1-2相似,即接近正态分布。
于是可由正态分布的有关性质,从直方图上估计、S或xα。
这里有两个常用的名词。
图1-3中的Mo点称为众值,图1-4中的Me点称为中位数。
在严格正态分布下不难知道有:
x=Mo=Me。
从图1-4中还可看出:
S=Me-x1,也可看出异常下限值xα。
图1-3频率直方图图1-4累积频率直方图
直方图的优点是直观,实际工作中往往将直方图与计算法结合起来,即用计算法求出x、S、xα,用直方图给予直观表示。
有了直方图制作步骤中给出的各种表达式,编制一个打印直方图的子程序也是容易的。
但编制一个实用的直方图子程序,适用于严重偏离正态分布的数据,还需要考虑本章后面的有关内容。
3、概率格纸法
在制作直方图的第④步,若以各子区间的中点,即组中值为横坐标,以各区间累积频率为纵坐标在概率格纸上作出一组散点,则当正态分布时,这组点大致成一条直线分布;反之,若这组点呈近似直线分布,则可以认为数据近似正态分布。
这种图形有两种作用,一是用于检验一组数据是否服从正态分布,二是只要把上述直线当作图1-4中的累积频率曲线,则完全可用图1-4中示意的方法求出x、S、xα,故不多述。
二、正态检验
正态检验是用统计的方法检验一组数据是否服从正态分布。
分布检验的方法有多种,例如上面的概率格纸法就是其中一种。
现介绍另一种方法——偏度、峰度检验法。
首先定义两个统计变量,即偏度r1,和峰度r2,其中
1n1n3(xi−x)2]3(1.6)r1=∑(xi−/[∑ni=1ni=1
1n1n4(xi−x)2]4-3(1.7)r2=∑(xi−)/[∑ni=1ni=1
其中各记号为熟知的。
检验的原理方法如下:
若假设:
x~N(μ,σ2)则有:
r1~N(0,6/n),r2~N(0,24/n)
于是在信度α=0.046下,由正态分布的性质显然有|r1|<2(6/n)1/2,|r2|<2(24/n)1/2(1.8)对于一个容量为n的样本xi,i=1,2,…,n,若(1.8)成立,则称在信度α=0.046下x为正态分布,即接受正态假设;否则拒绝假设,称在信度α=0.046下x非正态分布。
顺便说明,这种检验实质是看样本分布与理论分布是否有显著差异,如果样品分布没有太大偏斜、分布陡缓适当,就认为是正态的。
在实际工作中,还常常从直方图上直接观察分布形式、判断正态与否,不做过分严格的检验。
三、标准化变量
设单变量x的一个样本为xi,i=1,2,…,n,其均值为x,均方差为S,则称
t=(x−)/s(1.9)为标准化变量,对每个样品xi有ti=(xi-x)/s(1.10)称为xi的标准化数值.容易验证,标准化变量由以下重要性质:
(1)标准化变量的均值为0;
(2)标准化变量的方差为1。
当x~N(μ,σ2),t~N(0,1),即我们熟知的标准化正态分布,这时t的异常下限正好是前面定义的tα。
例如,假设y为标准化正态变量,即y~N(0,1),则由异常下限公式(1.3)及标准化变量的性质有:
yα=y+tαS=0+tα=tα
由此可见,任何量级的元素,只要将其含量进行标准化,则在信度α下,它们的异常下限为tα,这是标准化变量t的方便之一。
标准化变量的另一意义在于,t值的大小与正负号直观表示了它所对应的原始数值x属于异常的程度及正负性质。
例如当t=1时表示x+S;t=2时表示+2S;t=-3时表示-3S;t=0表示背景值等,它们明确指示了x值落在何种区间,而这些区间又明确对应着一定的概率意义。
可以想象,若用标准化数据来表示某种化探成果,如编制地球化学等值线图等,就会有特殊效果。
今后我们还会看到标准化变量的其它一些重要作用。
在一般统计学教科书中都有标准化正态分布函数表,本书附录中也已列出,这是很有用的。
例如,当α=0.05时,α/2=0.025,1-α/2=0.975,即F(tα)=0.975,由表可查得tα=1.96,即置信度α=0.05下,标准化变量的异常下限为1.96。
这也是人们常取xα=+1.96S的原因。
§3复杂情况下的背景与异常划分
我们以正态分布为前提讨论了背景与异常划分的基本原理与方法,知道了正态与否的检验及分布参数的估计都是在一定的信度下作出的推断。
只要一批数据近似正态分布,就不妨用上述方法识别异常。
然而当统计数据严重偏离正态假设时便不可轻易使用上述方法,而应该采用稳健的统计方法。
一、稳健统计方法的概念
在稳健统计中,我们经常遇到的一个概念是所谓“离群点”,又可称为“野值点”或“异点”(outlier),早期人们将其解释为“显然严重偏离了样本中其它观测值的观测值”、“远离数据中心或主题的数据”或不一定远离主题数据而仅表现为与主体中数据“不一致”的数据。
总之,我们可以将异点理解为样本中存在的个别或少数不能严格代表总体特征的数据。
但对以上定义,人们持有不同看法提出了对异点的更严格的定义方式(Barnethetal,1979)。
但我们不再进一步讨论。
与异点概念有关的另一个概念是统计方法的稳健性。
简单的说,一种统计方法对于异点的抵抗能力可称为该方法的稳健性;如果一种统计方法能够抵抗或消除异点的影响,即在数据偏离某种假设的情况下仍能得到可靠的统计结果,则这种方法就是稳健统计方法;与上述概念有关的统计学分支称为稳健统计学,它有较系统的理论与方法,但我们也不能做进一步叙述。
仅通过一个简单的例子说明应用问题。
例1.1假设从某地层中采了10个样品,测得Cu的含量(10-6)为10,16,23,26,30,34,37,44,50,500,则500就可视为异点。
若我们的目标是估计该地层中的背景分布参数,则由于该值不能代表真实背景总体而应在参数估计中消除或抵抗其影响。
若对全部十个数据采用(1.4)、(1.5)式计算,得x=77,S=149,这种算法未能消除或抵抗异点的影响,结果不代表真实背景特征,因而可认为是不稳健的算法,还可用另外的某种算法,计算中或给予异点数值较小的权,或者将异点剔除后再做计算,尽量压制其影响,获得可靠的估计参数,例如将500剔除后可得x=30,S=10.4,这就可以说是较稳健的算法。
由此例可以看出,用稳健统计的方法可以得到较可靠的结果,否则结果严重失真。
如果将上述10个数据作成分布直方图,则异点表现非常直观。
值得注意的是,在稳健统计方法中重要的一点是首先要对数据的分布形式有一个基本假设,然后才能考虑是否存在偏离假设的异点。
例如,我们一般假设数据是正态分布的,那么偏离正态分布的数据就可视为异点,是应被消除的对象。
总之,所谓异点是一定假设下的异点。
图1-5各种复杂的分布形式
在实际问题中,我们会遇到各种各样的分布形式,真正的正态分布是很少见的,如图1-5所示。
他们与正态分布的不同之处有两点:
一是出现多个峰值,如图1-5(b,c,d),这实际上是数据中存在的多个异点,多峰的出现说明不仅存在个别异点而且存在多重总体。
往往左边的总体代表背景总体,右边的代表异常总体,需要将其删除后才能求的可靠的背景分布参数。
二是象图1-5(a)那样,虽为单峰分布,但出现严重的偏斜,当数据分析灵敏度不足时,常出现这种情形。
总之,图1-5中的各种情况的一个共同特点是都偏离了正态假设,对此显然不能用正态假设下的方法来估计其背景分布参数。
这就说明稳健统计方法的重要性。
但有的即使使用稳健统计方法也难以解决。
因为稳健统计方法解决的对象是少数异点,对于样品数大致相等的多重总体是无能为力的。
本课程不可能系统介绍稳健统计方法,有兴趣者可参考其它有关文献。
下面介绍的几种方法虽然不是太严格的稳健统计方法,但至少考虑了方法的稳健性,而且又较简单常用。
这些方法针对不同的分布形式,但正态分布的方法仍然是解决问题的基础,只不过在运用此基础方法之前,需要对原始数据做适当的预处理,使预处理后的数据能够接近满足正态假设。
二、对数变换法
对数变换是将原始数据取对数,一般取常用对数。
设xi,i=1,2,…,n,为原始数据,将其
2取对数得yi,yi=lg(xi),i=1,2,…,n,若y~N(μ,σ),则称x服从对数正态分布。
今后统称正态
分布。
类似于图1-5(a)那样的原始分布,峰值偏左,通过上述对数变换后一般趋近于正态分布。
这时,对原始数据xi,可用上述变换得到yi,然后用yi代替xi,i=1,2,…,n,采用正态分布下的基本方法就可求得y的均值y和均方差Sy,将y取反对数即为原始数据的背景值;而将y的异常下限值yα=y+tαSy取反对数即为原始数据的异常下限。
三、分解法
所谓分解法,即为一般文献中所谓的多重总体中的分解方法,就是把具有明显差异的若干总体的分布图形分割开来,再用单一总体计算分布参数。
统计方法仍然是在正态假设下的方法,因而要求分割后的总体服从正态分布。
图1-5(d)的情况就可以采用这种方法。
基本过程是简单的:
首先以双峰(或多峰)分布的谷值点xα为界,分为左右两部分,可见其均接近正态;然后用正态假设下的基本方法分别求出左右两个分布的分布参数x,S;最后选定一个分布(一般以左边的分布)为背景总体,并确定异常下限。
四、观察法
由图1-5可见,在很多情况下,异常下限可直接从直方图上观察出来,图1-5的b、c、d就是如此。
这时谷值点xα就可作为异常下限。
有时还可以从含量剖面曲线或等值线图上直接观察出异常下限,但这不属于统计方法。
五、逐步截尾法
在实际资料中常见的情形是直方图的左边部分接近正态,右边部分由于少数异点的存在出现一个长尾巴。
反之,右边为正态,左边为长尾的现象不易见到。
这些分布形式称为长尾分布。
这里所谓逐步截尾法,也称为一元截尾法,是按照一定的准则将长尾截去后用剩下的接近正态分布的子样来计算背景分布参数的统计方法。
设有n个数据xi,i=1,2,…,n,其分布形式呈长尾状,则逐步截尾法的步骤可简述为:
1、用全部n个数据求出初始均值,初始方差S。
对n个数据xi,它落在区间11
(-tβS,x+tβS)之外,则将xi视为异点予以剔除。
在这一步中若有异点可删,则进行下一1111
步;若无异点可删,则结束计算,并将x作为背景样本均值x,将S作为背景样本均方差S。
11
2、删除上一步发现的异点,用所剩的子样求均值,均方差S2。
对所剩子样的每个数2
据xi,它落在区间(-tβS,x+tβS)之外,则应将其视为异点而删除。
若有这样的异点可删,2222
则进行下一步;否则则将x、S2作为背景参数的估计值。
3、......
K、......
2
依次类推,直至进行到第K步无异点可删时为止。
这时所剩的子样是背景子样,其均值k,均方差Sk就是最终得到的背景估计参数x=xk,S=Sk,分别称为截尾均值与截尾方差。
7
进而得到异常下限为xα=+tαS=k+tαSk。
该方法的计算流程图如图1-6所示,其中参数L表示上述某步中被删除的异点的个数,其它记号与文中一致。
对上述计算步骤还需要说明一个问题。
上述参数tβ的意义与tα相似,它作为删除异点时的临界值,一般可取大一点,如果tβ为3.0,2.8,2.5等;而tα则用于划分通常意义下的背景和异常,一般可以取小一些。
如取tα为2.0,1.96等。
但究竟这些参数取多大合适呢?
这就需要在计算机上反复计算选择,因而在编制程序时,tβ、tα应是可变的。
当程序执行时先给定一组tβ、tα,并在屏幕上显示出x、S、xα及相应的直方图,若这些参数的估计值与直方图对比显的合理,则说明tβ、tα选择合理,否则要修改tβ、tα后重新计算。
在计算机上实现这些步骤是很快的。
总之,逐步截尾法的应用及方法选择以符合客观实际的结果为标准,它是目前较常用的
一种方法,只要有关参数选择适当,其稳定性是较好的。
图1-6一元截尾计算流程图
六、应用实例与直方图制作技巧
例1.2某剖面37个花岗岩样本中Co的含量值列于表1-1,试求出其背景分布参数,并作出直方图。
现依次说明逐步截尾法的应用,并介绍一种较实用的分布直方图制作技巧。
表1-1某地花岗岩中Co的含量(单位10-9)
1.021.301.310.600.731.2222.20.880.680.791.841.771.022.010.791.671.921.301.282.531.251.731.840.931.471.041.091.021.402.701.481.411.281.270.991.131.42
由表1-1中的37个数据以(1.4)、(1.5)式求得初始均值x1=1.90,初始均方差S1=3.42。
取tβ=3,即将1+3S1以上,x1-3S1以下的数值视为应剔除的异点。
由表可见,
S2=0.47,22.2>1.90+3×3.42=12.16是一个异点,将其剔除后用所剩的36个数据求得2=1.34,
这时,36个数据中最大的数值为2.70<1.34+3×0.47=2.75,再无异点可剔除。
因而取背景值为截尾均值,即x=x2=1.34,用截尾均方差作为背景均方差,即S=S2=0.47。
若取tα=2则得异常下限为xα=+2S=2.28。
这时,表1-1中的2.53,2.70,22.2可视为异常值。
这种结果是否合理呢,从下面的直方图中可以看出。
图1-7a是以前面介绍的方法为基础,用初始均方差S的一般为组距(即区间长度)作出的直方图,个别异点的影响,绝大多数数据没有反映出其分布形式,而是被压缩在一两个区间内,这是上述直方图制作的一个弊病。
为避免上述影响,我们可采用以下两个改进措施。
第一,以逐步截尾法为依据,将长尾部分截掉,用剩下的部分数据做直方图。
如果截掉的数据不太多,有时可以标在直方图的旁侧。
第二,我们不采用一般分组方法,而是先求出截尾均值x与截尾均方差S,然后以0.4或0.5或0.8倍S为组距进行区间划分。
这样分组的好处之一是可估计出截尾之后分多少组合适。
因为截尾后的数据大多数分布在区间(x-3S,x+3S)之内,少数异常样品分布于该区间之外。
例如,当我们取组距d=0.5S,分组数为20时,上述区间内一般最多占用有12个组,由经验知,负异常一般不会超过这个区间。
另外8个组则可用于表示较高值的正异常数据分布。
abc
组中值频数组中值频数组中值频数
1.05320.5110.673
2.7540.7540.864
4.4600.8881.057
6.1701.2291.248
7.8801.4551.435
9.5801.6931.621
11.2901.9341.814
13.0002.1602.002
14.7102.4002.190
16.4202.6422.380
18.1202.8702.570
19.8303.1102.760
21.5403.3502.940
23.2503.5803.130
24.9503.8203.320
图1-7实用直方图制作说明tβ=311=1.9S=3.421=1.34S=0.47a:
按0.5S为组距b:
按0.5S为组距c:
按0.4S为组距1
图1-7b、c都是使用这种方法作出的。
但图1-7b用的组距为d=0.5S,图1-7c用的组距为d=0.4S,分组数都为15。
二者均有一个数据被截掉。
从本例中结合图1-7我们可以看出以下几个问题:
1、若不考虑少数异点,则数据基本接近正态。
2、截尾法求得的x,S,xα基本合理。
3、直方图的形态与分组方法有关。
4、由截尾法做直方图可以较准确的反映背景分布形式。
值得强调的是,笼统的说“某批数据”服从何种分布是含糊的概念。
首先要明确我们的目的和研究对象。
如果我们的目的是要估计背景分布参数,就只需以“背景部分的数据”作为研究对象的样本,考虑它是否服从某种分布。
只要背景部分近似正态分布,就可以用截尾法或分解法将异点部分去掉,然后用正态假设下的基本方法估计背景分布参数。
应该避免的是,由于直方图的制作不合理造成背景部分与异常部分难以分清,或者概念上就没有明白我们的目标是背景总体,从而把背景部分与异常部分混为一谈,笼统的认为某批数据服从某种分布。
例如,当背景部分与异常部分混为一体时,就很可能呈对数正态分布,而背景部分则可能为正态分布。
由上述方法可见,复杂情况下的背景与异常划分方法是由简单的正态假设下的方法演化