1、01第一章背景与异常划分的一元方法精第一章 背景与异常划分的一元方法地球化学背景与异常划分是化探数据统计分析的基本问题,以后就简称为背景与异常划分。这方面的具体方法很多,而且正在发展,有的还不完全成熟。本书只介绍一些常用的或理论上具有一定系统性的方法。本章内容不仅是解决背景与异常划分的方法基础,也是以后各章有关其它统计方法的基础,因而虽然简单,却很重要。这里只涉及单个因素,因而是一元方法,且一般不考虑样本的采样位置。第二章主要讨论与地理位置有关的背景与异常划分问题,也属于一元方法。背景与异常划分的多元方法将在以后的有关章节中顺便介绍,因为那时我们有了解多元问题的数学基础。希望在有了这些基础知识
2、后能广阅参考文献,甚至提出更成熟的方法。1 背景与异常划分的基本原理常用的背景与异常划分方法是以一元正态分布为前提的。只要熟知一元正态分布的有关性质,背景与异常划分的原理就十分明确。正态分布是最简单的情形。但一切的复杂情形都可视为简单情况的综合。对简单问题的讨论是解决复杂问题的基础,因而十分重要。一、一元正态分布的有关性质设x为一元正态随机变量,其概率密度函数为 11(x)2exp(),x+ (1.1) f(x)=22则称x服从参数为,的一元正态分布,记为xN(,2),其中,2分别为一元正态总体x的均值与方差,分布图形如图1-1所示。X的概率密度函数为F(x)=xf(t)dt (1.2)其图形
3、如图1-2所示。若用P(A)表示随机事件A发生的概率,则正态分布具有如下重要特性:图1-1 一元正态总体的概率密度分布 图1-2 一元正态总体的概率分布1、 f()=maxf(x);2、 P(x)=F()=50%;3、 P(x-)=F(-)=15.9%;4、 P(x+2)=F(+2)=97.7%;5、 P(-tx+t)=1-;6、 P(-x+)=1;其中性质5更为重要,它表示,若以为起点,在x轴向左右两边各延伸t个单位长度,形成一个区间(-tx+t),则x在该区间内取值的概率为1-,例如:当t=1时,1-=68.3%,=31.7%;当t=2时,1-=95.4%,=4.6%;当t=3时,1-=9
4、9.7%,=0.3%;这些性质与背景、异常的概念关系十分密切。二、背景与异常划分的基本原理根据以上性质并参考图1-1,1-2,我们不难得出如下推理:1、 由性质1、2知,x在点处的概率密度最大,即x在处的取值机会最多,于是作为常见值被用做背景值是当然的,在x=点,F(x)=50%,因而f(x)达极大值或F(x)= 50%=0.5时自变量x的取值即为背景值。2、 由性质2、3不难看出,F(x)取50%与F(x)取15.9%分别对应的x值之差的绝对值正好是正态总体的标准离差或均方差。3、 由性质4易见,x落在区间(-,+2)内的概率为97.7%,而落在该区间右侧的概率仅为2.3%,是正态前提下不容
5、易发生的小概率事件,则被视为异常事件,故+2可被看作划分背景与异常的一个界限。4、 由性质5可以得到划分背景与异常的更严格的叙述。当t取值足够大或取值足够小时,随机变量x在区间(-tx+t)取值的概率为1-,是一个很大的概率事件,发生这样的事是不足为奇的,因而该区间的一切取值都认为是属于正态总体的正常值或背景值;反之,随机变量在该区间两侧取值的机会只有,是一个很小的值,一旦某值落入该区间两侧,则属于异常现象,将此值视为异常值,可认为它不属于上述正态总体,而可能来自异常总体。当t或取定时,上述区间亦被确定,称为置信区间,其左右的两个端点称为置信下限和置信上限。化探中常称左端点为负异常上限,右端点
6、为正异常上限。例如当t=2时,异常下限为+2,这时=0.046。再看值的意义。由性质5知,当越小时t就越大置信区间就越大,所划出的异常值与背景值的差异就越显著,即这种差异值属于真正异常的可信度就越大;而反过来也可以说明置信区间的值属于背景值的可信度就越小。所以的大小决定了背景与异常的可靠性,或者广义的说,的大小决定了识别任一样品是否属于某正态总体的可信程度。在数理统计中,称为置信度。一般由人为指定,可分别取0.1,0.05,0.001等。这一概念在以后经常遇到。值得指出的是,当我们用统计方法把某个样品划归背景或异常时,严格的应称这种划分是在置信度下所做的推断。在随后的讨论中我们将看到t的意义。
7、它实际上是标准化变量的异常下限。2 背景与异常划分的基本方法由上述讨论知,若xN(,),且,已知,则背景与异常划分的方法是显然的。问题是,我们一般难以得到总体的分布参数和,也不知道x是否是满足正态分布条件。本节主要讨论这两个问题,并引入很有实用价值的标准化变量的概念。一、总体分布参数的估计在一般实际问题中,我们不是从整体出发而是从样本出发,通常用样本均值来估计总体的均值,用样本方差S来估计总体方差,于是立刻得到异常界限的估计值为X=+tS (1.3) 当t为正值时,上式定义了正异常下限;当t为负值时上式定义了负异常上限,其中t由可信度而定。但由上节知,t一般取2左右即可,这时约为0.046。应
8、用中不必再做严格推算。为简便起见,今后一般不讨论负异常上限。 所剩的问题是如何用样本来估计总体均值与方差,以后简称均值、方差,分别用x、S222来表示。现介绍几种最常用的估计方法。1、 直接计算方法在有计算机的条件下,这是最简便的方法。设某正态样本容量为n,数据为xi,i=1,2,,n,则样本均值和均方差分别为1n=xi (1.4) ni=11n(xi)2 (1.5) S=ni=1当n很大时,(1.5)式与常用无偏估计无多大差异。2、 直方图法直方图是日常社会活动常见的图形,这里简明介绍其制作方法及有关参数的估计。设正态样本数据为xi,i=1,2,n,则作图步骤为:将n个数据的取值范围max(
9、xi)-min(xi)分为K个子区间(一般为组),方括号表示区间。K一般取奇数5、7、9等,大小视n的大小而定。各区间的长度即组距为 d=1max(xi)-min(xi) K其中第j个子区间(组)为max(xi)+(j-1)d,min(xi)+jd),j=1,2,k其中圆括号表示开区间,方括号表示闭区间,但第K区间左右都为闭区间。各区间的中点值称为组中值。求出落在第j区间的样品数fj,j=1,2,k,称为组频数,进而求出各组频率fj=fj/n, j=1,2,k。求出各组的累积频率 Fj=*fi=1ji,j=1,2,k在方格纸上,以x为横坐标,以fj为纵坐标可作出频率分布直方图或频率分布曲线;以
10、x为横坐标,以Fj为纵坐标,可作出频率累积直方图。上述步骤对程序设计也是有用的。图1-3是某元素含量分布的频率直方图或频率分布曲线,图1-4是相应的累积频率直方图与累积频率曲线如图所示两条曲线分别与图1-1、图1-2相似,即接近正态分布。于是可由正态分布的有关性质,从直方图上估计、S或x。这里有两个常用的名词。图1-3中的Mo点称为众值,图1-4中的Me点称为中位数。在严格正态分布下不难知道有:x=Mo=Me。从图1-4中还可看出:S=Me-x1,也可看出异常下限值x。图1-3 频率直方图 图1-4 累积频率直方图直方图的优点是直观,实际工作中往往将直方图与计算法结合起来,即用计算法求出x、S
11、、x,用直方图给予直观表示。有了直方图制作步骤中给出的各种表达式,编制一个打印直方图的子程序也是容易的。但编制一个实用的直方图子程序,适用于严重偏离正态分布的数据,还需要考虑本章后面的有关内容。3、 概率格纸法在制作直方图的第步,若以各子区间的中点,即组中值为横坐标,以各区间累积频率为纵坐标在概率格纸上作出一组散点,则当正态分布时,这组点大致成一条直线分布;反之,若这组点呈近似直线分布,则可以认为数据近似正态分布。这种图形有两种作用,一是用于检验一组数据是否服从正态分布,二是只要把上述直线当作图1-4中的累积频率曲线,则完全可用图1-4中示意的方法求出x、S、x,故不多述。二、正态检验正态检验
12、是用统计的方法检验一组数据是否服从正态分布。分布检验的方法有多种,例如上面的概率格纸法就是其中一种。现介绍另一种方法偏度、峰度检验法。首先定义两个统计变量,即偏度r1,和峰度r2,其中1n1n3(xix)23 (1.6) r1=(xi/ni=1ni=11n1n4(xix)24-3 (1.7) r2=(xi)/ni=1ni=1其中各记号为熟知的。检验的原理方法如下:若假设:xN(,2)则有:r1N(0,6/n),r2N(0,24/n)于是在信度=0.046下,由正态分布的性质显然有|r1|2(6/n)1/2,|r2|1.90+33.42=12.16是一个异点,将其剔除后用所剩的36个数据求得2=
13、1.34,这时,36个数据中最大的数值为2.701.34+30.47=2.75,再无异点可剔除。因而取背景值为截尾均值,即x=x2=1.34,用截尾均方差作为背景均方差,即S=S2=0.47。若取t=2则得异常下限为x=+2S=2.28。这时,表1-1中的2.53,2.70,22.2可视为异常值。这种结果是否合理呢,从下面的直方图中可以看出。图1-7a是以前面介绍的方法为基础,用初始均方差S的一般为组距(即区间长度)作出的直方图, 个别异点的影响,绝大多数数据没有反映出其分布形式,而是被压缩在一两个区间内,这是上述直方图制作的一个弊病。为避免上述影响,我们可采用以下两个改进措施。第一,以逐步截
14、尾法为依据,将长尾部分截掉,用剩下的部分数据做直方图。如果截掉的数据不太多,有时可以标在直方图的旁侧。第二,我们不采用一般分组方法,而是先求出截尾均值x与截尾均方差S,然后以0.4或0.5或0.8倍S为组距进行区间划分。这样分组的好处之一是可估计出截尾之后分多少组合适。因为截尾后的数据大多数分布在区间(x-3S, x+3S)之内,少数异常样品分布于该区间之外。例如,当我们取组距d=0.5S,分组数为20时,上述区间内一般最多占用有12个组,由经验知,负异常一般不会超过这个区间。另外8个组则可用于表示较高值的正异常数据分布。a b c组中值 频数 组中值 频数 组中值 频数1.05 32 0.5
15、1 1 0.67 32.75 4 0.75 4 0.86 44.46 0 0.88 8 1.05 76.17 0 1.22 9 1.24 87.88 0 1.45 5 1.43 59.58 0 1.69 3 1.62 111.29 0 1.93 4 1.81 413.00 0 2.16 0 2.00 214.71 0 2.40 0 2.19 016.42 0 2.64 2 2.38 018.12 0 2.87 0 2.57 019.83 0 3.11 0 2.76 021.54 0 3.35 0 2.94 023.25 0 3.58 0 3.13 024.95 0 3.82 0 3.32 0图
16、1-7 实用直方图制作 说明 t=3 11=1.9 S=3.42 1=1.34 S=0.47 a:按0.5S为组距 b:按0.5S为组距 c:按0.4S为组距 1图1-7b、c都是使用这种方法作出的。但图1-7b用的组距为d=0.5S,图1-7c用的组距为d=0.4S,分组数都为15。二者均有一个数据被截掉。从本例中结合图1-7我们可以看出以下几个问题:1、 若不考虑少数异点,则数据基本接近正态。2、 截尾法求得的x,S,x基本合理。3、 直方图的形态与分组方法有关。4、 由截尾法做直方图可以较准确的反映背景分布形式。值得强调的是,笼统的说“某批数据”服从何种分布是含糊的概念。首先要明确我们的目的和研究对象。如果我们的目的是要估计背景分布参数,就只需以“背景部分的数据”作为研究对象的样本,考虑它是否服从某种分布。只要背景部分近似正态分布,就可以用截尾法或分解法将异点部分去掉,然后用正态假设下的基本方法估计背景分布参数。应该避免的是,由于直方图的制作不合理造成背景部分与异常部分难以分清,或者概念上就没有明白我们的目标是背景总体,从而把背景部分与异常部分混为一谈,笼统的认为某批数据服从某种分布。例如,当背景部分与异常部分混为一体时,就很可能呈对数正态分布,而背景部分则可能为正态分布。由上述方法可见,复杂情况下的背景与异常划分方法是由简单的正态假设下的方法演化
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1