统计过程控制spc统计分布.docx

上传人:b****8 文档编号:10331439 上传时间:2023-02-10 格式:DOCX 页数:13 大小:112.09KB
下载 相关 举报
统计过程控制spc统计分布.docx_第1页
第1页 / 共13页
统计过程控制spc统计分布.docx_第2页
第2页 / 共13页
统计过程控制spc统计分布.docx_第3页
第3页 / 共13页
统计过程控制spc统计分布.docx_第4页
第4页 / 共13页
统计过程控制spc统计分布.docx_第5页
第5页 / 共13页
点击查看更多>>
下载资源
资源描述

统计过程控制spc统计分布.docx

《统计过程控制spc统计分布.docx》由会员分享,可在线阅读,更多相关《统计过程控制spc统计分布.docx(13页珍藏版)》请在冰豆网上搜索。

统计过程控制spc统计分布.docx

统计过程控制spc统计分布

1我们为什么需要统计?

统计方法让我们可以利用一小组数据就可以作出相当精确的预测。

用统计方法虽无法预测单个事件,但有助你得出整体的结果。

比如,没有人能预测一个人的寿命,因为一次事故或疾病可能明天就会发生,或许此人能活到100岁,甚至更长。

然而,人寿保险公司可以精确预测多少比例的人口可以活到50岁、60岁或者70岁甚至更长。

这种精确的预测信息的方式,正是我们生产过程中需要获取信息的方式。

统计方法让我们在不需要知道所有可能结果的情况下也能作出判断。

比如,从来没有人测量过所有美国人的身高,但我们却知道美国人的平均身高是多少。

那是因为,我们从总人口中抽取一个小样本,得到平均身高,并由它推知全体。

统计学处理两块东西:

过去和将来。

我们用统计方法来概括历史事件,这样有助于我们对其理解,然后根据这个概括来对未来做出预测。

SP把它应用到过程控制中,使我们能预测这些过程将来的趋势,和受历史事件影响的产出情况。

如果想要理解SPC勺原理,那就需要更全面的了解一些基本的统计概念。

本章将概括介绍这些基本概念。

2总体

在统计学中,总体指某组研究对象的全体。

总体可以是任何东西——人

类、螺钉或者一台机器的所有部件等。

要研究总体的性质,我们必须考虑总体的某些特征量的分布情况。

分布的形状可以告诉我们研究的对象有没有某种趋势:

如是否平稳。

我们利用这种趋势就可以预测将来的事件。

3概率

统计学研究概率,而概率是指某件事发生的可能性,帮助我们了解某事件将来发生的机会或者频率。

例如,一枚硬币有两面,当我们扔硬币时会出现两种可能的结果:

正面或背面。

当你扔硬币时,有50%的机会出现正面。

这些几率表明我们预测的可能性会发生的是多少,SPC就是利用概率来预测某个结果再次发生的可能性。

4统计符号

我们用统计符号很容易记录统计结果。

例如,用x来记某个样本的读数或观测值。

如果读数不止一个,我们借助下标来识别。

比如,用x1记第一个读数,x2记第二个读数。

如果要指代某个读数,但并不想给出精确值,就用记号xi,称之为第i个读数。

我们用“n”表示样本容量(有时也称子群),“N'表示研究对象的总量,“k”表示样本子群数目。

假如有25个子群样本,每个子群样本有5个观测值,观测值总数就是125个。

我们有这样的等式:

n=5,k=25

N=nxk=5x25=125

在总体抽样时,我们利用收集的数据来计算。

这种计算使我们把众多的观测值简化为一个值,这种从样本数据得到的单个值称为统计值。

每个计算出来的值都是统计值,每个统计值都是对总体的真实值的预测。

比如一副纸牌,假如把Jacks作为11,Queens作为12,Kings作为

13,纸牌的号码就是1〜13。

那么,所有号码的平均数或期望值(平均值)是7:

(1+2+3+4+5+6+7+8+9+10+11+12+13)/13=7

假如我们随机抽3张纸牌:

3,7和Queen样本的均值就是7.333。

如果我们抽的是4,6和Ace,均值就是3.667。

我们不能指望每个样本的均值都相等或者等于7。

样本统计值最多只是总体真实值的一个预测而已。

只要借助样本数据,就可以使用任何方法构造统计值。

每个统计值在重复抽样中都有其可变性,因而根据统计值不同的变化有特定的分布。

只要知道分布情况,就能预测每个统计值的表现会是什么样的。

从分布中看出的统计值的变化,反映了原始的观测值的变化。

监控统计值,就能监控过程。

5中心趋势的衡量

对一个分布而言,我们可以计算出几种统计值;因此可把统计值与其他分布的统计值相比较,或者利用它来描述其他统计值。

描述分布的中值或者中心趋势的统计值就是如此,我们有4种方法来度量中心趋势。

找出整个取值范围的极差中值是计算分布中心的一种方法。

我们找出最大值和最小值,分布的中心就是两者的平均。

计算方法是把最大值和最小值相加的和除以二就得到极差中值。

极端值影响着这种统计值,它不能反映中间的那些数值的情况。

比如你从一副纸牌里抽了15张:

3,4,5,6,7,8,5,4,9,9,4,10,7,Queen

(12)和4。

这些纸牌最大的号码是12,最小值是3

如图2.1A所示,这15张纸牌的极差中值是7.5

£

4

3

Xmid-i

X■'

r^ngerj

■XXX

X

1

XxxxX

XXXx

'J

123-1567

6gIQ111211

图2.1A极差中值

第二种描述分布中心的统计值是众数。

众数是该样本中出

现次数最多的那个值。

尽管众数也可应用于原始数据,但它

经常用于分组后的数据,如用来作直方图的数据。

众数告诉我

们哪个值出现最频繁,但并没有显示与其他数据的关系。

比如,看上面的15张纸牌的例子,可以看到众数是4,如图2.1B所

示。

图2.1B众数

找出中位数是第三种描述中心趋势的方法。

中位数是指这样的数值,在其两侧的数值各占50%为了找出中位数,必须把数据按升序或降序排列,然后从任意一端列举出一半的数值。

如果观测值是奇数个,中位数是唯一确定的;如果观测值是偶数个,中位数落在两个数值之间,需把两者平均才能得到。

正如图2.1C所示,我们的15张纸牌的中位数为6。

中位数表现了数据相互间的位置关系。

但是它仅仅是利用数据的顺序关系来得到的。

如果前一部分的数据比后一部分的数据离散程度更大,中位数是无法体现的。

6

S

-median

-

4

-X

-X

2

-XX

XX

1

F

1

•XXXXXXXXX

C

123<5€

;7aa1D111213

图2.1C中位数

第四种度量中心趋势的量是平均值或均值。

把样本的所有观测值相加再除以观测值的

数目就可算得均值。

在“X”上加一横,记作X,来表示均值。

均值不但反映了数据间的顺序还反映了数据间的间隔。

上面的例子中均值是6.47,如图2.1D所示。

-

mean

-6.47

-

X

X

X

X

X

A

X

XX

XA

X

J1L

—1

1F

r11

J1

1A

123J567891Cr11213

图2.1D均值

可以看到,我们有4种方法来度量样本的中心趋势。

每种方法都告诉了我们一些样本的不同的信息。

均值告诉我们样本的平均数值的情况,但并没有指出哪个值出现最频繁及这些值的相对位置。

我们可以用任意一个量来比较不同样本的中心趋势。

然而,有相同的中心趋势值的样本可能大不相同,如图2.2所示。

四个样本的众数均为4,中位数均为6,极差中值均为7.4,均值均为6.47,但可以看到这些值的散布程度是很不一样的。

这正是我们比较分布时需要度量数据的离散程度的原因。

图2.2四个有相同的中心化趋势,不同的散布程度的过程

6过程的离中趋势的度量

我们来看一个例子,在这个例子里面,分布有相同的中心化趋势值,但分布本身却很不一样。

这种数据的散布程度称为过程的离中趋势。

把过程的离中趋势与中心化趋势一起考察,可对数据作出更为全面的描述。

极差是最简单的度量离中趋势的量。

把最大值减去最小值就能得到极差。

极差越大,样本的观测值散布得越开。

和极差中值一

样,极差只考虑了极端值。

在抽纸牌的例子中,号码为:

3,4,

5,6,7,8,5,4,9,9,4,10,7,12和4,极差是9,记为“R”。

为了在分析中包含其他观测值,我们计算一个平均的数值,即算出每个观测值与均值的差值,计算它们的平均值。

由于所有的这些差值加起来正负相抵消,和为零,所以我们考察差值的绝对值的和(对负数而言,绝对值是忽略该差值的负号),再除以该组的观测值数目,就能得到它们与均值的平均差异。

这个统计值称为平均绝对偏差或MAD其公式为:

3,47

247

247

247

2U7

L47

L47

0*47

0.53

L53

2.53

2+53

153

553

算:

魂關值数目

3

4

4

4

4

5

5

6

7

7

8

9

9

10

12

3347/15=2.23=MAD

SPC中另外还有两个重要的量来度量离中趋势:

标准差和方差。

求标准差的方法跟求MAD类似,但不是用差值的绝对值,而是用差值的平方来计算,我们首先计算出偏差平方和,然后再除以样本数。

标准差是这个值的平方根“”或者c都可表示标准差。

其公式为:

(xiX)2

c=

在抽纸牌的例子中,标准差可以这样计算:

离差平方

2(X

(T=-

3

3.47

]2.04(39

4

2.47

6J009

4

2-47

6.10W

4

2.47

CU009

4

2.47

6.1009

L47

2J009

5

1.47

丄[但为

6

0.47

0.2209

7

(L53

0.2809

7

0$

0.2809

K

2.3409

9

2,53

6.4009

g

23

6,4009

10

]2.46OQ

12

5.53

3O.5&O9

99.7J35

x99J335/15

=\=

=2.57K6=er

观测值

离差

有时你会发现标准差的平方更容易处理,这种统计值

称为方差。

其记号为“s2”或“。

2”,公式为:

X)2

i

n

知道了标准差,平方一下就得到方差(或者求标准差时,不开方就得到方差)。

在抽纸牌的例子中,标准差是2.5786,方差为6.649。

7一些常见的分布

大多数数据的表现可用下面的分布来描述,这些分布

有不同的性质,不仅能揭示数据的特点,还有助于推测

总体的性质。

图2.3A二项分布图2.3B均匀分布图

2.3C正态分布

其中,最简单的是二项分布,它是一个概率分布,用以

描述有两种可能结果的事件。

比如,扔硬币会出现“正面”或“反面”的结果,分别称为“好的”和“坏的”,这就构成了一个二项分布。

扔硬币时,出现“正面”和“反面”的可能性是一样的。

把某个部件标为有缺陷时,情况也是这样的。

图2.3A表示一个二项分布。

如果每个结果的出现有相同的可能性,这种分布称为均

匀的。

比如,掷均匀的骰子,出现每一面的可能性是相等

的。

均匀分布的一个显著特征是它的对称性,如图2.3B所示。

有了对称性,还需要知道均值和标准差来描述分布。

正态分布也是对称的。

在正态分布下,当观测值接近中心值或均值时,事件发生的可能性变大;观测值远离均值时,事件发生可能性变小。

如图2.3所示,当数据服从正态分布时,其图像呈现常见的钟形。

可测量的数据往往服从正态分布,比如美国人的身高,或者把一定数目的试剂加到桶中所花的时间。

数据来自于一个稳定过程的话,自然会服从正态分布。

要描述正态分布同样要知道均值和标准差。

正态分布是对称的,这意味着均值两侧图象形状是相同的。

 

假如又抽了15张牌:

3,4,5,5,6,7,7,7,7,8,8,

9,9,10,11,均值、中位

数、众数都是7,分布是近似正态的。

如图2.3D所示,其图象呈现正态曲线的形状。

和均匀分布类似,可用均值和标准差来描述它。

第四种分布是泊松分布,得名于其提出者西蒙•泊松。

当事件发生的概率很小,试验次数很多的时候,用泊松分布可以描述其细节。

比如,你可以用泊松分布来描述每天高峰时期通过十字路口的汽车数。

泊松分布往往从零开始取值;只需知道均值就可以描述该分布,如图2.3E所示。

8正态曲线的性质

由于样本均值有渐进正态的趋势,正态曲线在SPC中处于核心地位。

如果某过程服从正态分布,就可利用正态曲线的性质对其数据作出某些假定。

图2.4是一个正态曲线的例子。

可以注意到,曲线下面分3块标出了百分比,每一块离均值的距离都是相等的。

图2.4显示各倍标准差长度所含数据比例的正态曲线。

这些距离是标准差的倍数,标以c,2c等。

不论正态

分布的均值和标准差如何,每一块代表的百分比是不变的。

可以看到,大约2/3,68.26%的数据落在均值两侧各一倍标准差长度的区间里面。

如果把每一侧区间长度扩大到标准差长度的两倍,95.44%的数据落在其中;扩大到3倍的话,

99.73%的数据落在其中;扩大到6倍的话,99.99%的数据落在其中。

从实用的角度,我们说样本落在均值左右两侧各3倍标准差长度的区间里面,这是因为1000个观测值里面,只有3个落在此区间外。

2.9中心极限定理

每个过程都有其独特表现,很少会精确地符合某个经典的统计分布。

然而,有规律表明,能用正态分布控制样本的均值,而不管单个样本分布是怎样的。

这个规律就是中心极限定理,它表明:

不管总体分布的形状如何,随着样本量(n)增力口,取自总体的样本均值的分布是趋近于正态分布的。

换言之,不管样本现在的分布如何,只要样本量增大,其分布就趋近于正态分布。

我们还可以看到,样本量(n)变大

时,样本均值的可变性减小了。

回到那个抽纸牌的例子,我们每次抽2张作为一组,这样每组的均值会差异很大。

我们可能抽到一个K跟一个10,也可能抽到一个1和一个4。

如果抽10张纸牌的话,平均值就会接近真实的均值7。

根据这个定理,在过程控制中,我们没有必要考虑单个观测值的分布。

中心极限定理让我们可以定量的分析可变性减小的情况。

样本量增加时,样本均值的

标准差减小至:

(X)。

I*

如果我们知道样本均值的标准差和样本量,就可以利用这个公式估计总体的标准差。

在后面的章节里我们将讨

论如何把这种方法应用到生产实际中去。

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 求职职场 > 简历

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1