验证确认所需样本量的计算.docx
《验证确认所需样本量的计算.docx》由会员分享,可在线阅读,更多相关《验证确认所需样本量的计算.docx(9页珍藏版)》请在冰豆网上搜索。
验证确认所需样本量的计算
验证/确认所需样本量的估算
抽样
定义:
所考察对象的某一数值指标的全体构成的集合看作总体,构成总体的每一个元素作为个体,
从总体中抽取一部分的个体所组成的集合叫做样本,样本中的个体数目叫做样本数量。
常用类型:
随机抽样、多段抽样、分层抽样......。
随机抽样:
从总体中通过逐个抽取的方法抽取样本,且每次抽取时,每个个体被抽到的概率相等。
多段抽样:
多段随机抽样,把从总体中抽取样本的过程,分成两个或两个以上阶段进行的抽样方法。
分层抽样:
抽样时将总体分成互不交叉的层,然后按照一定的比例,从各层中抽取一定数量的个体。
用途:
验证(对结果进行检验)抽样确认(对能力进行评估)试样
标准差和置信区间
例:
一批产品总件数为n,每件产品的长度用xn表示,
即第1件产品的长度为x1,第2件的长度为x2......第i件产品的长度为xn
=算术平均值
下列两组数据:
1
2
3
4
5
6
7
8
9
10
平均值
A组原值
8
9
11
12
10
8
9
11
10
12
10
B组原值
6
8
14
10
12
7
10
13
11
9
10
两组数据,平均值都为10,但有什么不同?
用每个数都去减本组的平均值
1
2
3
4
5
6
7
8
9
10
差值的平均值
A组
-2
-1
1
2
0
-2
-1
1
0
2
0
B组
-4
-2
4
0
2
-3
0
3
1
-1
0
差值的平均值一样。
肿么办?
每个差值先平方,然后算出平均值,再开方
1
2
3
4
5
6
7
8
9
10
标准差
A组
4
1
1
4
0
4
1
1
0
4
1.41
B组
16
4
16
0
4
9
0
9
1
1
2.45
σ=标准差
计算抽样的标准差时,除以n-1
标准差表示的是数据的离散程度
平均值±σ平均值±2σ平均值±3σ置信区间
标准差对抽样误差的影响
验证/确认过程中,抽取的是少量的样本,这些少量样本的平均值和标准差与总体的平均值和标准差很可能是不一样的,例如:
由于抽取的是少量的样本,这些少量样本的平均值和标准差与总体的平均值和标准差很可能是不一样的,例如:
数据
平均值
标准差
总体
9.88
11.18
9.70
10.97
9.32
8.92
8.86
7.82
10.94
9.51
9.891
1.096
10.52
11.98
9.46
8.23
9.78
10.06
8.66
9.80
10.90
8.46
11.01
9.12
9.11
9.22
8.23
9.22
8.21
10.43
11.96
8.84
9.94
11.19
9.19
9.18
10.78
10.04
11.74
11.26
10.99
11.18
8.23
10.71
9.67
11.28
10.44
8.96
10.82
8.56
9.66
10.43
样1组
10.52
9.12
9.19
9.22
10.44
8.96
8.66
10.43
10.99
11.18
9.871
0.929
样2组
11.98
9.19
9.94
10.78
9.22
8.96
10.82
9.80
8.46
10.43
9.958
1.061
样3组
9.51
10.90
10.43
11.74
8.96
10.78
9.22
9.46
11.18
10.52
10.270
0.930
95%9.89±2.19(7.70~12.08)标准误:
0.087
数据
平均值
标准差
总体
9.81
9.69
9.67
9.83
9.46
10.00
10.23
10.02
9.97
9.51
9.970
0.296
9.69
10.33
9.72
10.29
10.41
10.69
9.93
10.05
9.81
9.68
10.14
10.24
10.24
10.03
10.10
9.73
9.32
9.94
9.93
9.66
9.99
9.94
9.90
10.00
10.05
10.02
10.02
9.55
10.47
10.26
9.92
9.44
9.53
10.47
10.02
9.76
10.22
10.22
10.03
10.34
样1组
9.81
9.69
9.69
9.99
10.33
10.24
10.14
9.92
9.94
9.44
9.925
0.272
样2组
9.67
9.83
9.72
10.29
9.90
10.24
10.03
10.00
9.53
10.47
9.973
0.298
样3组
9.97
9.51
9.81
9.68
9.66
10.26
10.34
10.47
9.93
10.03
9.973
0.317
95%9.97±0.59(9.38~10.56)标准误:
0.018
如果50个测量值都是10.00呢?
标准差越大,抽样误差越大;标准差越小,抽样误差越小。
影响抽样误差的主要因素
①抽样单位的数目。
在其他条件不变的情况下,抽样单位的数目越多,抽样误差越小;抽样单位数目越少,抽样误差越大。
这是因为随着样本数目的增多,样本结构越接近总体。
抽样调查也就越接近全面调查。
当样本扩大到总体时,则为全面调查,也就不存在抽样误差了。
②总体被研究标志的变异程度。
在其他条件不变的情况下,总体标志的变异程度越小,抽样误差越小。
总体标志的变异程度越大,抽样误差越大。
抽样误差和总体标志的变异程度成正比变化。
这是因为总体的变异程度小,表示总体各单位标志值之间的差异小。
则样本指标与总体指标之间的差异也可能小;如果总体各单位标志值相等,则标志变动度为零,样本指标等于总体指标,此时不存在抽样误差。
③抽样方法的选择。
重复抽样和不重复抽样的抽样误差的大小不同。
采用不重复抽样比采用重复抽样的抽样误差小。
④抽样组织方式不同。
采用不同的组织方式,会有不同的抽样误差,这是因为不同的抽样组织所抽中的样本,对于总体的代表性也不同。
通常,我们不常利用不同的抽样误差,做出判断各种抽样组织方式的比较标准。
总体和样本
通过对样本的性能进行检验分析,推断总体的性能。
例:
通过样本的均值,推断总体的均值。
假设检验——推论统计的方法之一,即通过观察一组随机变量的模型进行检验的科学假说。
统计上对参数的假设,就是对一个或多个参数的论述。
而其中欲检验其正确性的为零假设,零假设通常由研究者决定,反映研究者对未知参数的看法。
相对于零假设的其他有关参数之论述是备择假设,它通常反应了执行检定的研究者对参数可能数值的另一种(对立的)看法。
推断存在推断错误的可能(概率)
正确的推断:
统计结果显示零假设成立,零假设实际上也确实成立。
统计结果显示零假设不成立,零假设实际上也确实不成立。
错误的推断:
统计结果显示零假设不成立,但零假设实际上成立;
统计结果显示零假设成立,但零假设实际上不成立。
类错误发生概率α(α=0.05即发生
类错误的概率为5%)
类错误发生概率β(β=0.10即发生
类错误的概率为10%)
α显著水平,1-α置信水平。
当α=0.05时置信水平1-α为0.95(95%)
1-β检验功效/检验能效当β=0.1时检验效能1-β为0.9(90%)
通常:
α取0.05(监管要求)β取0.10.2
出现错误的原因:
并未对总体进行逐一测试,而是只测试了抽取的样本。
抽样存在误差
t检验
验证/确认过程中常用的t检验——主要用于样本含量较小(例如n<30),总体标准差σ未知的正态分布。
用t分布理论来推论差异发生的概率,从而比较两个样本的差异是否显著。
单侧检验和双侧检验:
所谓双侧和单侧之别,是以做检验时拒绝域在数据分布的两侧还是单侧来区分的。
(如果你不清楚样本均值是否高于总体均值,只想知道两者的均值是否不同,那就用双侧检验;如果你仅仅想知道A组的均值是不是高于B组的均值,或相反,那可以用单侧检验,因为此时你只关心某一侧的拒绝域,对另一侧不感兴趣。
)
计数资料和计量资料:
计数资料是指先将观察单位按其性质或类别分组,然后清点各组观察单位个数所得的资料。
其特
点是:
对每组观察单位只研究其数量的多少,而不具体考虑某指标的质量特征,属非连续性资料;
计量资料指连续的数据,通常有具体的数值,如身高、体重、血压等。
计量资料的数据分布特征有三种情况:
集中趋势、离散程度、分布形状。
均值比较和率的比较
抽取的样品少,抽样误差就有可能变大,抽样太多,成本过高。
抽多少合适?
样本量的估算
确定显著水平和检验效能,α=?
,β=?
,双侧还是单侧,计数资料还是计量资料,比较均值还是比较率?
样本均数与总体均数比较:
n=[(zα+zβ)σ/δ]2
zαzβ查t界值表
δ为可容忍的偏差(样本均数与总体均数的差值,一般取总体均数可信限的一半。
)
σ为总体标准差(以样本标准差替代)。
例:
α=0.05β=0.1
Zα=Zβ=δ=
1
2
3
4
5
6
7
8
9
10
平均值
标准差
9.81
9.69
9.69
9.99
10.33
10.24
10.14
9.92
9.94
9.44
9.925
0.272
t检验可分为单总体检验(单一样本t检验)、双总体检验(独立样本t检验),和配对样本检验(配对样本t检验)。
单一样本t检验,通过从一批产品中抽取少量样本(不宜少于10)来推断总体情况。
独立样本t检验,通过从两个批次的产品中各自抽取少量样本来推断两个批次的一致性。
配对样本t检验,通过用不同方法处理同一批样品来推断两种处理方法的一致性。
样本数确定了,工作才刚开始
对样本的检测数据要进行分析!
t界值表