标准差与估计标准差.docx
《标准差与估计标准差.docx》由会员分享,可在线阅读,更多相关《标准差与估计标准差.docx(10页珍藏版)》请在冰豆网上搜索。
![标准差与估计标准差.docx](https://file1.bdocx.com/fileroot1/2022-10/29/015e6aaf-d95e-401e-bcf6-aa9a697c7d28/015e6aaf-d95e-401e-bcf6-aa9a697c7d281.gif)
标准差与估计标准差
2-3變異的計算及解析
由基礎課程裡我們可以知道:
表示變異的方法有很多,其最常使用的是“標準差”;關於標準差的計算又分兩個觀念:
(真)標準差與估計標準差。
為了解釋這兩個觀念的差異,我們先看下例數據:
下例數據有經過分組,每組抽測5個數據(即S/S或n=5的意思)。
分組的原因不外乎量產、或長期研究等,需要分批量測而形成母體與樣本的關係。
母
體
樣
本
樣
本
樣
本
樣
本
樣
本
…
樣
本
標準差
估計標準差
其中、須查表、為隨常數:
約之間
約之間
(組1)
(組2)
(組3)
(組4)
(組5)
(組25)
2
3
6
8
8
4
5
6
7
9
2
4
5
7
8
1
3
6
7
9
3
5
4
8
8
2
5
6
7
9
樣本平均
5.4
6.2
5.2
5.2
5.6
…
5.8
組間變異
=0.81
樣本標準差s
(組內變異)
2.7
2.0
2.4
3.0
2.4
…
2.6
平均==2.55
樣本全距R
(組內變異)
6
5
6
7
5
…
7
平均==6.01
(1)(真)標準差:
若將所有RawData視為一個母體、混合不分組,則=STDEV()所計算出來的標準差即為所求,即工程師最熟悉的算法。
--------------------------------------------------------------
使用時機:
a.)想了解母體真正的變異的時候;b.)想敏銳地抓出上圖/組間變異的異常的時候。
---------------------------------
目的:
了解整個母體的總變異。
優點:
可以充分反映整個母體的異常(含上圖/組間變異、及下圖/組內變異的異常…尤其是組間變異的異常)。
缺點:
數據量要夠大(避免誤差過大)、且上圖不能有異常(避免組間變異顯著),否則計算出來的σ不具代表性。
(2)估計標準差:
大部分的工程師沒聽說過估計標準差。
RawData若經過分組(分組與抽樣皆要隨機),我們可以利用樣本的變異、去估算整個母體的變異;但是要特別注意組間變異()已經被假設成常態分配;以白話來說:
想像管制圖-上圖的每個組平均是一顆綠豆,當這些綠豆被一把撒到管制圖-上圖的時候,這些綠豆皆自動定位到常態分配該有的位置上,因此整個上圖的假設都是常態分配,若真有異常、也早已被視而不見。
故以估計標準差來看問題,祇能解析下圖/組內變異的異常(即管理面的異常:
如某單一人/機抽樣技術不穩定的問題、某單一作業機台不穩定的問題、某個別材料品質不穩定的問題等⎡一般因⎦…主要還是抽樣技術不穩定的問題)。
此時的計算,都是由下圖/組內變異的平均來倒推,以估算整個母體變異的期望值:
=/c4=/d2(註),其中c4、d2是查表值(附表),隨著n(即S/S)而變,n愈大估計值就會愈接近母體。
註:
樣本s、R、MR與母體之間的關係,令母體與樣本均為常態分配,不需執行冗繁的計算,可以直接以查表方式整理如下:
E(s)=c4,D(s)=c3,其中c4、c3是查表值(附表)
E(R)=d2,D(R)=d3,其中d2、d3是查表值(附表)
--------------------------------------------------------------------------------------------
使用時機:
當組間變異過於顯著,無法正確評估製程之實力時。
(註)
註:
理想上=;實務上通常<:
代表著統計經驗對一特性在常態分配時的理想預測;也許是因為製程真的較差、也許是因為管制圖的管理分組做得並不好,造成上圖/組間變異變得比常態分配預期的還要大。
-----------------------------------------------------------------
目的:
估算整個母體的總變異的期望值。
優點:
因為計算的是期望值,當數據量不大時、較(真)標準差具代表性。
缺點:
只能反映下圖/組內變異的異常,而組內變異的異常通常只能反映管理問題,所以較適合量產使用。
t检验是对各回归系数的显著性所进行的检验,(--这个太不全面了,这是指在多元回归分析中,检验回归系数是否为0的时候,先用F检验,考虑整体回归系数,再对每个系数是否为零进行t检验。
t检验还可以用来检验样本为来自一元正态分布的总体的期望,即均值;和检验样本为来自二元正态分布的总体的期望是否相等)
目的:
比较样本均数所代表的未知总体均数μ和已知总体均数μ0。
计算公式:
t统计量:
自由度:
v=n-1
适用条件:
(1)已知一个总体均数;
(2)可得到一个样本均数及该样本标准误;
(3)样本来自正态或近似正态总体。
例1难产儿出生体重n=35,=3.42,S=0.40,
一般婴儿出生体重μ0=3.30(大规模调查获得),问相同否?
解:
1.建立假设、确定检验水准α
H0:
μ=μ0(无效假设,nullhypothesis)
H1:
(备择假设,alternativehypothesis,)
双侧检验,检验水准:
α=0.05
2.计算检验统计量
,v=n-1=35-1=34
3.查相应界值表,确定P值,下结论
查附表1,t0.05/2.34=2.032,t0.05,按α=0.05水准,不拒绝H0,两者的差别无统计学意义
什么是T检验
T检验,亦称studentt检验(Student'sttest),主要用于样本含量较小(例如n<30),总体标准差σ未知的正态分布资料。
T检验是用于小样本(样本容量小于30)的两个平均值差异程度的检验方法。
它是用T分布理论来推断差异发生的概率,从而判定两个平均数的差异是否显著。
T检验是戈斯特为了观测酿酒质量而发明的。
戈斯特在位于都柏林的健力士酿酒厂担任统计学家,基于ClaudeGuinness聘用从牛津大学和剑桥大学出来的最好的毕业生以将生物化学及统计学应用到健力士工业程序的创新政策。
戈特特于1908年在Biometrika上公布T检验,但因其老板认为其为商业机密而被迫使用笔名(学生)。
实际上,戈斯特的真实身份不只是其它统计学家不知道,连其老板也不知道。
T检验的适用条件:
正态分布资料
单个样本的t检验
目的:
比较样本均数所代表的未知总体均数μ和已知总体均数μ0。
计算公式:
t统计量:
自由度:
v=n-1
适用条件:
(1)已知一个总体均数;
(2)可得到一个样本均数及该样本标准误;
(3)样本来自正态或近似正态总体。
例1难产儿出生体重n=35,=3.42,S=0.40,
一般婴儿出生体重μ0=3.30(大规模调查获得),问相同否?
解:
1.建立假设、确定检验水准α
H0:
μ=μ0(无效假设,nullhypothesis)
H1:
(备择假设,alternativehypothesis,)
双侧检验,检验水准:
α=0.05
2.计算检验统计量
,v=n-1=35-1=34
3.查相应界值表,确定P值,下结论
查附表1,t0.05/2.34=2.032,t0.05,按α=0.05水准,不拒绝H0,两者的差别无统计学意义
配对样本t检验
配对设计:
将受试对象的某些重要特征按相近的原则配成对子,目的是消除混杂因素的影响,一对观察对象之间除了处理因素/研究因素之外,其它因素基本齐同,每对中的两个个体随机给予两种处理。
∙两种同质对象分别接受两种不同的处理,如性别、年龄、体重、病情程度相同配成对。
∙同一受试对象或同一样本的两个部分,分别接受两种不同的处理
∙自身对比。
即同一受试对象处理前后的结果进行比较。
目的:
判断不同的处理是否有差别
计算公式及意义:
t统计量:
自由度:
v=对子数-1
适用条件:
配对资料
T检验的步骤
1、建立虚无假设H0:
μ1=μ2,即先假定两个总体平均数之间没有显著差异;
2、计算统计量T值,对于不同类型的问题选用不同的统计量计算方法;
1)如果要评断一个总体中的小样本平均数与总体平均值之间的差异程度,其统计量T值的计算公式为:
2)如果要评断两组样本平均数之间的差异程度,其统计量T值的计算公式为:
3、根据自由度df=n-1,查T值表,找出规定的T理论值并进行比较。
理论值差异的显著水平为0.01级或0.05级。
不同自由度的显著水平理论值记为T(df)0.01和T(df)0.05
4、比较计算得到的t值和理论T值,推断发生的概率,依据下表给出的T值与差异显著性关系表作出判断。
T值与差异显著性关系表
T
P值
差异显著程度
差异非常显著
差异显著
TP>0.05
差异不显著
5、根据是以上分析,结合具体情况,作出结论。
T检验举例说明
例如,T检验可用于比较药物治疗组与安慰剂治疗组病人的测量差别。
理论上,即使样本量很小时,也可以进行T检验。
(如样本量为10,一些学者声称甚至更小的样本也行),只要每组中变量呈正态分布,两组方差不会明显不同。
如上所述,可以通过观察数据的分布或进行正态性检验估计数据的正态假设。
方差齐性的假设可进行F检验,或进行更有效的Levene's检验。
如果不满足这些条件,只好使用非参数检验代替T检验进行两组间均值的比较。
T检验中的P值是接受两均值存在差异这个假设可能犯错的概率。
在统计学上,当两组观察对象总体中的确不存在差别时,这个概率与我们拒绝了该假设有关。
一些学者认为如果差异具有特定的方向性,我们只要考虑单侧概率分布,将所得到t-检验的P值分为两半。
另一些学者则认为无论何种情况下都要报告标准的双侧T检验概率。
1、数据的排列
为了进行独立样本T检验,需要一个自(分组)变量(如性别:
男女)与一个因变量(如测量值)。
根据自变量的特定值,比较各组中因变量的均值。
用T检验比较下列男、女儿童身高的均值。
性别
身高
对象1
对象2
对象3
对象4
对象5
男性
男性
男性
女性
女性
111
110
109
102
104
男性身高均数=110
女性身高均数=103
2、T检验图
在T检验中用箱式图可以直观地看出均值与方差的比较,见下图:
这些图示能够很快地估计并且直观地表现出分组变量与因变量关联的强度。
3、多组间的比较
科研实践中,经常需要进行两组以上比较,或含有多个自变量并控制各个自变量单独效应后的各组间的比较,(如性别、药物类型与剂量),此时,需要用方差分析进行数据分析,方差分析被认为是T检验的推广。
在较为复杂的设计时,方差分析具有许多t-检验所不具备的优点。
(进行多次的T检验进行比较设计中不同格子均值时)。
T检验注意事项
∙要有严密的抽样设计随机、均衡、可比
∙选用的检验方法