t分布表明,从正态分布总体中随机抽取的样本,由样本计算的t值接近0的可能性较大,远离0的可能性较小。
χ²分布(方差的抽样分布、定性资料中实际频数与理论频数之间的抽样误差、率或构成比的比较)
(1)定义
设从正态分布N(
)中随机抽取含量为n的样本,样本均数和标准差分别为
和S,设
,χ²值服从自由度为n-1的χ²分布。
χ²分布是方差的抽样分布。
定性资料中实际频数Ai与理论频数Ti之间的抽样误差:
当样本含量n≥40,Ti≥5时,
。
(2)χ²分布的特征
χ²分布为一簇单峰正偏态分布曲线;
自由度为v的χ²分布,其均数为v,方差为2v;
χ²分布具有可加性;
自由度为1时,
,表示当V=1时,右侧α=0.05时,它的界值为3.84。
按χ²分布规律,V=1时,理论上χ²≥3.84的概率为0.05。
自由度为2的2分布界值(0.05)为5.99。
χ²分布说明,从正态分布的总体中随机抽样,所得样本方差接近于总体方差的可能性大。
F分布(常用于方差齐性检验,方差分析)
(1)定义
设从两个方差相等的正态分布N(1,2)和N(2,2)总体中随机抽取含量分别为n1和n2的样本,样本均数和标准差分别
、
和
、
,且F=
,则F值服从自由度为(n1-1,n2-1)的F分布。
(2)F分布的特点
F分布为一簇单峰正偏态分布曲线,与两个自由度有关。
可信区间
统计推断:
根据样本所提供的信息以一定的概率推断总体的性质。
包括参数估计和假设检验。
参数估计包括点估计和区间估计(根据统计量的抽样分布性质,用样本统计量估计总体参数)
(1)区间估计的定义
按一定的概率或可信度(1-)用一个区间估计总体参数所在范围,这个范围称作可信度为1-的可信区间CI,又称置信区间,这种估计方法称为区间估计。
(2)可信度为1-的可信区间的确切含义:
以均数的可信区间为例,其涵义是:
如果重复100次抽样,每次样本含量均为n,每个样本均按
构建可信区间,则在此100个可信区间内,理论上有95个包含总体均数,而有5个不包含总体均数。
算得某95%的可信区间,则该区间包含总体参数,可信度为95%。
(3)可信区间一旦形成,它要么包含总体参数,要么不包含总体参数,二者必居其一,无概率可言。
(2)均数的可信区间
总体均数
两均数之差
抽样分布
v=n-1的t分布;
当n>100时,u分布
v=n1+n2-2的t分布
(1-)可信区间
(n<100)
(n>100)
公式
α含义
为自由度为V,两侧
尾部面积各为α/2的t界
值
可信区间长度
与标准差成正比,与样本
含量之平方根成反比
(2)率的可信区间
率也存在抽样误差,率的标准差称为率的标准误。
率的分布是偏态的:
当总体率π<0.5时为正偏态;当总体率π>0.5时为负偏态;当总体率π=0.5时为对称分布。
当nπ>5且n(1-π)>5时,率的抽样分布近似服从正态分布。
区间估计方法
总体率
两总体率之差
正态近似法
np>5且n(1-p)>5时,
n1p1>5、n2p2>5、n1(1-p1)>5、n2(1-p2)>5均成立时,
公式:
查表法
n<50时,
查询附表“百分率的可信区间”直接获得可信区间
(3)事件数的可信区间
当X>50时,正态近似法总体计数
的可信区间为
当X
50时,查表法
(4)方差的可信区间
可信区间与参考值范围的区别
⏹可信区间用于估计总体参数,总体参数只有一个。
⏹参考值范围用于估计变量值的分布范围,变量值可能很多甚至无限。
⏹95%的可信区间中的95%是可信度,即所求可信区间包含总体参数的可信程度为95%
⏹95%的参考值范围中的95%是一个比例,即所求参考值范围包含了95%的正常人。
假设检验的步骤
建立假设检验和确定检验标准
计算检验统计量
确定P值
推断结论
假设检验的几个相关问题
(1)I型错误和II型错误
拒绝H0,接受H1
不拒绝H0
H0真实
第一类错误()
正确推断(1-)
H0不真实
正确推断(1-)
第二类错误()
统计学上规定:
H0真实时被拒绝为第一类错误(又称Ⅰ型错误),H0不真实时不拒绝为第二类错误(又称Ⅱ型错误)。
拒绝H0时可能犯I类错误;不拒绝H0时可能犯II类错误。
错误和错误的关系:
和的关系就像翘翘板,小就大,大就小。
要同时降低两类错误的概率,或者要在不变的条件下降低,需要增加样本容量。
(2)双侧检验与单侧检验
H1从一个方向上偏离H0所规定者,称为单侧检验;
H1从两个方向上偏离H0所规定者,称为双侧检验;
检验假设的写法不同:
原则上依据资料的性质来选择双侧检验与单侧检验。
(3)P和的涵义
P值是指由H0所规定的总体作随机抽样,获得等于大于现有样本获得的检验统计量值的概率。
拒绝H0时所冒的风险。
P值的大小标明以多大的误差拒绝H0。
P值越小,说明越有理由拒绝H0而接受H1,越有理由说明样本所分别来自的总体有差别。
的意义:
水准是在假设检验之前设定的,说明按不超越多大的误差为条件作结论,是犯I型错误的最大风险。
确定=0.05,即I型错误的概率为0.05,理论上100次抽样中发生这样的错误平均有5次。
(4)假设检验和可信区间的关系
假设检验:
样本是否来自于同一总体?
可信区间:
总体参数在哪里?
在相同的α之下,若假设检验拒绝H0(p<α),那么可信度为(1-α)的可信区间必然不包括总体参数;
可信区间和假设检验是对同一问题所作的不同结论,效果等价。
可信区间比假设检验能回答更多的内容。
定量资料的分析(均数的假设检验包括t检验和方差分析)
(1)样本均数与总体均数的比较-------t检验
目的:
推断该样本是否来自总体
(2)配对设计定量资料的差值均数与总体差值均数0的比较-------配对资料的t检验
目的:
设计方法:
自身配对:
同一对象接受两种处理。
异体配对:
将条件相近的实验对象配对,分别给予两种处理。
假设检验方法:
配对资料的t检验:
首先求出各对数据间的差值d,将d作为变量值计算均数。
若两处理因素的效应无差别,理论上差值d的总体均数
应为0
(3)成组设计的两样本均数的比较------成组t检验
目的:
两样本均数的比较目的在于推断两个样本所代表的两总体均数是否相等。
设计方法:
完全随机设计即成组设计
假设检验方法:
成组t检验(有些情况不能进行配对设计如手术组和非手术组),在两个样本均数比较时,若两组样本含量都很大,可用u检验。
(4)多个均数的比较------方差分析又称F检验
方差分析的基本思想和应用条件:
基本思想:
按研究目的和设计类型,将总变异中的离均差平方和SS和自由度
分别分解成相应的若干部分,然后求得各相应部分的变异;由于其中的组内(或误差)变异主要反映个体差异或抽样误差,其他各部分的变异与之比较得出统计量F值,根据F值的大小确定P值,并做出推断。
应用条件:
①各样本是相互独立的随机样本,均服从正态分布。
②相互比较的各样本的总体方差相等。
具有方差齐性。
①单因素多个样本均数的比较用单因素方差分析,研究的是一个处理因素的不同水平间效应的差别(单因素两水平可以用t检验)。
适用于对多个均数资料做分析的统计方法,这类研究的设计为完全随机设计。
②两因素多个样本均数的比较用两因素方差分析,研究的是一个处理因素和一个配伍因素的不同水平间效应的差别。
(5)多个样本均数的两两比较
多个样本均数间的两两比较常用的统计方法为q检验即SNK法;
多个实验组和一个对照组均数间的两两比较常用Dunnett检验。
(6)t检验的应用条件
t检验的前提:
①正态性:
两组均数比较时,要求两组数据服从正态分布;配对设计时,要求差值服从正态分布。
可用正态性检验来确认。
②独立性:
各观察个体间是相互独立的。
③方差齐性:
两样本所对应的正态总体之方差相等,可由方差齐性检验来确定。
(7)方差齐性检验
方差齐性检验,即检验两样本相应总体的方差相等的假设是否成立。
(8)方差分析的应用条件
方差分析的前提:
①正态性②独立性③方差齐性。
要求与t检验一样。
当原始资料不能满足分析方法的要求时,要做变量变换。
常用的变量变换有:
①对数变换②平方根变换③平方根反正弦变换
变量变换:
⑴对数变换常用于:
①使服从对数正态分布的资料正态化;②使方差不齐切各组的变异度接近的资料达到方差齐的要求;③使曲线直线化,常用于曲线拟合。
⑵平方根变换常用于:
①使服从Poisson分布的计数资料或轻度偏态的资料正态化;②使方差不齐且各样本的方差与均数间呈正相关的资料达到方差齐的要求。
⑶平方根反正弦变换常用于:
使总体率较小或总体率较大的二项分布资料达到正态或方差齐的要求。
定性资料的分析
(1)样本率与总体率的比较
目的:
推断样本是否来自某已知总体。
检验方法:
当np>5且n(1-p)>5时,用u检验;当n和p不符合此条件时,用二项分布法计算可信区间。
(2)两样本率的比较
目的:
推断相应的两总体率是否相等。
检验方法:
①u检验:
当n1p1>5、n2p2>5、n1(1-p1)>5、n2(1-p2)>5均成立时用u检验;
如果n较小,则用校正u检验;
若n≤40时,用确切概率法。
②χ²检验:
n≥40,T≥5,用χ²检验;
n>40,但1≤T<5,用校正χ²检验。
n<40,或T<1,用确切概率法。
(3)配对设计两样本率的比较
目的:
通过对单一样本数据的分析,推断两种处理的结果有无差别。
用途:
比较两种检验方法、两种培养方法、两种提取方法等的差别。
基本思想:
结果有四种情况,
甲法
乙法
合计
+
-
+
a
B
a+b
-
c
D
c+d
合计
a+c
b+d
a+b+c+d=n
若两法没有差别,则总体B=C。
检验方法:
①当b+c≥40时,用配对χ²检验;
②当20<b+c≤40时,用校正配对χ²检验;
③当b+c<20时,用确切概率法。
(4)多个率的比较
R行2列,R×2表
目的:
推断R个样本率各自所代表的总体率是否相等。
方法:
χ²检验
(5)构成比的比较
R行C列
χ²检验
(6)χ²检验的应用条件
☐四格表的分析方法选择条件:
⏹n≥40,T>5,用2;
⏹n≥40,但1≤T<5,用校正2。
⏹n<40,或T<1,用Fisher确切概率。
☐配对四格表的分析方法选择条件:
⏹b+c>40;
⏹20
⏹b+c<20,二项分布直接计算概率。
☐R×C表的分析方法选择条件:
⏹理论数不能小于1;
⏹理论数大于等于1小于5的格子数不超过总格子数的1/5。
⏹否则用Fisher确切概率;
⏹或似然比检验(likelihoodratiotest)
☐如果以上条件不能满足,可采用:
✓ 增加样本含量
✓ 删去某行或某列
✓ 合理地合并部分行或列
✓Fisher精确概率法
(7)确切概率法
成组四格表确切概率法:
基本思想:
在四格表的周边合计不变的条件下,直接计算表内四个数据的各种组合之概率。
公式:
步骤:
在四格表的周边合计不变的条件下,列出所有的组合情况
分别计算各个组合的|A-T|值和Pi值
将|A-T|值大于等于现有样本差别的各组合概率相加得到P值。
配对四格表确切概率法:
步骤:
在四格表的B+C之和不变的条件下,计算各个b和c的所有组合;
计算各个组的差别b-c;
按照二项分布原理计算出差值大于等于现有样本差别的组合的概率。
各个概率相加得到P。
(8)两事件数的比较
(9)定性资料假设检验的正确应用
等级资料的分析
(1)秩次和秩和
秩次:
全部观察值按某种顺序排列的位序,在一定程度上反映了等级的高低;
秩和:
各组秩次之和,在一定程度上反映了各组等级的分布位置;
实际秩和:
理论秩和:
秩变换:
对等级的分析,转化为对秩次的分析。
秩次反映等级的高低,秩和反映各组等级的分布位置。
秩和检验就是通过秩次的排列求出秩和,进行假设检验。
(2)成组设计两样本比较的秩和检验
目的:
通过对两个随机样本推断两样本所代表的两个总体分布位置是否相同。
(3)多组比较的秩和检验(了解)
(4)配对设计资料的秩和检验(配对设计差值比较的符号秩和检验)
(5)区组设计资料的秩和检验(?
)
(6)秩和检验的正确应用(考点)
适用范围广
等级资料
定量资料:
正态分布但组间方差不齐,数据的某一端