统计知识点.docx

资源描述

统计知识点.docx

《统计知识点.docx》由会员分享，可在线阅读，更多相关《统计知识点.docx（38页珍藏版）》请在冰豆网上搜索。

统计知识点.docx

统计知识点

集中趋势的描述:

平均数（average）

平均数用来说明某种现象或事物数量的中等水平。

求平均数必须注意：

①同质的事物或现象才能求平均数

②由资料的分布选用适当的平均数。

一．算术均数（arithmeticmean）

适用于对称分布资料，尤其是正态分布资料，对于偏态资料则不理想。

二．几何平均数

适用范围：

某些医学资料，如抗体的滴度、率或比的变化速度等，频数分布明显偏态，尤其适用于一些对数正态分布资料。

要求观察值中不能有0，且不可正负值均有。

三．中位数（median）和百分位数（percentile）

1．将一组观察值从小到大排列，位次居中的观察值称为中位数，记作M。

百分位数（记Px）将总体或样本的所有观察值分成两部分，理论上有x%的观察值比它小，有（100-x）%的值比它大

2．适用范围：

1）描述偏态分布资料的集中位置

2）资料呈显著偏态或有个别特大特小值

3）一端或两端有不确定的数值

四.众数（mode）

指一组观察值出现次数最多的值。

观察例数较少时，众数无实际意义。

一组观察值可能有几个众数。

算数均数：

适用于单峰对称分布资料；

几何均数：

适合于作对数变换后单峰对称分布资料；

中位数和百分位数：

适用于任何分布的资料；

中位数和百分位数在样本含量较少时不稳定，越靠两端越不稳定；

中位数在抗极端值的影响方面，比均数具有较好的稳定性，但不如均数精确。

因此，当资料适合计算均数或几何均数时，不宜用中位数表示其平均水平。

不同质的资料应考虑分别计算平均数。

离散程度的描述

一．全距（range）极差R=max-min

优点：

简单

缺点：

①只用到最大、最小值，样本信息没能充分利用

②当资料呈明显偏态时，最大、最小值不稳定

③样本例数越多，R可能越大，2组观察值例数悬殊时不用R比较。

二.四分位间距（inter-quartilerange）Q

极差不稳定，主要是受两端的极值影响，所以有人建议将两端数据截去一定比例，如各去掉25%

Q=p75-p25=Qu-QL

用于偏态分布

三.方差（variance）σ2

总体方差σ2=

在样本中，μ未知，常用替代，S2=

四.标准差（standarddeviation）

样本标准差

自由度：

n-1

五.变异系数（coefficientofvariation）C.V.

适用于各组观察值单位不同或单位虽同而平均数相差很大的情况。

极差不稳定，不灵敏

标准差的基本内容是离均差，它显示一组变量值与其均数的间距，故标准差直接地、总结地、平均地描述了变量值的离散程度。

在同质的前提下，标准差大表示变量值的离散程度大，即变量值的分布分散、不整齐、波动较大；反之，标准差小表示变量值的离散程度小，即变量值的分布集中、整齐、波动较小。

变异系数派生于标准差，其应用价值在于排除了平均水平的影响，并消除了单位。

平均数与变异度

均数±标准差（min,max）

中位数±四分位数间距（min,max）

变异度小，则均数代表性好！

变异度大，数据分散，则均数代表性差！

平均数所表示的集中性与变异度所表示的离散性，从两个不同的角度阐明计量资料的特征！

分类资料的统计描述相对数

⏹分类资料的特点

☐离散性，变量仅取有限的几个值；

☐资料不含有次序的信息。

⏹相对数有两个作用：

表示事物出现的频度、便于比较

⏹相对数表示相对关系

⏹常用相对数:

率、构成比、相对比等

常用的相对数：

率

率（Rate），又称频率指标，说明某现象发生的频率和强度。

（强度相对数）

常用的相对数：

比

比（Ratio），又称相对比，是A，B两个有关指标之比，说明A为B的若干倍或百分之几。

两个指标可以性质相同，也可以不同。

常用的相对数：

构成比

构成比（Proportion），又称构成指标，说明一种事物内部各组成部分所占的比重或分布。

应用相对数的注意事项

⏹分母不能太小；

⏹区分率和构成比；

⏹合并率的计算不是直接求率的均数；

⏹计算率时注意正确选择分母；

⏹资料对比注意可比性；两个合并率的计算需要注意两者的内部构成比。

区分率和构成比

⏹率：

强度指标

⏹构成比：

构成指标

合并率的计算不是直接求率的均数，计算率时注意正确选择分母

资料对比注意可比性；两个合并率的比较需要注意两者的内部构成比。

率的标准化法

⏹率的标准化法（standardizationmethodofrate），即采用统一的标准对内部构成不同的各组频率进行调整和对比的方法，调整后的率为标准化率，简称标化率（standardrate）

标准化法的注意事项

⏹选取不同的标准组，得到的标准化率是不一样的；

⏹标准化率是相对的，其作用仅在于比较，并不表示实际水平；

⏹标准化率不代表总体率，也不能完全代替分组比较。

正态分布（normaldistribution）

正态分布的概率密度函数

其中是μ均数，σ是标准差。

记N（μ,σ2）

1．是单峰曲线，x=μ

2．以均数μ为中心左右对称

3．有2个参数，μ：

位置参数σ：

形状参数

特别地N（0，1）称为标准正态分布（z分布、u分布）

标准正态分布下

-1.96~1.96部分的面积为0.95（可以通过积分求得）。

也就是说|u|>1.96的面积为0.05。

以上讨论的是标准正态分布，对一般的正态分布，某指标x~N（μ,σ2）,则

~N（0,1）

即-1.96

正态曲线下的面积规律

⏹正态曲线下面积总和为1；

⏹正态曲线关于均数对称；对称的区域内面积相等；

⏹对任意正态曲线，按标准差为单位，对应的面积相等；

⏹-1.64～+1.64内面积为90%；

⏹-1.96～+1.96内面积为95%；

⏹-2.58～+2.58内面积为99%。

参考值范围（referenceinterval）

⏹参考值范围又称正常值范围（normalrange）。

⏹什么是参考值范围：

⏹是绝大多数正常人的某观察指标所在的范围。

⏹绝大多数：

90%，95%，99%等等。

⏹确定参考值范围的意义：

用于判断正常与异常。

⏹“正常人”的定义：

排除了影响所研究的指标的疾病和有关因素的同质的人群。

参考值范围的估计方法：

正态分布法

95%参考范围（referencerange）或正常范围（normalrange）仅仅告知95%健康者的测定值在此范围之内，并非告知凡在此范围之内皆健康，也非告知凡在此范围之外皆不健康，所以不可将之作为诊断标准。

95%参考值范围的估计方法

方法双侧单侧下限单侧上限

正态分布法

百分位数法P2.5～P97.5>P5

二项分布及其应用

在医学上一些事物，其结局只有两种互相对立的结果，表现为两种互相对立的结果，每个个体的观察结果只能取其中之一。

对这类事物常用二项分布（binomialdistribution）进行描述。

二项分布的概率

X=0,1,2,…,n

从阳性率为π的总体中随机抽取含量为n的样本，恰有X例阳性的概率为：

则称X服从参数为n和的二项分布（BinomialDistribution），记为：

X～B（n,）。

其中参数n由实验者确定，而常常是未知的。

二项分布的性质：

均数和标准差若X～B（n,），则

二项分布的性质：

累积概率

⏹累计概率（cumulativeprobability）

⏹从阳性率为的总体中随机抽取n个个体，则

最多有k例阳性的概率：

最少有k例阳性的概率：

Ｘ=0，1，2，…，k，…，n。

递推公式

二项分布性质

在n足够大时，样本率近似服从正态分布；

☐样本率p的均数等于π；

☐样本率p的标准差（率的标准误）

二项分布的图形

⏹正态分布或其它连续性分布中，常用分布曲线下的面积表示某区间的概率；

⏹在二项分布中，则用线段的长短表示取某变量值时的概率；

⏹以X为横坐标，以P（X）为纵坐标作图，即可绘出二项分布的图形；

⏹由图可见，给定n后，二项分布的形状取决参数的大小。

⏹当=0.5时，分布对称；当0.5，分布呈偏态；当<0.5时分布呈正偏态；当>0.5时分布呈负偏态；特别是当n值不是很大时，偏离0.5愈远，分布愈偏。

⏹随着n的增大，二项分布逐渐逼近正态分布。

如=0.30，n=5和n=10时，图形呈偏态，当n=30时，图形已接近正态分布。

一般地说，如果n或n（1-）大于5时，常可用正态近似原理处理二项分布问题。

二项分布的应用：

区间估计

⏹精确概率法，查表法，适用于n≤50时；

⏹正态近似法，适用于n较大，p和1-p均不太小，如np和n（1-p）均大于5时。

此时总体率的1-α可信区间如下

⏹总体率的可信区间是不对称的，除非π＝0.5；

⏹随着样本含量n的增加，不对称性逐渐改善；

⏹随着样本含量n的增加，可信区间的宽度逐渐变小；

⏹对于相同的样本含量，π越接近0.5，区间越宽，π越接近0或1，区间越窄。

二项分布的应用：

率的假设检验

⏹样本率与总体率的比较

☐直接计算概率法样本含量较小时，或样本率较小时，如np和n（1-p）均小于5

☐

正态近似法

⏹两样本率的比较

☐正态近似法

☐当n1,n2均较大，p1,p2,（1-p1）,（1-p2）均不太小，如n1p1,n2p2,n1（1-p1）,n2（1-p2）均大于5时，可用u检验。

二项分布的应用条件

⏹每一次试验必然出现两种互相对立的结果之一；

⏹每种结果都有相同的可能性出现，即某事件出现的概率π不变；

⏹n次试验的条件完全相同，n个观察对象同质且必须互相独立。

Poisson分布及其应用

Poisson分布的定义：

单位时间、单位面积或单位容积中颗粒数或某些罕见事件发生数的概率分布。

Poisson分布的概率

⏹若随机变量X的取值为0,1,2,3…，且其概率密度函数为

称X服从参数为的Poisson分布，记作X~Poisson（）

Poisson分布的性质：

Poisson分布的均数和方差相等，均为μ

Poisson分布的可加性

如果X1服从Poisson

（1）,X2服从Poisson

（2）,则X1+X2服从Poisson（1+2）。

即，Poisson分布具有可加性。

Poisson分布是二项分布的极限形式二项分布中，当π很小，π<0.05，而n很大，二项分布逼近Poisson分布

Poisson分布的应用条件

⏹主要用于研究单位时间或单位空间内某事件的发生数，理论上X可为无穷大。

⏹独立性：

无传染性、聚集性的事件。

⏹分析中特别注意：

观察单位数！

二项分布、Poisson分布、正态分布间的关系

⏹n较大时，二项分布B（n,）中样本率的分布近似正态分布；

⏹较大（≥50）时，Poisson分布中平均计数近似正态分布；

⏹Xi~B（ni,i），若C=nii不变，则ni时，二项分布近似Poisson分布

均数的抽样误差与标准误

抽样研究的目的是要用样本信息推断总体特征，称统计推断

由于个体变异的存在，在抽样研究中产生样本统计量和总体参数之间的差异，称为抽样误差（samplingerror）。

各种参数都有抽样误差，这里我们以均数为研究对象

v从正态总体中随机抽样，其样本均数服从正态分布；

v从任意总体中随机抽样，当样本含量足够大时，其样本均数的分布逐渐逼近正态分布；

v样本均数之均数的位置始终在总体均数的附近；

v随着样本含量的增加，样本均数的离散程度越来越小，表现为样本均数的分布范围越来越窄，其高峰越来越尖。

标准误的定义

v抽样误差的标准差称为标准误（standarderror）。

v样本统计量的标准差反映了从某个总体中随机抽样所得样本之均数分布的离散程度。

标准误的计算

v计算公式为

v其中，σ为总体标准差，n为抽样的样本例数

v在研究工作时，由于总体标准差常常未知，可以利用样本标准差近似估计

标准误的意义

v反映了样本统计量（样本均数，样本率）分布的离散程度，体现了抽样误差的大小。

v标准误越大，说明样本统计量（样本均数，样本率）的离散程度越大，即用样本统计量来直接估计总体参数越不可靠。

反之亦然。

v标准误的大小与标准差有关，在例数n一定时，从标准差大的总体中抽样，标准误较大；而当总体一定时，样本例数越多，标准误越小。

说明我们可以通过增加样本含量来减少抽样误差的大小。

t分布

t分布的性质

vt分布为一簇单峰分布曲线，高峰在0的位置上t分布以0为中心，左右对称

v分布的高峰位置比u分布低，尾部高

t分布与自由度有关，自由度越小，t分布的峰越低，而两侧尾部翘得越高；自由度逐渐增大时，t分布逐渐逼近标准正态分布；当自由度为无穷大时，t分布就是标准正态分布

v每一自由度下的t分布曲线都有其自身分布规律。

t界值表

单侧：

P（t<-tα,ν）=α或P（t>tα,ν）=α

双侧：

P（t<-tα,ν）+P（t>tα,ν）=α即：

P（-tα,ν

[例]查t界值表得t值表达式t0.05,10=2.228（双侧）t0.05,10=1.812（单侧）

区间估计

可信区间的定义

v按一定的概率或可信度（1-α）用一个区间来估计总体参数所在的范围，该范围通常称为参数的可信区间或者置信区间（CI），预先给定的概率（1-α）称为可信度或者置信度（confidencelevel）,常取95%或99%。

v可信区间（CL,CU）是一开区间CL、CU称为可信限

均数的（1-α）100%可信区间

均数的95%可信区间

v样本含量不是很大时

样本含量较大时，t分布逼近u分布

合并方差与均数之差的标准误

v合并方差（方差的加权平均）

v均数之差的标准误

与均数之差有关的抽样分布

“均数之差”与“均数之差的标准误”之比，服从自由度=n1+n2-2的t分布。

样本含量较大时，服从标准正态分布。

可信区间的宽度

v可信度越大，可信区间越宽，说明用该区间来估计总体参数（总体均数）越可靠。

v标准差越小，可信区间就越窄，意味着如果总体内变异程度较小时，在相同的可信度下，只需要一个比较窄的可信区间就可以估计总体均数。

v随着样本含量的增加，可信区间逐渐变窄。

正确理解可信区间

v可信度为95%的CI的涵义：

每100个样本，按同样方法计算95%的CI，平均有95%的CI包含了总体参数。

v这里的95%，指的是方法本身！

而不是某个区间！

v总体参数虽未知，但却是固定的值，而不是随机变量值。

95%可信区间的含义

按这种方法构建的可信区间，理论上平均每100次，有95次可以估计到总体参数。

2检验

两个率比较的2检验

2检验的原理：

衡量理论数与实际数的差别

其中Ai为实际频数，Ti为理论频数

理论频数的计算

2检验的基本思想

如果H0假设成立，则实际频数（actualfrequency）与理论频数应该比较接近。

如果实际频数与理论频数相差较大，超出了抽样误差所能解释的范围，则可以认为H0假设不成立，即两样本对应的总体率不等。

行×列表的自由度=（行数-1）（列数-1）

四格表的自由度=1

2检验的步骤

（1）H0:

1=2

H1:

1≠2

=0.05

（2）2=3.52（21,0.05=3.84）

（3）P>0.05

（4）　按0.05水准，不拒绝H0。

尚不能认为单纯手术疗法与联合疗法对乳腺癌患者治疗效果有差别。

四格表2检验的专用公式

四格表2的检验的应用条件：

⏹n≥40，T≥5，用2；

⏹n≥40，但1≤T<5，用校正2。

⏹n<40，或T<1，用确切概率。

配对四格表资料的2检验目的:

对单一样本数据的分析，推断两种处理的结果有无差别。

配对四格表资料的实际数与理论数

连续性校正，b+c<40时：

2检验的应用条件

⏹四格表的分析方法选择条件：

❑n≥40，T≥5，用2；

❑n≥40，但1≤T<5，用校正2。

❑n<40，或T<1，用确切概率。

⏹配对四格表的分析方法选择条件：

❑b+c>40；

❑b+c≤40用校正2。

⏹R×C表的分析方法选择条件：

❑理论数不能小于1；

❑理论数大于1小于5的格子数不超过总格子数的1/5。

❑否则用确切概率;或似然比检验（likelihoodratiotest）

四格表的确切概率Fisher’sexactprobability

基本思想：

❑在假定零假设成立，周边合计应当是不变的。

❑计算此时出现现有样本及更极端样本的概率。

❑若零假设成立，此概率应当不会太小！

❑所谓极端，这里指理论频数和实际频数差别更大的情形；

假设检验

Ø假设检验的基本目的就是分辨两个样本是否属一个总体或两个不同的总体，并对总体作出适当的结论。

假设检验的基本思想

Ø提出一个假设

Ø如果假设成立，得到现有样本的可能性

Ø可能性很小（小概率事件），在一次试验中本不该得到，居然得到了，说明我们的假设有问题，拒绝之。

Ø有可能得到手头的结果，故根据现有的样本无法拒绝事先的假设（没理由）

假设检验的一般步骤

步骤1：

建立假设

Ø在假设的前提下有规律可寻

Ø零假设（nullhypothesis），记为H0，表示目前的差异是由于抽样误差引起的。

Ø备择假设（alternativehypothesis），记为H1，表示目前的差异是主要由于本质上的差别引起

步骤2：

确立检验水准α（significancelevel）并确定检验的单双侧。

Øα一般取0.05。

Ø如果在H0所规定的总体中随机抽样，获得手头样本的概率不超过α，我们将如何抉择？

步骤3：

计算检验统计量

Ø计算检验统计量

Ø即计算样本与所假设总体的偏离；

Ø样本均数与总体均数0间的差别可以用统计量t来表示：

Ø计算概率P

Ø即与统计量t值对应的概率；

Ø即在H0成立的前提下，获得现有这么大的标准t离差以及更大离差|t|≥2.841的可能性

Ø查自由度为24的t界值表

P=P（|t|≥2.841）<0.05

Ø步骤5：

结论

Ø当P≤时，拒绝H0，接受H1

Ø当P＞时，不拒绝H0

假设检验的原理：

（1）首先假设H0是正确的

（2）在H0成立的前提下计算检验统计量，并得到出现现有差别或更大差别的可能性P（|t|≥统计量）

（3）若p是小概率，根据小概率原理，这在一次试验中是不太可能发生的。

然而不太可能发生的事件在一次试验中居然发生了，即现有样本信息不支持H0。

（4）得到矛盾，因此拒绝H0

这里的总体均数一般指已知的理论值或大量观察得到的稳定值。

认为这是一个确定的总体。

要检验的目的是手头的样本所来自的总体是否与已有的总体的一致。

配对计量资料的t检验

Ø当个体间的差异不均匀时，将差异较小的个体配成对子，分别给予不同的处理，以保证两组间的均衡可比性。

Ø自身配对：

服药前后；手术前后

Ø异体配对：

双胞胎；品系；来自相同的区域

Ø配对t检验的实质就是检验样本差值的总体均数是否为0。

检验统计量

ν=n-1

分析策略：

差值均数与0比较

自由度=n1+n2-2

成组设计计量资料比较的t检验

均数之差的标准误

Ø合并方差（方差的加权平均）

Ø均数之差的标准误

两组资料比较的u检验

当随机抽样的样本例数足够大时，t检验统计量的自由度逐渐增大，t分布逐渐逼近于标准正态分布，可以利用近似正态分布的原理进行u检验。

成组设计的两几何均数比较的t检验

医学上有些资料呈倍数关系，如血清滴度等，有些资料呈对数正态分布，如人体血铅含量等，这类资料宜用几何均数来表示其平均水平。

目的是推断各自的总体几何均数有无差别。

只须对样本观察值作变换y=lg（x）即可。

t检验应用条件

Ø正态性（Normality）

Ø独立性（Independence）

Ø方差齐性（Homoscedascity）

方差齐性检验

Levene法：

从同一总体随机抽取的样本之两方差，其方差比（大方差/小方差）的分布服从F分布

假设检验中的注意事项

I型错误和II型错误

实际情况

假设检验的结果

拒绝H0

不拒绝H0

H0成立

I型错误（）

H0不成立

把握度（1-）

II型错误（）

Ø第一类错误（TypeIError）拒绝了实际上是成立的H0；

Ø第二类错误（TypeIIError）不拒绝实际上是不成立的H0。

Ø当P≤而拒绝H0接受H1，要注意第一类错误出现；

Ø当P＞而不拒绝H0，要注意第二类错误的出现。

Ø第二类错误率表示失去对真实的H1作出肯定结论之概率，

Ø1－就是对真实的H1作出肯定结论之概率，常被用来表达某假设检验方法的检验的功效（powerofatest），国内学者称它为把握度：

假设检验对真实的H1作肯定结论之把握程度。

的含义

Ø犯第一类错误的概率

Ø在假设检验之前人为规定

Ø说明拒绝H0所冒的风险不可超过

假设检验和可信区间的关系

Ø假设检验：

样本是否来自于同一总体？

Ø可信区间：

总体参数在哪里？

Ø回答的问题虽然不一样，原理却相同。

Ø在相同的α之下，若假设检验拒绝H0（p≤α），那么可信度为（1-α）的可信区间必然不包括总体参数；

Ø反之成立。

Ø可信区间和假设检验是对同一问题所作的不同结论，效果等价。

方差分析ANOVA

方差分析，又称变异数分析。

AnalysisofVariance，简写为ANOVA。

由英国统计学家R.A.Fisher提出。

单因素方差分析：

研究的是一个处理因素的不同水平间效应的差别；

xij表示第i组第j个样本观察值，

表示第i组的均数=

表示总平均=

每一组内部的

变异程度之和

随机误差

每组平均水平

偏离总均数的程度

本质差异＋随机误差

总的变异程度

方差分析的原理

共计N个个体，分为k个组，每组有ni个个体

★★★变异间的相互关系

方差分析表

变异来源

组间

SS组间

k-1

SS组间/v组间

MS组间

MS组内

组内

SS组内

N-k

SS组内/v组内

总

SS总

N-1

随机区组设计的方差分析

■为什么要配对？

配对的目的：

排除干扰因素的影响；

■为什么要配伍？

研究因素的水平超过2；

配伍的目的：

使同一区组内除了研究因素外

展开阅读全文