卫生统计学课件前七章整理.docx

资源描述

卫生统计学课件前七章整理.docx

《卫生统计学课件前七章整理.docx》由会员分享，可在线阅读，更多相关《卫生统计学课件前七章整理.docx（33页珍藏版）》请在冰豆网上搜索。

卫生统计学课件前七章整理.docx

卫生统计学课件前七章整理

卫生统计学/第一章绪论

一.什么是统计学?

二.什么是卫生统计学?

三.统计学的基本概念。

四.统计分析资料的基本类型。

五.统计工作的基本步骤。

一.什么是统计学?

统计学（statistics）是运用概率论和数理统计的原理、方法，研究数据资料的搜集、整理、分析和推断的一门学科。

理论基础：

数理统计、概率论。

目的：

透过现象看本质。

二.什么是卫生统计学?

运用概率论和数理统计的原理、方法，结合公共卫生实际，研究数据资料的搜集、整理、分析和推断的一门学科。

三.统计学的基本概念

1.变量:

观察对象的某项特征定义为变量。

变量的观测结果→变量值。

根据变量值的特征，变量分为：

（1）数值变量

（2）分类变量

（１）数值变量（定量变量）变量值既有大小又有度量衡单位。

连续型数值变量：

如身高、体重等。

离散型数值变量：

（２）分类变量（定性变量）变量值表现为互不相容的类别或属性。

根据类别或属性之间有无程度性差别，分类变量分为：

无序分类变量、有序分类变量

无序分类变量:

两分类变量、多分类变量

有序分类变量:

如尿糖化验结果按－、±、＋、＋＋、＋＋＋分类；疗效按治愈、显效、好转、无效分类。

（３）变量间的转化

数值变量→两分类变量→有序分类变量Ｈb分类变量数值化

变量1数值变量

（1）连续型数值变量

（2）离散型数值变量

2分类变量

（1）无序分类变量（两分类变量、多分类变量）

（2）有序分类变量

2.同质：

根据研究目的，观察单位或个体对所研究指标有影响的非实验性因素相同。

如：

调查皇姑区5岁男孩身高情况。

3.变异：

同质基础之上个体被研究指标之间的差异。

4.总体：

根据研究目的所确定的同质观察单位全体。

如：

调查皇姑区5岁男孩身高情况。

根据有无明确的时空，总体分为：

（1）有限总体

（2）无限总体

5.样本：

按照随机化原则从总体中抽取部分个体组成的集合。

样本容量样本的代表性

6.参数：

根据总体个体值计算出来的描述总体特征的指标称为参数。

7.统计量：

根据样本个体值计算出来的描述样本特征的指标称为统计量。

统计量→参数　？

8.抽样误差：

由于个体变异的存在，在随机抽样的过程中，出现的统计量与参数、统计量间的差异称为抽样误差。

9.概率：

某随机事件发生可能性大小的量。

用P表示P≤0.05或P≤0.01小概率事件

四.统计分析资料的基本类型

1.数值变量资料（计量资料）

2.分类变量资料（计数资料无序分类变量资料）

3.等级资料（半定量资料有序分类变量资料）

五.统计工作的基本步骤1.设计2.搜集资料3.整理资料4.分析资料

资料统计分析

（1）统计描述

（2）统计推断（参数估计、假设检验）

第二章数值变量资料的统计描述

一.频数表的编制

（1）求极差（R）：

即最大值与最小值之差，又称为全距。

R＝84–57=27（次/分）

（2）确定分组组数（n）、组距（i）:

n通常为10～15组。

组距=极差/组数,为方便计,组距为极差的十分之一,再略加调整。

27/10=2.7≈3

（3）确定组限（L）：

第一组的下限略小于最小值，最后一个组上限必须包含最大值.56~59~……80~83~85

（4）划记计数：

用划记法将所有数据归纳到各组，得到各组段的频数。

二、频数分布图---直方图

三.描述集中趋势的指标----平均数

平均数：

描述一组同质观察值的平均水平，作为其代表值。

包括：

均数、几何均数、中位数、众数、调和平均数。

1.均数（算术均数）：

样本均数，μ总体均数

（1）适用条件：

变量值呈对称分布，尤其呈正态或近似正态分布。

（2）计算：

直接法：

用于样本含量较少时，其公式为：

加权法：

用于频数表资料或样本中相同观察值较多时，其公式为：

2.几何均数（geometricmean）用G表示

（1）适用条件：

变量值之间呈倍数或近似倍数关系；变量值呈对数正态分布，即数据经过对数变换后呈正态分布。

（2）计算：

直接法：

加权法：

（3）注意事项：

观察值中不能有0，因0不能取对数；一组观察值中不能同时有正或负值。

测定10名伤寒病人血清抗体滴度分别为1:

4,1:

16,1:

64,1:

128，求其平均抗体滴度。

以其滴度的倒数为原变量值，代入公式有：

平均抗体滴度为：

1：

69例类风湿关节炎（RA）患者血清EBV-VCA-lgG抗体滴度的分布见表2-4第

（1）、

（2）栏，求其平均抗体滴度。

3.中位数（median）用M表示。

（1）定义：

一组由小到大按顺序排列的观察值中位次居中的数值。

（2）适用条件：

变量值呈非正态分布资料（对数正态分布除外）；频数分布的一端或两端无确切数据的资料；总体分布不清楚的资料。

（3）计算：

直接法：

n为奇数M=X（n+1）/2n为偶数M=

（X

+1）

频数表法：

用于频数表资料。

百分位数（percentile）用Px表示。

中位数是一个特定的百分位数，即M=P50。

Px计算公式：

四.描述离散趋势的指标

变异指标：

极差（全距）、四分位数间距、方差、标准差、变异系数。

1.极差（range，简记为R）：

同质观察值中最大值与最小值之差。

用全距描述定量资料的变异度大小，虽然计算简单，但不足之处有：

①只考虑最大值与最小值之差异，不能反映组内其它观察值的变异度；

②样本含量越大，抽到较大或较小观察值的可能性越大，则全距可能越大。

因此样本含量相差悬殊时不宜用全距比较。

2．四分位数间距（quartile，简记为Q）：

为上四分位数QU（即P75）与下四分位数QL（即P25）之差。

四分位数间距可看成是中间50%观察值的极差，其数值越大，变异度越大，反之，变异度越小。

由于四分位数间距不受两端个别极大值或极小值的影响，因而四分位数间距较全距稳定，但仍未考虑全部观察值的变异度，常用于描述偏态频数分布以及分布的一端或两端无确切数值资料的离散程度。

3．方差（variance）：

σ2s2

离均差：

每个观察值X与总体均数的差值（X-μ）。

离均差和：

Σ（X-μ）=0

离均差平方和：

Σ（X-μ）2≠0n-1称为自由度（degreeoffreedom）。

4．标准差（standarddeviation）：

σs

直接法：

加权法：

标准差的应用：

（1）结合均数描述变量值的分布特征：

X±S。

（2）计算标准误。

（3）计算变异系数（CV）。

5.变异系数（CV）：

应用于两种情况：

（1）比较度量单位不同;

（2）均数相差悬殊的两组或多组资料的变异度。

描述分布形态的统计指标1.偏度系数SKEW2.峰度系数KURT

第三章分类变量资料的统计描述

一.频数表

二.相对数包括：

率（rate）、构成比（proportion）、比（ratio）、动态数列

1.率（rate）Pπ

率是一频度指标，用以反映某现象发生的频度或强度。

常以百分率（%）、千分率（‰）、万分率（1/万）和十万分率（1/十万）等表示，计算公式为：

率=发生某现象的观察单位数/可能发生某现象的观察单位总数x100%（或1000‰…）

2．构成比（proportion）说明某事物内部各组成部分所占的比重或比例。

常以百分数表示，计算公式为：

构成比=某组成部分的观察单位数/同一事物内部的观察单位总数x100%

3．比（ratio）又称为相对比，比较两个指标时用以反映两个有关指标间数量上的比值，如A指标是B指标的若干倍，或A指标是B指标的百分之几，通常用倍数或分数表示。

计算公式为：

比=A/B

4.动态数列：

绝对增长量、发展速度、增长速度、平均发展速度、平均增长速度。

三.应用相对数的注意事项

1．计算相对数时分母过小。

2．以构成比代替率。

3．求几个相对数的平均数时，简单地将几个相对数相加后除以相对数的个数。

4．忽视资料的可比性，各相对数直接相比较。

5．抽样所得的样本相对数有抽样误差，相对数间的比较应做假设检验。

四.率的标准化法

1.为什么进行率的标准化？

2.率的标准化法的基本思想

采用一个共同的构成标准,消除被比较的总体或样

本各构成部分不同对平均率的影响。

3.率的标准化方法（直接法，间接法）

直接法：

被比较的总体或样本各构成部分的率已知。

（1）确定构成标准：

三种途径：

选择有代表性的、较稳定的、数量较大的人群作为构成标准（如人口普查后的资料）；

将被比较的总体或样本各相应构成部分合并；

选择其中容量大的总体或样本作为构成标准。

（2）计算预期发生数：

N’=∑Ni×Pi

（3）计算标准化率：

P’=N’/∑Ni

4.标准化时应注意的问题

（1）标准化率已不能反映率的实际水平。

（2）选定的标准不同，所得的标准化率也不同，但结论是一致的。

（3）两样本标准化率的比较也应作假设检验。

（4）如果不计算标准化率，而分层比较率时，也可得出正确结论，但不能直接比较总体率的大小。

（5）注意“交叉”的问题。

五.医学中常用的相对数指标

第五章常用概率分布

二项分布（离散型随机变量概率分布）

1.二项实验（贝努里实验Bernoulli实验）

条件：

（1）该实验由n次重复试验构成。

（2）每次试验只有两个结果：

一个成功，一个失败。

（3）每次试验成功的概率都是π，失败的概率自然是1-π。

（4）n次重复试验间是独立的，即各次试验结果间互不影响。

n重二项试验成功数（X），称为二项随机变量。

二项随机变量（X）的概率分布，称为二项分布。

2.二项分布概率函数X—B（x；n,π）

3.二项分布的特征

（１）二项分布的图形特征

（２）二项分布的特征数（期望值，方差）

E（X）＝μ=nπ

σ=√nπ（1-π）　P＝X/n

E（P）＝μp=π

σp=√π（1-π）/n

sp=√nπ（1-π）

4.二项分布的应用

（１）概率估计

（２）单侧累积概率（cumulativeprobability）计算

最多有k例阳性的概率P（X≤k）=P（0）+P

（1）+…+P（K）

最少有k例阳性的概率P（X≧k）=P（K）+P（k+1）+…+P（n）=1-P（X≦k-1）其中，X=0,1,2,…,k,…,n。

Poisson分布

Poisson分布更多地专用于研究单位时间、单位人群、单位空间内，某罕见事件发生次数的分布。

Poisson分布在π很小，样本含量n趋向于无穷大时，二项分布的极限形式。

Poisson分布发展成为描述小概率事件出现规律性的一种重要的离散型分布。

Poisson分布主要用于描述在单位时间（空间）中稀有事件的发生数例如：

1.放射性物质在单位时间内的放射次数；

2.在单位容积充分摇匀的水中的细菌数；

3.野外单位空间中的某种昆虫数等。

１.Poisson分布的概率函数

X=0,1,2,3…　X—P（λ）

２.Poisson分布的特征

（１）Poisson分布的图形特征

（２）Poisson分布的特征值Ｅ（Ｘ）＝λＶar（Ｘ）＝λσ（Ｘ）＝

（３）Poisson分布的可加性

３.Poisson分布的应用

（１）概率估计

（２）单侧累积概率（cumulativeprobability）计算

正态分布（normaldistribution）

一.正态分布对应的几何图形。

钟型曲线对应的f（x）---正态分布概率密度函数定义域:

-∞

二.正态分布的特征：

1.正态分布曲线（normalcurve）在横轴上方,且均数处最高。

（非负性）

2.正态分布以均数为中心，左右对称。

（对称性）

3.正态分布有两个参数，即均数和标准差。

μ是位置参数σ是形状参数通常用N（σ,μ2）表示正态分布。

4．正态分布曲线下面积分布有规律。

三.正态分布曲线下面积分布规律。

正态分布曲线与横轴上任一区间围成的面积可通过函数积分来得到。

正态分布→标准正态分布u=（X-μ）/σu被称为标准正态变量或标准正态离差。

u服从总体均数为0、总体标准差为1的正态分布，我们将此分布称为标准正态分布。

用N（0,1）表示。

标准正态分布曲线下面积规律:

1.整个曲线下面积为1。

2.u：

[-1.96，1.96]与标准正态分布曲线围成的面积为：

0.95或95%。

3.u：

[-2.58，2.58]与标准正态分布曲线围成的面积为：

0.99或99%。

四.正态分布的应用

1．估计正态分布资料的频数分布

2．制定医学参考值范围：

亦称医学正常值范围

（1）首先要确定一批样本含量足够大的“正常人”,所谓“正常人”不是指“健康人”,而是指排除了影响所研究指标的疾病和有关因素的同质人群；

（2）其次需根据研究目的和使用要求选定适当的百分界值，如80%，90%，95%和99%，常用95%；

（3）根据指标的实际用途确定单侧或双侧界值；

（4）根据资料的分布特点，选用恰当的计算方法。

正态分布法：

适用于正态或近似正态分布的资料。

对数正态分布法：

适用于对数正态分布资料。

百分位数法：

常用于偏态分布资料以及资料中一端或两端无确切数值的资料。

3.质量控制图

4.二项分布、Poisson分布的正态分布的逼近

（1）二项分布的正态逼近　nπ,n（1-π）≥5

（2）Poisson分布的正态逼近λ≥20

第六章参数估计基础

一.总体均数的估计

1.均数的抽样误差

抽样误差：

由于个体变异的存在，在随机抽样的过程中，出现的统计量与参数、统计量间的差异称为抽样误差。

均数抽样误差：

由于个体变异的存在，在抽样研究中产生的样本均数与相应的总体均数间的差异，样本均数与样本均数间的差异称为均数抽样误差（samplingerror）。

均数的抽样误差是不可避免的，但均数的抽样误差是可控制的。

2.衡量均数的抽样误差大小的指标------标准误

样本均数的标准差----均数的标准误

均数标准误的用途：

（1）衡量样本均数的可靠性

由于均数标准误越小，均数的抽样误差越小，样本均数就越可靠。

（2）估计总体均数的可信区间。

（3）用于均数的假设检验。

3.t分布

统计量t值的分布称为t分布。

统计量t值？

t分布有如下特征：

（1）以0为中心，左右对称的单峰分布；

（2）t分布是一簇曲线，其形态变化与n（确切地说与自由度υ）大小有关。

自由度υ越小，t分布曲线越低平；自由度υ越大，t分布曲线越接近标准正态分布（u分布）曲线。

t界值表t0.05.vt0.01,v

4.总体均数的估计μ？

方法：

点估计（pointestimation）、区间估计（intervalestimation）。

点估计：

μ=x

区间估计：

按一定的概率（可信度）估计未知的总体参数可能所在的范围（或称可信区间）。

可信度：

95%（或99%）。

以求总体均数的95%可信区间为例，介绍其计算方法。

（1）σ已知时u分布法

由u分布可知，正态曲线下有95%的u值在±1.96之间，即：

P（-1.96≤u≤+1.96）=0.95

P（-1.96≤（-x-μ）/σ-x≤+1.96）=0.95

移项后整理得，总体均数μ的95%可信区间为：

（2）σ未知，但n足够大（如n>100）时，u分布法。

由t分布可知，当自由度越大，t分布越逼近u分布，此时t曲线下有95%的t值在±1.96之间，即：

P（-1.96≤t≤+1.96）=0.95

P（-1.96≤≤+1.96）=0.95

P（≤μ≤）=0.95故总体均数μ的95%可信区间为（，）

（3）σ未知且n小时，t分布法。

某自由度的t曲线下有95%的t值在±t0.05,v之间，

即：

P（-t0.05,v

P（-t0.05,v<（x-μ）/Sx

P（x-t0.05,vSx<μ

故总体均数μ的95%可信区间为（x-t0.05,vSx，x+t0.05,vSx）

•例：

对某人群随机抽取20人，用某批号的结核菌素作皮试，平均浸润直径为10.9cm，标准差为3.86cm。

问这批结核菌素在该人群中使用时，皮试的平均浸润直径的95%可信区间是多少？

该例n=20,n较小，按t分布法计算。

ν=20-1=19，查t界值表，得t0.05,19=2.093

估计这批结核菌素在该人群中使用，皮试的平均浸润直径的95%可信区间为：

（10.9-2.093*3.86/√20，10.9+2.093*3.86/√20）cm，即（9.1，12.7）cm。

二.总体概率的估计

1.率的抽样误差

2.衡量率的抽样误差大小的指标------标准误

σP=sP=

３.总体概率的估计

（1）点估计：

π=P

（2）区间估计：

查表法：

小样本资料（n≤50）

正态近似法：

当样本含量n足够大，且样本率p或1-p均不太小，如np与n（1-p）均大于5时，样本率p的抽样分布近似正态分布，总体率π的可信区间可按下列式进行估计。

，

•可信区间的注意问题：

1．可信区间的涵义意思是从总体中作随机抽样，每个样本可以算得一个可信区间。

如95%可信区间意味着做100次抽样，算得100个可信区间，平均有95个估计正确，估计错误的只有5次。

5%是小概率事件，实际发生的可能性很小，当然这种估计方法会有5%犯错误的风险。

2．可信区间的两个要素：

（1）是准确度：

反映在可信度的大小，即区间包含总体均数的概率的大小，愈接近1愈好。

（2）是精密度：

反映在区间的长度，长度愈小愈好。

在样本含量确定的情况下，二者是矛盾的，若只管提高可信度，会把区间变得很长，故不宜认为99%可信区间比95%可信区间好，需要兼顾准确度和精密度，一般来说95%可信区间更为常用，在可信度确定的情况下，增加样本含量，可减少区间长度，提高精密度。

第七章假设检验

基本原理:

1.反证法。

2.小概率事件在一次随机抽样当中不可能发生。

•例：

医生在某山区随机测量了25名健康成年男子的脉搏，均数为74.2次／分钟，标准差为5.2次／分钟。

但是根据医学常识，一般男子的脉搏均数为72次／分钟，问该山区男子脉搏均数与一般男子是否不同？

一.假设检验的一般步骤

1.建立假设。

2.确定检验水准。

3.选择检验方法，计算检验统计量。

4.根据检验统计量确定P值。

5.做出统计推断。

1.建立假设。

（1）检验假设（H0）：

被比较的指标无差别。

（零假设、无效假设）

（2）备择假设（H1）：

被比较的指标有差别。

2.确定检验水准。

用α表示。

接受（拒绝）H0成立的概率。

α=0.05

3.选择检验方法，计算检验统计量。

根据资料的类型和分析目的等，确定相应的检验方法并计算检验统计量。

4.根据现有检验统计量确定P值。

在H0成立前提下，获得比现有检验统计量更极端情况的概率。

5.统计推断

P＜α=0.05拒绝H0，接受H1。

P＞α=0.05接受H0。

二.数值变量资料假设检验的类型:

t检验u检验F检验

t检验、u检验的应用条件：

（1）适用于两均数的比较

（2）样本来自正态分布总体

（3）n小--t检验、n大--u检验

（4）两小样本均数比较t检验，需两总体方差齐。

1.样本均数与总体均数的比较

建立假设：

H0：

该山区男子脉搏数与一般地区男子相等，即μ=μ0

H1：

该山区男子脉搏数与一般地区男子不等，即μ≠μ

确定检验水准：

α=0.05

选择检验方法，计算检验统计量：

v=n-1=25-1=24

确定P值：

P<0.05

统计推断：

按α=0.05水准，拒绝H0，接受H1，可认为该山区男子的脉搏数与一般地区的男子不同。

P值为H0成立的前提下，比样本数据得到的检验统计量（t）更极端值对应的概率。

2.配对设计（paireddesign）资料的假设检验

配对设计：

是为了控制某些非处理因素对实验结果的影响。

将那些因素相同或相近的受试对象配成对子，使得同一对子中的受试对象除处理因素不同外，其他因素相同或相近，同一对子中的两受试对象分别接受不同的处理，其实验结果的差异可以简单的认为是“纯”处理因素的作用。

配对设计主要类型：

1.同一受试对象身体两个部位的数据。

2.同一受试对象处理前后的数据。

3.同一样品用两种方法检验的结果。

4.两种同质受试对象分别接受两种处理。

•例：

将大白鼠按照同窝、同性别和体重接近的的原则配成8对，每对中两只大白鼠随机确定一只进食正常饲料，另一只进食缺乏维生素E饲料，一段时间以后，测量两组大白鼠的肝中维生素的A的含量如表1，问食物中维生素E的缺乏能否影响大白鼠肝中维生素A的含量？

表1两种饲料喂养大白鼠肝中维生素A的含量

H0：

两种饲料喂养的大白鼠肝中维生素含量相等，即μd=0

H1：

两种饲料喂养的大白鼠肝中维生素含量不等，即μd≠0

α=0.05

v=n-1=8-1=7P<0.05

按α=0.05水准，拒绝H0，接受H1，可认为两组大白鼠肝中维生素A的含量不等，维生素E缺乏饲料组的大白鼠肝中维生素A含量低。

3.两样本均数比较的假设检验

三.Poisson分布资料的Ｚ检验

四.假设检验中的Ⅰ、Ⅱ型错误

1.Ⅰ型错误又称第一类错误（typeⅠerror）：

拒绝了实际上成立的H0，为“弃真”的错误，其概率通常用α表示。

通常α=0.05

2.Ⅱ型错误又称第二类错误（typeⅡerror）：

不拒绝实际上不成立的H0，为“存伪”的错误，其概率通常用β表示。

五.假设检验的注意事项

1.要有严密的抽样设计。

2.选用的假设检验方法必须符合其适用条件。

3.正确选用单侧检验和双侧检验。

4.假设检验的结论不能绝对化。

5.正确理解P值与差别有无统计学意义。

分类变量资料的统计推断（参数估计）

一.率的抽样误差

二.衡量率的抽样误差大小的指标----标准误

σP=sP=

三.总体概率的估计

1.点估计：

π≈P

2.区间估计：

（1）查表法：

小样本资料（n≤50）

（2）正态近似法：

当样本含量n足够大，且样本率p或1-p均不太小，如np与n（1-p）均大于5时，样本率p的抽样分布近似正态分布，总体率π的可信区间可按下列式进行估计。

（同上）

•,

分类变量资料的统计推断（假设检验）

率的u检验

正态近似条件：

当样本含量n足够大，且样本率p或1-p均不太小，如np与n（1-p）均大于5时，样本率p的抽样分布近似正态分布。

1.样本率与总体率比较

样本率与总体率作比较的目的是推断样本率所代表的总体率π与某已知总体率π0是否相等。

式中P为样本率，π0为已知总体率（常为理论值或标准值），n为样本含量。

2.两样本率比较

两个样本率作比较的目的是推断两个样本各自代表的两总体率是否相等。

式中p1、p2分别为两个样本率，n1、n2分别为两样本含量

Sp1-p2为两个样本率之差的标准误

展开阅读全文