公卫中级卫生统计学复习重点点.docx

资源描述

公卫中级卫生统计学复习重点点.docx

《公卫中级卫生统计学复习重点点.docx》由会员分享，可在线阅读，更多相关《公卫中级卫生统计学复习重点点.docx（12页珍藏版）》请在冰豆网上搜索。

公卫中级卫生统计学复习重点点.docx

公卫中级卫生统计学复习重点点

2015年公卫中级卫生统计学复习重点

（基本概念）

1、统计工作中的基本步骤：

统计设计→资料搜集→资料整理→统计分析。

2、统计学中的小概率事件是指一次试验中，基本上不会发生的事情。

3、概率是描述某随机事件发生的可能性大小的指标。

4、计量资料：

变量值取数值的变量。

如：

身高、体重、体温、血压、RBC、血清胆固醇等。

5、计数资料：

变量值是定性的。

如：

阳/阴性，血型、性别等。

6、等级资料：

定性资料的变量值取有等级顺序的几类。

如：

治愈、显效、好转、无效等。

7、总体：

根据研究目的确定的相同性质的所有观察单位某种指标的变量值的集合。

8、样本：

从总体中随机抽取的一部分。

（数值资料的统计描述）

1、编制组段数为10的频数表，在确定组距时常取极差的1/10取整作为组距。

2、频数分布的两个重要特征是：

集中趋势和离散趋势。

3、算术平均数适用于同质且对称分布的资料；几何均数适用于呈等比数列及取对数后呈对称分布的资料；中位数的适用范围广泛，对称或偏态资料均可计算该指标。

4、原始数据中每个值都加（或减）一个不为零的常数后，均数、几何均数、中位数都改变，标准差不改变。

5、描述一组偏态分布资料的变异度时，最适合选择的指标是：

极差。

6、常用于表示个体离散程度的指标有：

极差、标准差、方差、变异系数。

7、标准差指标表示一组同质变量值的离散程度。

标准差必定＞0，其单位与原资料单位相同。

8、随样本含量的增加，标准差仍不能确定，因为标准差是由变量值之间的变异度决定的。

9、变异系数为标准差与均数的比值。

10、正态（高斯）分布中：

μ确定对称轴位置，σ确定形状（平缓宽大、陡峭窄小－胖瘦）。

11、若用μ表示总体均数，σ表示总体标准差，则：

在（μ－σ，μ＋σ）范围内，占正态曲线下面积的68.27％

在（μ－1.645σ，μ＋1.645σ）范围内，占正态曲线下面积的90％

在（μ－1.96σ，μ＋1.96σ）范围内，占正态曲线下面积的95％

在（μ－2.58σ，μ＋2.58σ）范围内，占正态曲线下面积的99％

当观察值个数n较大时，可以用

估计μ，s估计σ，从而对样本作频数分布的估计：

在（

－s，

＋s）范围内，占正态曲线下面积的68.27％

在（

－1.645s，

＋1. 645s）范围内，占正态曲线下面积的90％

在（

－1.96s，

＋1.96s）范围内，占正态曲线下面积的95％

在（

－2.58s，

＋2.58s）范围内，占正态曲线下面积的99％

12、标准正态分布又称μ分布，即μ（总体均数）＝0，σ（标准差）＝1的正态分布。

标准正态分布的表示方式是：

N（0，1）

13、正态曲线下，从μ－1.96σ到μ的面积为47.5％

14、正态曲线下，小于μ－1.96σ的横轴所围的面积是：

2.5％

15、正态曲线下，小于μ＋1.96σ的横轴所围的面积是：

97.5％

16、一组数据呈正态分布，其中大于

－1.96s的变量值有97.5％

17、对于偏态分布资料，且测量值过高才有临床意义，95％单侧正常值范围可定上限为P95

18、对于偏态分布资料，且测量值过低才有临床意义，95％单侧正常值范围可定下限为P5

18、对于偏态分布资料，且测量值过高过低都不正常，可定双侧95％参考值范围P2.5－P97.5

20、计量资料常用的统计指标和方法：

平均数、标准差、t检验、u检验、直线相关与回归。

21、计数资料常用的统计指标和方法：

率、构成比、u检验、X2检验。

22、计量资料的标准差不比标准误小。

标准误：

均数抽样误差的指标（示均数分布离散程度）。

（总体均数的估计和假设检验）

1、抽样误差：

由于抽样原因引起的样本均数与总体均数的差别。

2、标准误：

表示均数抽样误差大小的统计指标。

标准误越大，示均数分布的离散程度越大。

3、标准误的计算公式：

（标准差）除以（样本的开方）

计算标准误不必用到算术平均数

4、标准差与标准误的主要区别在于：

标准差大，表示变量值越分散（变量值离散程度的指标）；而标准误大，则均数分布的抽样误差大（均数分布离散程度的指标）。

5、要减小抽样误差，最切实可行的方法是：

增加样本例数。

6、t分布曲线有以下特点：

1）对称，以0为中心；2）中间高，两头低；3）t分布曲线下面积：

区间占总面积（总频数％）

（－t0.05，v，t0.05，v）

95％

（－t0.01，v，t0.01，v） 99％

t0.05，v称为概率为0.05，自由度为v的t界值，其中v=n-1。

当v→∞时，t分布就是u分布。

7、如t值不变，自由度v增大，则P值减小。

8、两样本均数比较的t检验，t< t0.05，v，则正确结论是：

μ1=μ2。

9、两样本均数比较的t检验，其计算公式的分母是：

两样本均数之差的标准误。

10、样本含量分别为n1和n2的两个小样本均数比较的t检验，自由度等于n1+n2-1。

11、配对计量资料比较的t检验公式的分母是：

差值均数的标准误。

12、计量资料两个大样本均数比较的u检验（双侧），α=0.05的界值是1.96。

13、假设检验可分成两种：

检验假设（用H0表示）、备择假设（用H1表示）。

14、t检验中，t＞t0.05，v，P＜0.05，拒绝检验假设H0，其基本依据是：

H0成立的可能性很小，可以认为其不能成立。

15、第一类错误：

当客观实际H0成立，而统计判断却拒绝H0。

它的概率为α（0.05）。

第二类错误：

当客观实际H0不成立，而统计判断又不拒绝H0。

它的概率为β。

客观实际H0不成立，而统计判断能正确拒绝的概率为1－β，常把1－β称为把握度。

16、某假设检验，检验水准α=0.05，其意义是：

当无效假设正确时，平均在100次抽样中有5次推断是错误的。

17、统计学中的小样本为＜50；大样本为＞50。

（方差分析）

1、方差分析的目的是：

检验两个或多个总体均数是否相同。

2、完全随机设计的方差分析的基本思想是：

SS总＝SS组内＋SS组间。

3、SS总是指数值资料的总变异，实际上是一组变量值总的离均差平方和。

SS总可被分解为组间离均差平方和与组内离均差平方和两部分。

4、完全随机设计的方差分析中的组间均方是：

反映了随机误差和可能存在的处理因素的综合结果。

完全随机设计的方差分析中的组内均方是：

反映了个体差异和测量误差的综合结果。

5、完全随机设计的方差分析中，统计量F值是正数。

F＝SS组间 / SS组内

1、随机区组设计的方差分析中，必然有：

SS总＝SS配伍＋SS误差＋SS处理

2、完全随机设计的方差分析中，总自由度等于总例数减1，组间自由度等于处理组数减1，三种自由度的关系是：

υ总＝υ组内（υ2）＋υ组间（υ1）

3、在方差分析中，多个样本均数间各均数的两两比较，常用q检验。

（分类资料的统计描述）

1、某地某年肝炎发病人数占同年传染病人数的10％，这是一种什么指标？

答：

构成比。

2、定基比是以一个固定时期的水平为基础，环比是与前一期水平之比，两者均属相对比。

3、平均发展速度是各环比发展速度的几何平均数。

平均发展速度减1即为平均增减速度。

4、平均发展速度的计算公式为：

G＝

a0为最初水平，an为最末水平。

5、常用的相对数包括：

相对比、构成比、率。

6、关于标准化率：

计算标化率只是便于资料间的相互比较，它不反映某地某时期的实际情况；由于选择的标准不同，算得的标化率也不同，但谁高谁低的关系不变；进行几个标化率比较时，应采用同一标准；标化率作为比较的基础，仅反映一种相对水平。

7、率的标准化的理解：

不同的内部构成，其实质是除研究因素外的混杂因素；由于被比较因素会受到内部构成比的影响，当两组资料的内部构成比明显不同时，资料不具可比性；标准化法的目的是均衡两组资料的混杂因素的影响水平，增强其可比性；对同一组资料的几个样本率比较时应采用统一标准。

8、标准选取时，应遵循的原则是：

应尽量选择具有代表性的较稳定且数量较大的同类人群作标准；标准人群的调查时间最好与被标化资料一致或接近；将相互比较的人群资料合并后作标准，是率的标准化的一种常用手段；同一资料用不同标准所得标化率大小不同，所以比较时要采用统一标准。

（率的抽样误差与u检验）

1、在对两个样本率作假设检验时，P值越小，两个样本率的差别越大。

2、在样本率和总体率比较的假设检验中，率的抽样误差的大小表示由于抽样误差而引起的样本率和总体率之间的差别。

3、表示率的抽样误差大小的统计指标是：

率的标准误，其计算公式为：

sp＝

4、要减小率的抽样误差，最切实可行的方法是：

增加观察例数，因为率的抽样误差的数值与

成反比。

5、率的标准误越小，抽样得到的样本率的抽样误差越小，可靠程度越大。

6、样本率与总体率比较的u检验，若u＞u0.05，则P＜0.05

7、两样本率比较的u检验的备择假设是：

π1≠π2

8、区间越窄，估计精度越高。

如何理解？

例如：

甲乙的阳性率均为30％，但甲样本量为100，乙样本量为30，则乙阳性率的95％可信区间范围比甲的大，乙比甲更可信。

9、总体率的区间估计时，α值越大，可信程度越低。

10、两个样本率比较的假设检验中，α水准一定时，μ值越大于μα，犯第一类错误的可能性就越小。

（χ2检验）

1、四格表中四个格子的基本数字是：

两对实测阳性和阴性人数。

2、χ2的基本公式为：

χ2＝

χ2的专用公式为：

χ2＝

A为实际数，T为理论数。

3、四格表χ2检验的检验假设是：

π1＝π2；备择假设是：

π1≠π2。

4、χ2值越大，P值越小。

成组分类资料，可用卡方检验。

5、四格表χ2检验主要用于两个样本率（或构成比）的比较，根据样本信息推断总体率（或构成比）有否差别。

6、应用四格表χ2检验的基本公式和专用公式的条件是：

n≥40，且T≥5

7、当n≥40时，但1≤T＜5时，需对的基本公式和专用公式给予校正。

其公式为：

χ2＝

或 χ2＝

8、配对计数资料χ2检验公式为：

χ2＝

（记住其分子）

9、行×列表χ2检验，若P＜0.05，则至少有两个总体率（或构成比）有差别。

10、行×列表χ2检验，应注意：

不宜有1/5以上的格子数的1≤T＜5或一个格子T＜1。

（秩和检验）

1、秩和检验是一种非参数统计方法。

它的优点是：

方法简便，且可适用于任何分布类型的资料（不受分布限制），特别是适用于按等级资料分组检验两种处理方法有否差别。

它的缺点是：

对符合t检验和方差分析的资料，若用秩和检验会损失部分计量资料，降低检验效能。

2、配对计量资料，差值分布不接近正态分布，应选用配对比较的符号秩和检验。

3、两样本比较的秩和检验中，检验假设为：

两个样本的总体分布相同；备择假设为：

两个样本的总体分布不同。

4、分布类型不清的计量资料宜用：

秩和检验。

5、等级资料的比较宜用：

F检验。

6、两样本比较的秩和检验，若无效假设H0成立，则表示：

两个样本来自分布相同的两个总体。

（直线相关与回归）

相关：

主要研究变量间的相关程度回归：

主要研究变量的依存关系

两变量存在相关关系，但不一定是因果关系（依存关系）

1、散点呈直线趋势，当x增加y减小时，可初步判断两变量为负相关关系。

↘

2、散点分布在同一直线上，x增加时y值增大，可初步判断两变量关系：

完全正相关。

↗

3、相关系数是用来说明两变量间相关关系的密切程度和方向的统计指标；相关系数没有单位；相关系数的绝对值一定是≤1的，在r有统计学意义的前提下，其数值越接近1，表示变量间的相关程度越密切。

ρ（总体相关系数），r（样本相关系数）

4、样本相关系数r的取值范围是：

－1≤ r ≤1

5、若r＝0.30，经检验P＞0.05，则可认为两变量不存在相关关系。

6、直线相关又称积差相关；相关分析的应用条件是：

x、y服从双变量正态分布；直线相关是参数统计的分析方法之一；适用于作直线相关（积差相关）分析的资料，如选用等级相关的分析方法（如秩和检验），会使检验效能降低。

7、等级相关是一种非参数统计分析方法；其分析计算简便，适用面广；X，Y所属总体的分布类型未知时，建议采用等级相关的分析方法；具有半定量性质原始数据适宜作等级相关。

8、ρ（表示总体相关系数），r（表示样本相关系数）。

ρ＞0时称为正相关；ρ＜0时称为负相关；ρ＝0时称为无相关；ρ＝1时称为完全正相关；ρ＝－1时称为完全负相关。

－1≤ρ≤1。

等级相关系数的绝对值小于或等于1，等级相关系数绝对值愈接近1，说明相关程度愈密切。

但r≠0，并不意味这ρ≠0，必须进行假设检验，以判断ρ是否等于0。

9、两组资料如甲组的回归系数大，则甲组的相关系数r可能大也可能小。

10、表示两变量之间回归关系强度的指标是：

决定系数。

决定系数即相关系数的平方，即：

r2。

11、若决定系数r2为0.81，则相关系数为

＝

＝0.09，其说明两变量间回归关系的强度较大，或者说Y的总变异中有81％是由于X的改变而产生的。

12、在分析相关系数r时应注意：

得│r│值后，尚需作假设检验才能确定x与y有无线性关系。

（统计表与统计图）

1、统计表的基本结构包括：

标题、纵横标目、线条和数字。

标题

顶线↓

纵标目

隔线↓

横标目

数字资料

底线↓

2、正确编制统计表的要求：

标题是统计表的名称，写在表体的上方；线条不宜过多，一般只需顶线、隔线、底线，特别不应有左上角的斜线；横标目用以说明横栏数字的含义，纵标目用以说明横标目的各个统计指标；数字一律用阿拉伯数字填写，同一指标小数的位置要一致，位次要对齐，暂缺或未记录用“…”表示，无数字可用“－”表示，数字若是零则写“0”，不可用空格表示；表内不列备注栏，不用文字说明，特殊情况需说明可用星号“*”标出，并在表体下面说明“*”号含义。

3、

图形

资料性质

分析目的

条图

相互独立

用直条长短表示数值大小

计数资料

圆图

构成比

用圆的扇形面积表达内部构成比

计数资料

线图

连续性资料

用线段的升降表达事物的动态（差值）变化

计量资料

直方图

数值变量的频数表资料

用直方面积表达各组段的频数或频率

计量资料

散点图

双变量资料

用点的密集度和趋势表达两变量间的相关关系

4、某地区建国以来三种疾病的发病率在各年度的升降速度，宜绘制：

半对数线图。

（调查设计和实验设计）

1、按照调查的范围不同，可将调查分为：

全面与非全面调查。

2、非全面调查包括：

抽样调查和典型调查。

3、抽样调查必须遵循的原则是：

对照、重复、随机化（均衡）原则。

4、检验效能为：

1－β，如：

估计样本含量，β＝0.1，此时检验效能＝0.9。

5、单纯随机抽样时，估计率的样本含量的计算公式：

uα2p（1－p）/δ2

估计均数的样本含量的计算公式：

uασ2/δ2

6、估计样本含量的目的：

是在一定精度和检验效能的前提下确定最少的观察单位数。

7、确定样本含量的多少应考虑到：

总体中观察单位变异程度的大小；抽样允许误差的大小；检验效能和Ⅰ类错误的概率的大小；抽样的方法。

8、从抽样误差的角度讲（从大到小）：

整群抽样≥单纯随机抽样≥系统抽样≥分层抽样。

9、实验设计的三个基本要素是：

实验因素、实验对象、实验效应。

10、实验设计的四个基本原则是：

对照、随机、重复、均衡原则。

11、要求各实验组与对照组在非实验因素方面尽可能一致的原则是：

均衡原则。

12、设立均衡对照的目的是：

使对比组间非实验因素的影响尽量一致，提高组间可比性。

13、用抓阄的方法随机抽取部分观察单位组成样本，此方法为：

单纯随机抽样。

将总体划分为若干群，然后从中随机抽取若干群，对中选的各群所有观察单位进行全面调查。

此方法为：

整群抽样。

将总体中各观察单位编号，按一定标志排列起来，然后按一定的间隔距离抽取观察单位，此方法为：

系统抽样（机械抽样）。

按某种特征将总体分为若干组，然后再按各组（层）所包含的观察单位数的多寡，从中抽取一定数目的观察单位，合并各层中抽取的观察单位组成样本。

此方法为：

分层抽样。

（居民健康统计）

1、反映生育水平的统计指标：

粗出生率＝

×1000‰

某年平均人口数＝1/2（上年底人口数＋本年底人口数）

总生育率＝

×1000‰（平均）

年龄组生育率＝

×1000‰（可消除内部年龄构成不同的影响）

总和生育率＝n（年龄组组距，通常为5）×各年龄别生育率之和（一生中平均）

2、反映人口再生育情况的统计学指标：

自然增长率＝粗出生率－粗死亡率

3、反映计划生育工作情况的统计指标：

避孕现用率＝

×100％（100个妇女中已采用避孕的人数）

人工流产率＝

×100％

人流活产比＝

×100％

计划生育率＝

×100％

节育率＝

×100％

独生子女领证率＝

×100％

4、常用人口统计指标：

粗死亡率＝

×1000‰

某年平均人口数＝1/2（上年底人口数＋本年底人口数）

年龄别死亡率＝

×1000‰

标准化死亡率：

即各年龄组分配死亡率之和。

分配死亡率＝各年龄组的标准人口年龄构成比，取小数（Px）×年龄组死亡率（Mx），标准化死亡率＝

婴儿死亡率＝

×1000‰

新生儿死亡率＝

×1000‰

围产儿死亡率＝

×1000‰

5岁以下儿童死亡率＝

×1000‰

孕产妇死亡率＝

×100 000/10万

死因别死亡率＝

×100 000/10万

死因构成比＝

×100 000/10万

5、计算标准化死亡率的目的是：

比较年龄结构不同人群的死亡水平。

6、简略寿命表的出生时平均预期寿命综合反映了各年龄组死亡率水平。

7、编制某地某年男性简略寿命表所需的原始数据有：

各年龄组平均人口数及实际死亡人数。

8、对平均预期寿命影响最大的原始数据是：

婴儿死亡资料。

9、简略寿命表中的“年龄组死亡率（nMx）”不是由假定的一代人推算得到的。

10、编制简略寿命表时，假定有同时出生的一代人是指：

0岁组的尚存人数。

11、定群寿命表与现实寿命表均不受人口年龄结构的影响。

12、现实寿命表是根据某地某年人口的年龄别死亡率编制的。

利用现实寿命表可以比较不同时期、不同地区的死亡水平。

13、利用定群寿命表的资料和方法研究妇女的生育过程。

14、反映某地某年十万人中，因某病死亡人数的指标：

死因别死亡率。

15、全部死亡人数中，死于某死因者所占比重的指标：

死因构成百分比。

展开阅读全文