卫生统计学考试重点总结复习.docx

资源描述

卫生统计学考试重点总结复习.docx

《卫生统计学考试重点总结复习.docx》由会员分享，可在线阅读，更多相关《卫生统计学考试重点总结复习.docx（16页珍藏版）》请在冰豆网上搜索。

卫生统计学考试重点总结复习.docx

卫生统计学考试重点总结复习

一、绪论

1.总体：

根据研究目的确定的同质观察单位的全体，确切的说是同质的所有观察单位某种变量值的集合。

2.样本：

从总体中随机抽取部分观察单位所组成的集合。

3.参数：

用样本的指标来推算或估计出来的，用来说明总体情况的统计指标。

4.统计量：

根据观察值计算出来的量，是用来描述和分析样本的统计指标。

5.变量的类型及其转换：

①定性变量：

a.分类变量（计数资料）i.二分类变量

ii.多项无序分类

b.有序变量（等级资料）

②定量变量：

a.连续型变量

b.离散型变量

变量只能由“高级”向“低级”转化：

定量→有序→分类→二值。

6.概率：

是描述随机事件发生的可能性大些的数值。

7.卫生统计学的内容包括：

统计学是一门处理数据中变异性的科学与艺术，内容包括收集、分析、解释和表达数据，目的是求得可靠的结果。

8.卫生统计学：

运用概率论和数理统计的原理和方法并结合医学实践来研究医学资料的搜集、整理、分析与推断的一门学科。

9.卫生统计学的研究对象：

有变异的事物。

10.统计工作的一般步骤：

设计资料、搜集资料、整理资料、分析资料。

11.同质：

指同一总体中个体的性质、影响条件、背景相同或非常相近。

12.变异：

同一总体内的个体间存在差异又是绝对的，这种现象称为变异。

13.误差可分为：

系统误差、随机测量误差、抽样误差。

14.抽样误差：

由于个体差异的存在，从某一总体中随机抽取一个样本，所得样本统计量与总体参数之间可能存在差异，这种差异称为抽样误差。

二、定量资料的统计描述

1.频率分布表的编制步骤：

①计算极差R、②确定组段数与组距（一般为8-15组）、③确定各组段的上下限、④列表。

2.频率分布表的用途：

①揭示频数分布的分布特点和分布类型，文献中常将频数表作为陈述资料的形式。

②便于进一步计算统计指标和进行统计分布处理。

③便于发现某些特大和特小的可疑值。

④当样本含量比较大时，可用各组段的频率作为概率的估计值。

3.中位数：

指将原始观察值从小到大或从大到小排序后，位次居中的那个数。

4.四分位数间距：

表示百分位数P75和百分位数P25之差，定义为Q=P75-P25，恰好包括总体中50%的个体观察值，用来描述偏态分布资料的离散趋势的指标。

5.标准差：

即方差的算术平方根，是衡量对称分布资料的离散程度的指标，标准差大，则离散度大，标准差小，则离散度小。

6.变异系数：

变异的大小S相对于其平均水平X的百分比，主要用于量纲不同的变量间，或均数差别较大的变量间变异程度的比较。

三、定性资料的统计描述

1.构成比：

说明一事物内部各组成部分在总体中所占的比重或分布，常用百分数表示。

=某一组成部分的观察单位数/同一事物内部各组成部分的观察单位总数×100%

2.相对数的类型：

①频率型指标：

近似的反映某一事件出现的机会大小，如发病率、死亡率。

=某事件发生的个体数/可能发生某事件的个体数×K

②强度型指标：

反映单位时间段内某现象发生的频率，多用于大人群长时间随访的资料，如人时发病率、人时感染率。

=某事件发生的个体数/∑（可能发生某事件的个体数×时间）×K

③相对比型指标：

是AB两个有联系的指标之比，对比的两个指标可以性质相同，也可以不同。

=A指标/B指标（常见男女性别比）

3.应用相对数时的注意事项：

①防制概念混淆。

②计算相对数时，分母应有足够的数量。

③正确的合并估计频率型指标。

④相对数的对比应注意可比性。

⑤对样本相对数的统计推断，应进行参数估计和假设检验。

⑥注意率和构成比之间的差别。

4.标准化法的基本思想：

标准化法是指当比较两个或多个总率时，若比较的两组或多组内部构成明显不同，需按统一指标进行调整，使之具有可比性的方法。

基本思想：

采用统一标准构成以消除某因素的内部构成不同对总率的影响，使通过标准化后的标准化率具有可比性。

四、统计表和统计图

1.统计表的种类：

简单表、复合表。

2.统计图的分类：

①条图：

用等宽直条的长度来表示参与比较的指标的大小，分为单式和复式两种。

表示指标数值的坐标尺度必须从0点开始。

②百分条图：

用于表示事物中各部分的比重或构成。

③圆图：

同上。

④线图：

用线段的升降来表示统计指标的变化趋势，或某现象随另一现象的变迁情况，适用于连续型变量资料。

纵横的尺度可以不从0开始，一般纵横比例5:

7。

⑤对半数线图：

用于表示事物的发展速度（相对比）。

⑥散点图：

用点的密集程度、趋势表示两变量间的相对关系，

⑦直方图：

常用于表示连续型变量资料的频数或频率分布。

纵轴的刻度必须从0点开始。

⑧统计地图：

主要用于表示某种现象在地域空间上的分布，根据不同地方某种现象的数值大小，采用不同密度的线条或不同颜色绘在地图上，有助于分析该现象的地理分布特征，为进一步研究提供线索。

⑨箱式图：

用于描述连续型变量资料的分布特征，它表现连续型变量资料的5个百分位数，即P2.5、P25、P50、P75、P97.5。

3.统计表的构成：

标题、标目、线条、数字和备注。

五、常用的概率分布：

1.二项分布的图形特征：

①高峰在μ=nπ处或附近。

②π为0.5时，图形是对称的。

π离0.5愈远，对称性愈差。

③对同一π，随着n的增大，分布趋于对称。

当n→∞时，只要π不太靠近0或者1，二项分布趋于对称。

2.Poisson分布的特性：

①Poisson分布的总体均数与总体方差相等，均为λ。

②Poisson分布的观察结果有可加性。

3.正态分布的图形特点：

①关于x=μ对称。

②在x=μ处取得该概率密度函数的最大值，在x=μ±σ处有拐点。

③曲线下面积为1。

④μ决定曲线在横轴上的位置，μ增大，曲线沿横轴向右移；反之，μ越小，曲线沿横轴向左移。

⑤σ决定曲线的形状，当μ均衡定时，σ越大，数据越分散，曲线越“矮胖”；σ越小，数据越集中，曲线越“瘦高”。

4.正态分布的应用：

①概率估计②确定医学参考值范围③实验误差的质量控制④统计处理方法的理论基础

5.95%医学参考值范围：

指特定的“正常”人群的解剖、生理、生化指标及组织代谢产物含量等数据中95%个体的取值所在的范围。

6.二项分布的应用：

概率估计、累积概率计算。

7.Poisson的应用：

概率估计、累积概率计算。

8.二项分布、Poisson分布、正态分布的区别与联系：

二项分布、Poisson分布是离散型概率分布，用概率函数描述其分布状况，而正态分布是连续型概率分布，用密度函数和分布函数描述其分布状况。

Poisson分布可以视为n很大而π很小的二项分布。

当n很大而π和1-π都不是很小的时候二项分布渐近正态分布，但λ≥20的时候Poisson分布渐近正态分布。

六、参数估计基础

1.抽样误差：

由于生物固有的个体变异的存在，从某一总体中随机抽取一个样本，所得样本统计量与相应的总体参数往往是不同的，这种差异称为抽样误差。

2.标准误：

用于表示均数抽样误差的指标叫样本均数的标准差，也称样本均数的标准误。

3.参数估计：

统计学中通过抽样来估计总体参数，称为参数估计。

4.样本均数的标准误与原变量的标准差的区别：

样本均数的标准误可以反映样本均数之间的离散程度及抽样误差的大小。

样本均数的标准误与原变量的标准差的区别在于：

前者是表示均数变异的指标，后者是表示观察值变异的指标。

两者的联系是，当样本量n一定时，标准误随标准差的大小而变化。

5.t分布是总体均数的区间估计和假设检验的基础。

6.t分布图形的特征：

①单峰分布，以0为中心，左右对称。

②ν越小，t值越分散，曲线的峰部越矮，尾部越高。

③随着ν逐渐增大，t分布逐渐接近标准正态分布。

④t分布不是一条曲线，而是一簇曲线，当n确定时，t分布为一条曲线。

7.置信区间：

按预先给定的概率1-α，估计总体参数的可能范围，该范围就称为总体参数的1-α置信区间。

8.区间估计：

将样本统计量与标准误结合起来，确定一个具有较大置信度的包含总体参数的范围，该范围称为总体参数的置信区间。

9.CI的两个要素：

①准确度：

反映置信度1-α的大小，即区间包含总体均数的概率大小。

②精度：

反映区间的长度，在置信区间确定的情况下，提高样本例数可以提高精度。

七、假设检验基础

1.假设检验：

由样本信息对相应总体进行推断时，对所估计的总体首先提出假设，然后通过样本数据去推断是否拒绝这一假设，称为假设检验，即检验样本指标与总体指标或样本指标与样本指标之间有无差别。

2.假设检验的原理：

①反证法思想：

首先提出假设，用适当的统计方法确定假设成立的可能性大小，如果可能性小，则认为假设不成立，拒绝它，如果可能性大，还不能认为它不成立。

②小概率原理：

是指小概率事件在一次随机试验中基本不会发生。

3.假设检验的步骤：

①建立检验假设，确定检验水准

②选择检验方法，计算统计量

③确定P值

④做出推断

4.假设检验应注意的问题：

①要有严密的研究设计。

②应用检验方法必须符合其适用条件。

③适当选择检验水准α。

④正确理解P值的意义。

⑤做结论不能绝对化。

⑥统计结论与专业结论相结合。

5.Ⅰ类错误：

如果实际情况与H。

一致，仅仅由于抽样的原因，使得统计量的观察值落到拒绝域，拒绝了原本正确的H。

，导致推断结论错误，这样的错误称为Ⅰ类错误。

6.Ⅱ类错误：

如果实际情况与H。

不一致，仅仅由于抽样的原因，使得统计量的观察值落到接受域，接受了原本错误的H。

，导致推断结论错误，这类错误称为Ⅱ类错误。

7.t检验的应用条件：

①来自正态分布总体。

②两独立样本。

③均数比较时要求两总体方差相等。

④定量资料。

8.配对设计的种类：

异体配对、自身配对。

9.小概率事件：

在一次观察或实验中某事件发生的可能性很小，可以看作很可能不发生，通常取P≤0.05。

10.P值：

在零假设成立的条件下，出现统计量目前值及更不利于零假设数值的概率。

11.假设检验功效：

1-β称为假设检验的功效，其意义是，当所研究的总体与H。

确有差别时，按检验水平α能够发现它（拒绝H。

）的概率。

12.检验水准的确定：

需要根据研究设计的类型、研究目的、变量类型及变异水平、样本大小等诸多因素。

八、方差分析

1.方差分析的基本思想：

根据资料的设计类型及研究目的，即按变异的不同来源将全部观察值间的总变异分为两部分或多个部分，其自由度也分解为相应的部分，除随机误差外，其余每个部分的变异也可由某个因素的作用加以解释，通过比较可能由某因素所致变异的均方与随机误差的均方，借助F分布作出统计推断，从而了解该因素对观测指标有无影响。

2.方差分析的应用条件：

①各样本是相互独立的随机样本。

②各样本来自正态总体。

③个处理组总体方差相等。

3.方差分析是用于研究定量变量数据的统计方法。

九、卡方检验

1.卡方检验的主要应用：

常用于分类变量资料的统计推断。

推断两个或对个样本率及构成比之间有无差别，检验分类变量配对设计下的卡方检验，以及频数分布的拟合优度。

2.卡方检验的注意事项：

拟合优度：

a.一般要求分组时每组中的理论频数不小于5；b.需要有足够的样本含量，不够时须经连续性校正。

2×2列联表：

a.校正公式仅用于ν=1的四格表资料，对于ν≥2时的多组样本分布，一般不作校正；b.当n<40或T<1时，校正公式也不适用，可以用Fisher确切检验。

R×C列联表：

a.一般不宜有1/5以上的格子的理论频数小于5，或不宜有一个理论频数小于1。

解决方法：

①增加样本含量；②结合专业知识合并该格所在行或列；③改用Fisher确切概率法。

3.卡方检验理论频数太小的解决方法：

①增大样本例数

②删除理论数太小的行或列

③将理论数太小的行或列进行合理的合并

④直接用Fisher确切概率法计算

十、基于秩次的非参数检验

1.参数检验：

以特定的总体分布为前提，对未知的总体参数作推断的假设检验方法统称为参数检验，也叫参数统计。

2.非参数检验：

不依赖于总体的分布类型，也不对总体参数进行推断时的假设检验。

3.参数检验和非参数检验的区别及优缺点：

分布

对象

优点

缺点

参数检验

总体分布已知

总体参数

精确性高，检验效能高

对资料要求高，计算繁琐，理解困难

非参数检验

总体分布类型未知，难以用某种具体的函数形式表达

总体分布

适用范围广，资料收集，分析简便

易犯Ⅱ类错误，检验效能低，易损失信息

4.非参数检验的适用范围：

①分布类型未知。

②能以严重程度优劣等级效果大小和名次先后等表示的等级资料。

③分布极度偏态。

④个别变量值偏离过大远离本组其他变量值（极大值、极小值）或开口资料。

⑤方差不齐时。

⑥筛选或只需获得初步结果时。

5.配对设计资料编秩次的步骤：

依差值的绝对值由小到大编秩，并按差值的正负标上正负号，遇差值为0，舍去不计，n随之减少，遇绝对值相等差值，取平均秩次。

6.秩和检验的优缺点：

优点：

①适用范围广。

②方法简便、易于理解和掌握。

缺点：

损失信息量，适用于参数检验条件的非参数检验，检验效能降低。

十一、两变量关联性分析

1.线性相关：

如果两个随机变量中，一个变量由小到大变化时，另一个变量也相应地由小到大（或由大到小）地变化，并且直线趋势，就称这两个变量存在直线相关关系。

2.线性（积距）相关系数及其特点：

定量描述两个变量间线性关系密切程度和相关方向的统一指标。

ρ≠0两变量线性相关，ρ=0两变量不相关。

3.线性相关应注意的问题：

①样本的相关系数接受零时并不意味着两变量间一定无相关性。

②一变量的数值人为选定时莫作相关。

③出现异常点时慎用相关。

④相关未必真有内在联系。

⑤分层资料盲目合并易出现假象。

4.秩相关的条件：

①不服从双变量正态分布不宜作积差相关。

②总体分布类型未知。

③用等级表示的原始资料。

5.秩相关和线性相关有何异同：

联系：

①两者都可用于两变量间线性相关的方向与密切程度，其取值范围与数值大小的统计学意义解释也相同。

②两者都要求个体间满足独立性。

③Spearman秩相关系数的计算可采用对秩次的Pearon积距相关系数的计算来实现。

相关系数的含义、单位、取值范围一致，且计算公式相同，不同一个直接用原始的定量数据，另一个则要用等级数据。

区别：

①Pearon积距相关要求数据服从二元正态分布，属于参数统计量；而Spearman秩相关不要求正态分布，属于非参数统计量。

②两者总体参数的假设检验方法不完全相同（主要是ρ和ρs的分布不同）。

6.线性相关和线性回归的区别与联系：

区别：

①资料要求：

线性相关要求X、Y服从双变量正态分布，对这种资料进行回归分析称为Ⅱ型回归，即可以把X当自变量，也可以当因变量，反之亦然。

线性回归要求Y在给定X值时服从正态分布,X可以是精确测量和严格控制的变量，这时的回归称为Ⅰ型回归，即不可以把X当因变量，Y当自变量进行回归分析。

②应用：

线性相关用来表达两个变量间的互依关系，两个变量的研究地位是相等的，谁做X，谁做Y都可以；线性回归用来表达两个变量间的依存关系，即一个变量如何依存于另一个变量而变化，两个变量的研究地位是不相等的。

③意义：

相关系数r说明具有线性关系的两个变量之间的密切程度和相关方向；回归系数b表示X每变化一个单位所导致Y的变化量。

④取值范围：

-1≤r≤1，-∞

联系：

①符号：

对于既可做相关又可作回归的同一组资料，计算出的r和b正负号相同。

②假设检验：

对于同一组资料，相关系数和回归系数的假设检验等价。

即tr=tb。

③相互换算：

对于同一组资料，相关系数和回归系数可通过下式换算：

b=r

，式中的Sx、Sy分别为X、Y数据的标准差。

④用回归解释相关：

有决定系数R

可知，当总平方和固定时，回归平方和的大小决定了相关的密切程度，回归平方和越接近总平方和，则R

越接近1，相关的效果越好。

说明回归效果越好，相关的密切程度也越高。

十二、简单回归分析

1.回归系数：

b为回归直线的斜率，也是通过X推算Y的回归系数，表示当X变动一个单位时，Y平均变动b个单位。

2.直线相关与回归的区别与联系：

区别：

⑴资料：

回归：

①Y为正态随机变量，X为选定变量②X、Y服从双变量正态分布