卫生统计学复习资料.docx

资源描述

卫生统计学复习资料.docx

《卫生统计学复习资料.docx》由会员分享，可在线阅读，更多相关《卫生统计学复习资料.docx（24页珍藏版）》请在冰豆网上搜索。

卫生统计学复习资料.docx

卫生统计学复习资料

科研方法

第三章

实验设计的基本要素：

实验设计的基本要素包括处理因素、受试对象和实验效应三个组成部分。

实验设计的四原则：

对照原则

均衡原则

随机原则

重复原则

随机原则：

使实验组和对照组非处理因素趋于一致或均衡的主要手段是随机化。

随机化的方法有多种，最常使用的是利用随机数字表和随机排列表（或称随机化分组表）。

拉丁方设计：

用r个拉丁字母排成r行r列的方阵，使每行及每列中每个字母都只出现一次，这样的方阵称为r阶拉丁方，或r×r拉丁方

正交设计

正交设计：

正交设计是一种高效、快速的多因素试验方法。

它是利用一套规格化的正交表，使每次试验的因素及水平得到合理安排，通过试验结果的分析，获得有用的信息。

除了分析主因素外，还可分析交互作用。

非条件logistic回归的公式，目的，用途

统计学

第一章

统计学家用总体这个术语来表示大同小异的对象全体。

我们试图就某个总体下结论，这个总体便称为目标总体。

资料常来源于目标总体中的一个部分，它称为研究总体。

科学的办法是从研究总体中抽取少量有代表性的个体，称为抽样。

一些个体处于同一总体，就是指他们大同小异，具有同质性。

同一总体内的个体间存在差异又是绝对的，这种现象称为变异。

本书把变量分成定性与定量两种类型。

定性变量中最常见的是分类变量或名义变量。

最简单也最常用的分类变量是二分类变量。

另一类定性变量是有序变量或等级变量。

定量变量可以分为两种类型，离散型变量和连续型变量。

离散型变量只能取整数值。

连续型变量可以取实数轴上的任何数值。

变量只能由“高级”向“低级”转化：

定量→有序→分类→二值；不能作相反方向的转化。

在定量变量中，离散型变量常常通过适当的变换或连续性校正后借用连续型变量的方法来分析。

理论上，正态分布有两个参数：

总体均数和总体方差。

这种由观察资料计算出来的量称为统计量。

第二章

对连续型定量变量，频率分布表的编制步骤如下：

（1）计算极差（R），也称为全距，即数据最大值与最小值之差。

（2）确定组段数与组距，变量值个数较多时，组段数一般取10左右。

每个组段的起点称为组段的下限，终点称为组段的上限，组距为上下限之差，按“组距≈R/预计的组段数”来估计。

（3）确定各组段的上、下限，分组时，第一组段应包含最小值，为了计算方便，组段下限一般取较整齐的数值。

最后一个组段应包含最大值，在确定各组段的上下限，注意各组段要连续但不能重叠，故除最后一个组段外，其余组段应包含其下限值，不包含其上限值。

（4）列表

直方图（频率直方图），其横轴为血清铁含量，纵轴为频率密度，即频率/组距（直条面积等于相应组段的频率）。

在组距相等时，直方图中矩形直条的高度与相应组段的频率成正比。

可以看到，直方图的面积之和等于1,。

其值的分布具有对称的特点，这类分布常被称为对称分布。

频率分布是不对称的，这类分布称为偏峰分布。

一般称这种峰向左侧偏移的分布为正偏峰分布。

而峰向右侧偏移的分布称为负偏峰分布。

集中趋势与离散趋势，集中趋势与离散趋势同时存在，是总体分布的两个重要特征，描述集中趋势和离散趋势可较全面的反映所研究的变量。

1.算术均数（mean），算术均数简称均数，总体均数用希腊字母μ表示，样本均数用表示。

（1）直接法：

计算公式为：

其中n为样本含量，X1，X2，…，Xn为观察值。

大写的希腊字母Σ（读作sigma）。

（2）频率表法：

计算公式为：

其中f为各组段的频数，X0为各组段的组中值，X0=（组段上限+组段下限）/2。

各组段的频数在这里起了“权数”的作用，各组段的频率（f/n）称为权重系数。

故频率表法也称加权法。

2.几何均数G，几何均数适用于原始观察值分布不对称，但经对数转换后呈对称分布的资料，如对数正态分布资料。

（1）直接法：

计算公式为：

（2）频率表法：

3.中位数（M），中位数是指将原始观察值从小到大或从大到小排序后，位次居中的那个数。

（1）直接法：

样本量n为奇数时

n为偶数时

其中表示将n例观察值从小到大排列后的第i个顺位的观察值。

百分位数（Px）是一个数值，它将原始观察值分成两部分，理论上有x%的观察值小于Px，有1—x%的观察值大于Px。

百分位数P50就是中位数。

对频率表资料，百分位数Px的计算公式为：

其中L为欲求的百分位数所在组段的下限，i为该组段的组距，为截止至L的累计频数，为截止至L+i的累计频数，—为该组段内的频数，n为总频数。

4.众数，众数原指总体中出现机会最高的数值。

同一总体中不同个体间存在的差异称为变异。

1.极差（R），也称全距，定义为最大值与最小值之差，极差越大意味着数据越离散，或者说数据间变异越大。

2.四分位数间距（Q），百分位数P75和百分位数P25分别称为上四分位数和下四分位数。

四分位数间距表示百分位数P75和百分位数P25之差，定义为Q=P75-P25。

同类资料比较，Q越大意味着数据间变异越大。

四分位数间距可用于各种分布的资料，特别对偏锋分布资料，常把中位数和四分位数间距结合起来描述资料的集中趋势和离散趋势。

3.方差，又称为均方差，总体方差用Var（X）或表示，其计算公式为：

其中μ为总体均数，N为总体中个体例数。

称为离均差平方和，其意义是总体内所有观察值与总体均数差值的平方之和。

同类资料比较时，方差越大意味着数据间离散程度越大，或者说资料的变异度越大。

样本方差用表示，其计算公式为：

其中为样本均数，n为样本含量。

任何统计量的自由度v=n—限制条件的个数。

4.标准差，在统计应用中更常用的变异度指标是方差的计算平方根，称为标准差。

标准差越大意味着观察值的离散程度越大，或者说变异度越大。

方差和标准差都适用于对称分布的资料。

总体标准差常用表示，样本标准差用S表示，其计算公式为：

5.变异系数（CV）,变异系数主要用于量纲不同的变量间，或均数差别较大的变量间变异程度的比较。

其计算公式为：

变异系数越大，意味着相对于均数而言，变异程度越大。

1.偏度系数（SKEW），计算公式为：

其中n为样本含量，为样本均数；S为样本标准差。

理论上总体偏度系数为0时，分布是对称的；取正值时，分布为正偏峰；取负值时，分布为负偏峰。

2.峰度系数（KURT），计算公式为：

其中n为样本含量，为样本均数；S为样本标准差。

理论上，正态分布的总体峰度系数为0；取负值时，其分布较正态分布的峰平阔；取正值时，其分布较正态分布的峰尖峭。

为了解定量变量的分布规律，可编制频率表并绘制频率表分布图，用于描述资料的分布特征（集中趋势与离散趋势），以及分布类型（对称或偏峰）。

第三章

定性变量分为多分类变量和二分类变量，这些变量均可以通过频率分布表描述其分布特征。

强度型指标是指单位时间内某现象发生的频率。

计算公式为：

其中，K可以是100%，或1000/1000，或/等。

相对比型指标是指两个有关联的指标A与B之比，实际应用中简称比。

发病率（IR）表示一定时期内，在可能发生某病的一定人群中新发生某病的强度。

患病率（PR）又称为现患率，指某时点上受检人数中现患某种疾病的频率，通常用于描述病程较长或发病时间不易明确的疾病的患病情况，如慢性病在某一时间横断面的患病情况。

治愈率表示受治病人中治愈的频率。

生存率指病人能活到某一时点的概率。

标准化法的关键是选择一个“标准”，在这个共同的“平台”上比较两组资料。

“标准”的选择，通常有三种做法：

①选定两组之一，将其作为“标准”；②两组合并，作为“标准”；③在两组之外另选一个群体，如采用全国、全省或全地区的对象，将其作为“标准”。

一般地，设有一个重要的分类变量，它在两组个体（j=1，2）中分布不同；已知第j组每个类别中发生某事件的频率，i=1,2,…。

（1）选定“标准入口”，每个类别中的个体数记为，i=1,2,…。

（2）分别计算“标准入口”的预期治愈人数之和，j=1,2。

（3）分别计算两种治疗法的标准化治愈率

第五章

正态曲线是一条高峰位于中央，两侧逐渐下降并完全对称，曲线两端永远不与横轴相交的钟形曲线。

该曲线的函数表达式称为正态分布密度函数，

其中，μ为总体均数，σ为总体标准差。

正态概率密度曲线的位置与形状具有如下特点：

（1）关于x=μ对称。

（2）在x=μ处取得该概率密度函数的最大值，在x=μ+σ处有拐点。

（3）曲线下面积为1.

（4）μ决定曲线在横轴上的位置，μ增大，曲线沿横轴向右移；反之，μ减小，曲线沿横轴向左移。

（5）σ决定曲线的形状，当μ恒定时，σ越大，数据越分散，曲线越“矮胖”；σ越小，数据越集中，曲线越“瘦高”。

习惯上用N（μ，）表示均数为μ、标准差为σ的正态分布。

Z变换与标准正态分布，对任意一个服从正态分布N（μ，）的随机变量，可作如下的标准化变换，也称Z变换，

经此变换得到的变量Z的密度函数为：

变换后的Z值仍然服从正态分布，且其总体均数为0、总体标准差为1。

我们称此正态分布为标准正态分布。

表内所列数据表示Z取不同值时Z值左侧标准正态曲线下面积，记作Φ（z）。

Φ（z）称为标准正态分布的分布函数。

故Z取值于（-1.96，1.96）的概率为1-2×0.025=0.95，即X取值在区间μ+1.96σ内的概率为0.95.

即大约在116.9cm与129.2cm之间。

正态分布的应用

1.确定医学参考值范围

（1）百分位数法

（2）正态分布法

2.质量控制图

3.二项分布

第六章

根据数理统计学原理，若随机变量X的均数为μ，方差为，则样本均数的均数仍为μ，样本均数的标准差，即均数的标准误为：

又根据正态分布原理，若随机变量X服从正态分布，则样本均数也服从正态分布，因此，若随机变量X~N（μ，）。

则样本均数X~N（μ，）。

根据二项分布原理，若随机变量X~B（n，π），则样本频率P=的总体概率为π，标准误为：

频率的标准误愈小，用样本频率估计总体概率的可靠性愈好；反之，频率的标准误愈大，用样本频率估计总体概率的可靠性愈差。

t值服从自由度v=n-1的t分布，即

t分布，又称Studentt分布，记作t~t（v）。

t分布十分有用，它是总体均数的区间估计和假设检验的理论基础。

t值的分布与自由度v有关。

t分布只有一个参数，即v。

t分布有如下特征：

①单峰分布，以0为中心，左右对称；②v越小，t值越分散，曲线的峰部越矮，尾部越高；③随着v逐渐增大，t分布逐渐接近标准正态分布；当v趋向∞时，t分布趋近标准正态分布，故标准正态分布是t分布的特例。

用同一个样本统计量分别估计总体参数的95%置信区间和99%置信区间，哪一个估计的精度更好？

为什么？

答：

95%置信区间精度更好.因为精确度是指区间范围的宽窄，范围越宽精确度越差，反之，范围越窄，精确度越高。

95%置信区间和99%置信区间所描述的是准确度，其是指说对的可能性大小，其由（1-α）算出，例如95%置信区间是指说错的可能性是5%，其范围宽度要小于99%置信区间。

所以95%置信区间精确度更高。

为了解中年男性高血压患病情况，有人在某市城区随机调查了2660名45~54岁的男性居民，检出高血压患者775例，试估计该市45~54岁男子高血压患病率的95%置信区间。

答：

分析每个患病患者可以记为1，无病的记为0.且n=2660>100，故该题服从u分布。

x（均值）≈0.291，α=0.05（双侧），uα=1.96，S=0.454,n=2660

=（0.274~0.308）

即该市45~54岁男子高血压患病率的95%置信区间为0.274~0.308。

第七章假设检验基础

1．本信息对相应总体的特征进行推断称为统计推断（statisticalinference）。

若对所估计的总体首先提出一个假设，然后通过样本数据去推断是否拒绝这一假设，称为假设检验（hypothesistesting）。

2．假设检验的步骤：

①建立检验假设，确定校验水准。

其中一个假设称为零假设（nullhypothesis），又称为原假设，记为H0。

另一个称为对立假设（alternativehypothesis），又称备择假设，记为H1。

②计算统计量，如t检验的统计量为：

公式

③确定P值，做出推断。

P值的定义是：

在零假设成立的条件下，出现统计量目前值及更不利于零假设数值的概率。

3．单样本资料t检验的统计量为：

公式。

4．配对设计（paireddesign）是一种比较特殊的设计方式，能够很好地控制非实验因素对结果的影响，有自身配对和非自身配对之分。

5．在医学科学研究中的配对设计主要适用于以下情况：

①异体配对。

②自身配对。

习题

1.某水样中含CaCO3含量的真值为20.70（mg/L），现用某法重复测定该水样11次，CaCO3含量（mg/L）为：

20.99，20.41，20.10，20.00，20.91，22.60，20.99，20.41，20.00，23.00，22.00，问：

用该法测CaCO3含量所得的均值与真值有无差异？

答：

1.建立检验假设

检验假设：

用该法测CaCO3含量所得的均值与真值无差异，即H0：

μ=μ0

备择假设：

用该法测CaCO3含量所得的均值与真值有差异，即H1：

μ≠μ0

2确定显著性水平α=0.05

3计算统计量

n=11，x（均值）≈21.04（mg/L），μ0=20.70（mg/L），Sx（均值）≈0.33

≈1.03

4确定概率值

n=11，自由度ν=11-1=10。

查表可得t0.05（10）=2.228

t0.05

5判断结果

因为P>0.05，所以接受检验假设H0，可以认为用该法测CaCO3含量所得的均值与真值无差异。

2.讨习惯性流产与ACA（抗心磷抗体）的IgG的关系，研究人员检测了33例不孕症（流产史>2次）妇女ACA的IgG，得样本均数为1.36单位，标准差为0.25单位；同时检测了40例正常（有1胎正常足月产史）育龄妇女ACA的IgG，相应样本均数为0.73单位，标准差为0.06单位。

习惯性流产者与正常妇女IgG水平是否不同？

答：

1.建立检验假设

检验假设：

习惯性流产者与正常妇女IgG水平相同，即H0：

μ1=μ2

备择假设：

习惯性流产者与正常妇女IgG水平不同，即H1：

μ1≠μ2

2确定显著性水平α=0.05

3计算统计量

x1（均值）=1.36单位，S1=0.25单位，n1=33；x2=0.73单位，S2=0.06单位，n2=40

=0.03（

）

≈15.43

4确定概率值

n1=33,n2=40,自由度ν=33+40-2=71。

查表可得t0.05（71）=1.9936

t>t0.05（71），P<0.05

5判断结果

因为P<0.05，所以拒绝检验假设H0，接受备择假设H1，差异有高度显著性，所以认为习惯性流产者与正常妇女IgG水平不相同.

3.将20只雌体中年大鼠均分为甲、乙两组，乙组中的每只大鼠接受3mg/kg的内毒素，甲组作为对照组，分别测得两组大鼠的肌酐（mg/L）如下：

甲（对照）组：

6.23.75.82.73.96.16.77.83.86.9

乙（处理）组：

8.56.811.39.49.37.35.67.97.28.2

试检验两总体均值之间有无差别？

答：

1.建立检验假设

检验假设：

两总体均值之间无差别，即H0：

μ1=μ2

备择假设：

两总体均值之间有差别，即H1：

μ1≠μ2

2确定显著性水平α=0.05

3计算统计量

x1（均值）=5.36（mg/L），S12=2.885（mg/L），n1=10；x2=8.15（mg/L），S22=2.549（mg/L），n2=10

=2.717（

）

≈3.785

4确定概率值

n1=10,n2=10,自由度ν=10+10-2=18。

查表可得t0.05（18）=2.101

t>t0.05（18），P<0.05

5判断结果

因为P<0.05，所以拒绝检验假设H0，接受备择假设H1，差异有高度显著性，所以认为两总体均值之间有差别。

4.某地用溴酚法与改进淀粉显色法测定碘盐含碘量（mg/kg），资料见表7-7。

表7-7用溴酚法与改进淀粉显色法测定碘盐含碘量（mg/kg）

样品号12345678910

溴酚法16.8419.0210.4414.8722.3124.8326.8931.0636.7641.67

改进法16.7919.2210.4015.1421.8924.8227.0031.4236.0740.99

问两法测定碘盐含碘量的结果是否相同？

1.建立检验假设

检验假设：

两法测定碘盐含碘量的结果相同，即H0：

μd=0

备择假设：

两法测定碘盐含碘量的结果不同，即H1：

μd≠0

2确定显著性水平α=0.05

3计算统计量

n=10，d（均值）=0.095，

=0.376

=0.119

=0.798

4确定概率值

n=10,自由度ν=10-1=9。

查表可得t0.05（9）=2.262

t0.05

5判断结果

因为P>0.05，所以接受检验假设H0，可以认为两法测定碘盐含碘量的结果相同。

5.两组肿瘤患者，单纯放疗组（A）13例，口服平消胶囊+放疗组（B）12例，接受放疗前后，血清Sil-2R水平（U/ml）如表7-8所示。

试评价平消胶囊对接受放疗患者血清Sil-2R水平的影响？

表7-8两组肿瘤患者的血清Sil-2R水平

A组No1234567

治疗前1183.03822.521294.00852.50568.89532.12896.36

治疗后983.08469.34704.39979.661040.33895.93612.27

No8910111213

治疗前530.46808.22375.441055.26614.55450.22

治疗后616.70870.141245.541753.671850.56538.45

B组No1234567

治疗前992.85767.33645.85709.54995.411043.401022.76

治疗后236.66293.00166.77204.81127.27186.63200.80

No89101112

治疗前486.27694.28871.44973.731063.76

治疗后151.47254.49178.09147.19111.22

答：

1.建立检验假设

检验假设：

平消胶囊对接受放疗患者血清Sil-2R水平无影响，即H0：

μ1=μ2

备择假设：

平消胶囊对接受放疗患者血清Sil-2R水平有影响，即H1：

μ1≠μ2

2确定显著性水平α=0.05

3计算统计量

x1（均值）=198.19（U/ml），S12=270402.912（U/ml），n1=13；x2=667.35（U/ml），S22=43351.344（U/ml），n2=12

=161813.032（

）

≈2.913

4确定概率值

n1=13,n2=12,自由度ν=13+12-2=23。

查表可得t0.05（23）=2.069

t>t0.05（23），P<0.05

5判断结果

因为P<0.05，所以拒绝检验假设H0，接受备择假设H1，差异有高度显著性，所以认为平消胶囊对接受放疗患者血清Sil-2R水平有影响。

第九章χ2检验

习题

1．简述本章χ2检验的用途。

答：

在许多实际问题中，事先并不知道总体的分布类型，此时首先需要根据样本对总体分布的种种假设进行检验，χ2检验就是这样的一种检验方法。

χ2检验的用途非常广泛，其主要有以下一些用途：

单样本分布的拟合优度；比较两个或多个独立样本频率或独立样本频率分布；比较配对设计两样本频率和两频率分布。

2．比较两个独立样本频率分别的χ2检验，和比较两个配对样本频率分布的χ2检验在设计方法、资料整理、假设检验等方面的差别是什么？

答：

两个独立样本频率分别的χ2检验，是在两样本相互独立的假设下推算出来的，而两个配对样本频率分布的χ2检验，这时的两样本不一定满足独立性，故而也不能用两个独立样本频率分别的χ2检验的方法进行假设检验。

两者在设计上，前者是两个独立样本，故而行合计是事先固定的，而后者因为两样本不一定满足独立性或者互不独立，虽然样本含量n是固定的，但是行合计与列合计确实事先不确定的。

在资料整理、假设检验方面，以2*2列联表资料的χ2检验为例，前者χ2统计量的计算中，a,b,c,d都对其结果产生影响，而后者对χ2统计量产生影响的仅为b和c。

3．如果实验效应用等级资料表示，欲比较两组总体效应间差别是否有统计学意义，为什么不能用χ2检验？

试举例说明。

4．为什么有些四格表（或R*C）表必须要计算确切概率？

答：

这是因为独立样本2*2列联表资料的χ2检验中，要求n不小于40，T不小于5。

但是往往在实际中获得的资料不满足这个要求，故而需要选择Fisher确切概率法进行检验假设。

Fisher确切概率法不属于χ2检验范畴，但是可以作为2*2列联表资料的χ2检验应用上的补充。

5．某医院收治186例重症乙型脑炎患者，随机分成两组，分别用同样的方剂治疗，但其中一组加一定量的人工牛黄，治疗结果如表9-17所示。

表9-17加人工牛黄治疗乙型脑炎效果

疗法治疗效果合计

治愈未愈

不加人工牛黄264571

加人工牛黄6847115

合计9492186

问加人工牛黄是否增加该方剂的疗效？

答：

1.建立检验假设，确定检验水准

H0：

π1=π2，即加人工牛黄不增加该方剂的疗效

H1：

π1≠π2

α=0.05

2.计算统计量

T11=35.88,T12=35.12,T21=58.12,T22=56.88

=8.899

3.确定P值，做出判断

自由度ν（2-1）（2-1）=1，查χ2临界值表，χ20.005

（1）=7.88，可知P<0.005.在α=0.05水平上拒绝H0，差异有统计学意义，可以认为两种方法的检出概率有差别，因为不加入人工牛黄治愈率为26/71=36.62%,加入人工牛黄治愈率为68/115=59.13%，可以认为加入人工牛黄的疗法治愈率高于不加入人工牛黄的疗法。

6.某研究人员观察了其他基本情况相似的60岁以上老人126名，其中患冠心病的52名，未患冠心病的74名，询问他们的食盐量情况，其结果如表9-18。

表9-18冠心病患病与食盐量情况

冠心病食盐情况合计

超标未超标

有361652

无423274

合计7848126

问冠心病和未患冠心病的老人食盐量超标的概率是否不同？

答：

1.建立检验假设，确定检验水准

H0：

π1=π2，即冠心病和未患冠心病的老人食盐量超标的概率相同

H1：

π1≠π2

α=0.05

2.计算统计量

T11=32.19,T12=19.81,T21=45.71,T22=28.19

=2.015

3.确定P值，做出判断

自由度ν（2-1）（2-1）=1，查χ2临界值表，χ20.05

（1）=3.84，可知P>0.05.在α=0.05水平上不拒绝H0，差异无统计学意义。

所以尚不能确认冠心病和未患冠心病的

展开阅读全文