卫生统计学网上教案.doc

资源描述

卫生统计学网上教案.doc

《卫生统计学网上教案.doc》由会员分享，可在线阅读，更多相关《卫生统计学网上教案.doc（143页珍藏版）》请在冰豆网上搜索。

卫生统计学网上教案.doc

《卫生统计学》网上教案 2

第一章绪论 2

第一节卫生统计学的定义和内容 3

第二节统计工作的步骤 4

第三节统计学中的几个基本概念 5

第四节学习卫生统计学应注意的问题 8

第二章定量资料的统计描述 8

第一节数值变量资料的频数表 8

第二节集中趋势的统计描述指标 10

第三节离散程度的统计描述指标 12

第三章正态分布及其应用 14

第一节正态分布的概念和特征 14

第二节正态分布的应用 16

第四章总体均数的估计和假设检验 18

第一节抽样研究与抽样误差 18

第二节t分布 21

第三节总体均数的估计 23

第四节假设检验的基本步骤 24

第五节样本与总体比较的假设检验 26

第六节配对设计（paireddesign）资料的假设检验 27

第七节两样本比较的假设检验 28

第八节第一类错误与第二类错误 29

第五章方差分析 30

第一节方差分析的基本思想 31

第二节完全随机设计的单因素方差分析（one-wayANOVA） 34

第三节随机区组设计的两因素方差分析（two-wayANOVA） 36

第四节多个样本均数间的多重比较 39

第五节多个样本的方差齐性检验 43

第六节变量变换 44

第六章定性资料的统计描述 45

第七章二项分布与Poisson分布及其应用 48

第一节二项分布的概念与特征 48

第二节二项分布的应用 51

第三节Poisson分布的概念与特征 52

第四节Poisson分布的应用 55

第八章c2检验 58

第一节四格表资料的c2检验 58

第二节配对四格表资料的c2检验 60

第三节四格表资料的Fisher确切概率法 62

第四节行×列表资料的c2检验 64

第五节多个样本率比较的c2分割法 65

第六节频数分布拟合优度的c2检验 69

第九章秩和检验 70

第一节　配对设计和单样本资料的符号秩和检验 71

第二节完全随机化设计两独立样本的秩和检验 73

第三节完全随机化设计多组独立样本的秩和检验 74

第四节随机化区组设计资料的秩和检验 75

第五节多个样本间的多重比较 77

第六节小结 80

第十章直线回归与相关 81

第一节直线回归 81

第二节直线相关分析 90

第三节等级相关 94

第四节曲线拟合 96

第十二章统计表和统计图 99

第十三章实验设计 105

第一节实验设计的特点及分类 106

第二节实验设计的基本要素 106

第三节实验设计的基本原则 109

第四节常用的实验设计方法 123

第十四章调查设计 131

第一节调查研究的特点 131

第二节调查设计的基本原则与内容 132

第三节常用的抽样方法 134

第四节调查的质量控制 134

第十五章医学人口统计学与疾病统计常用指标 135

第一节医学人口统计常用指标 135

第二节疾病统计常用指标 140

《卫生统计学》网上教案

第一章绪论

学时分配：

2学时

掌握内容：

1、卫生统计学的定义

2、统计工作的步骤

3、统计学中的几个基本概念

4、学习卫生统计学应注意的问题

了解内容：

卫生统计学的内容

第一节卫生统计学的定义和内容

1、卫生统计学的定义

统计学（statistics）是研究数据的收集、整理和分析的一门科学，帮助人们分析所占有的信息，达到去伪存真、去粗取精、正确认识世界的一种重要手段。

卫生统计学（healthstatistics）是应用数统计学的原理与方法研究居民健康状况以及卫生服务领域中数据的收集、整理和分析的一门科学。

Webster国际大辞典（第三版）对统计学的定义是“asciencedealingwiththecollection,analysis,interpretationandpresentationofnumericaldata”。

LastJM主编的一本流行病学辞典对统计学的定义是“thescienceandartofdealingwithvariationindatathroughcollection,classificationandanalysisinsuchawayastoobtainreliableresults”。

由此看出：

统计学是处理资料中变异性的科学和艺术，是在收集、归类、分析和解释大量数据的过程中获取可靠结果的一门学科。

这里强调了“过程”，但在实际工作中，许多人往往是忽略了设计、收集和归类（整理），到了分析数据时才想到统计学，此时难免发生“悔之晚矣”的憾事。

作为统计学的应用者应充分认识到这一点。

2、卫生统计学的内容：

1）健康统计：

医学人口统计、疾病统计和生长发育统计等；

2）卫生服务统计：

包括卫生资源利用、医疗卫生服务的需求、医疗保健体制改革等方面的统计学问题。

本教材的主要内容为：

1）卫生统计学的基本原理和方法：

包括统计描述（定量资料和分类资料的描述性指标以及常用统计图表）、常见的理论分布及其应用（正态分布、二项分布与Poisson分布）、总体参数的估计（分总体均数、总体率和总体平均数）、假设检验（t检验、u检验、方差分析、χ2检验、秩和检验等）、回归与相关、多元线性回归与logistic回归、实验设计和调查设计（第2～第14章）；

2）健康统计：

医学人口与疾病统计中常用的指标（第15章）、寿命表（第16章）、生存率分析（第17章）；

3）常用的综合评价方法（第18章）。

第二节统计工作的步骤

统计学对统计工作的全过程起指导作用，任何统计工作和统计研究的全过程都可分为以下四个步骤：

1、设计（design）：

在进行统计工作和研究工作之前必须有一个周密的设计。

设计是在广泛查阅文献、全面了解现状、充分征询意见的基础上，对将要进行的研究工作所做的全面设想。

其内容包括：

明确研究目的和研究假说，确定观察对象、观察单位、样本含量和抽样方法，拟定研究方案、预期分析指标、误差控制措施、进度与费用等。

设计是整个研究工作中最关键的一环，也是指导以后工作的依据（详见第13、14章）。

2、收集资料（collection）：

遵循统计学原理采取必要措施得到准确可靠的原始资料。

及时、准确、完整是收集统计资料的基本原则。

卫生工作中的统计资料主要来自以下三个方面：

①统计报表：

是由国家统一设计，有关医疗卫生机构定期逐级上报，提供居民健康状况和医疗卫生机构工作的主要数据，是制定卫生工作计划与措施、检查与总结工作的依据。

如法定传染病报表，职业病报表，医院工作报表等。

②经常性工作记录：

如卫生监测记录、健康检查记录等。

③专题调查或实验。

3、整理资料（sortingdata）：

收集来的资料在整理之前称为原始资料，原始资料通常是一堆杂乱无章的数据。

整理资料的目的就是通过科学的分组和归纳，使原始资料系统化、条理化，便于进一步计算统计指标和分析。

其过程是：

首先对原始资料进行准确性审查（逻辑审查与技术审查）和完整性审查；再拟定整理表，按照“同质者合并，非同质者分开”的原则对资料进行质量分组，并在同质基础上根据数值大小进行数量分组；最后汇总归纳。

4、分析资料（analysisofdata）：

其目的是计算有关指标，反映数据的综合特征，阐明事物的内在联系和规律。

统计分析包括统计描述（descriptivestatistics）和统计推断（inferentialstatistics）。

前者是用统计指标与统计图（表）等方法对样本资料的数量特征及其分布规律进行描述（详见第2、6、12章）；后者是指如何抽样，以及如何用样本信息推断总体特征（详见第4、5、7、8、9、10、11、17、18章）。

进行资料分析时，需根据研究目的、设计类型和资料类型选择恰当的描述性指标和统计推断方法。

统计工作的四个步骤紧密相连、不可分割，任何一步的缺陷，都将影响整个研究结果。

第三节统计学中的几个基本概念

1、同质（homogeneity）与变异（variation）

严格地讲，同质是指被研究指标的影响因素完全相同。

但在医学研究中，有些影响因素往往是难以控制的（如遗传、营养等），甚至是未知的。

所以，在统计学中常把同质理解为对研究指标影响较大的、可以控制的主要因素尽可能相同。

例如研究儿童的身高时，要求性别、年龄、民族、地区等影响身高较大的、易控制的因素要相同，而不易控制的遗传、营养等影响因素可以忽略。

同质基础上的个体差异称为变异。

如同性别、同年龄、同民族、同地区的健康儿童的身高、体重不尽相同。

事实上，客观世界充满了变异，生物医学领域更是如此。

哪里有变异，哪里就需要统计学。

若所研究的同质群体中所有个体一模一样，只需观察任一个体即可，无须进行统计研究。

2、总体（population）与样本（sample）

任何统计研究都必须首先确定观察单位（observedunit），亦称个体（individual）。

观察单位是统计研究中最基本的单位，可以是一个人、一个家庭、一个地区、一个样品、一个采样点等。

总体是根据研究目的确定的同质观察单位的全体，或者说，是同质的所有观察单位某种观察值（变量值）的集合。

例如欲研究山东省2002年7岁健康男孩的身高，那么，观察对象是山东省2002年的7岁健康男孩，观察单位是每个7岁健康男孩，变量是身高，变量值（观察值）是身高测量值，则山东省2002年全体7岁健康男孩的身高值构成一个总体。

它的同质基础是同地区、同年份、同性别、同为健康儿童。

总体又分为有限总体（finitepopulation）和无限总体（infinitepopulation）。

有限总体是指在某特定的时间与空间范围内，同质研究对象的所有观察单位的某变量值的个数为有限个，如上例；无限总体是抽象的，无时间和空间的限制，观察单位数是无限的，如研究碘盐对缺碘性甲状腺病的防治效果，该总体的同质基础是缺碘性甲状腺病患者，同用碘盐防治；该总体应包括已使用和设想使用碘盐防治的所有缺碘性甲状腺病患者的防治效果，没有时间和空间范围的限制，因而观察单位数无限，该总体为无限总体。

在实际工作中，所要研究的总体无论是有限的还是无限的，通常都是采用抽样研究。

样本是按照随机化原则，从总体中抽取的有代表性的部分观察单位的变量值的集合。

如从上例的有限总体（山东省2002年7岁健康男孩）中，按照随机化原则抽取100名7岁健康男孩，他们的身高值即为样本。

从总体中抽取样本的过程为抽样，抽样方法有多种，详见第14章。

抽样研究的目的是用样本信息推断总体特征。

统计学好比是总体与样本间的桥梁，能帮助人们设计与实施如何从总体中科学地抽取样本，使样本中的观察单位数（亦称样本含量，samplesize）恰当，信息丰富，代表性好；能帮助人们挖掘样本中的信息，推断总体的规律性。

3、资料（data）与变量（variable）及其分类

总体确定之后，研究者应对每个观察单位的某项特征进行测量或观察，特征称为变量。

如“身高”、“体重”、“性别”、“血型”、“疗效”等。

变量的测定值或观察值称为变量值（valueofvariable）或观察值（observedvalue），亦称为资料。

按变量的值是定量的还是定性的，可将变量分为以下类型，变量的类型不同，其分布规律亦不同，对它们采用的统计分析方法也不同。

在处理资料之前，首先要分清变量类型。

1）数值变量（numericalvariable）：

其变量值是定量的，表现为数值大小，可经测量取得数值，多有度量衡单位。

如身高（cm）、体重（kg）、血压（mmHgkPa）、脉搏（次/min）和白细胞计数（×109/L）等。

这种由数值变量的测量值构成的资料称为数值变量资料，亦称为定量资料（quantitativedata）。

大多数的数值变量为连续型变量，如身高、体重、血压等；而有的数值变量的测定值只能是正整数，如脉搏、白细胞计数等，在医学统计学中把它们也视为连续型变量。

2）分类变量（catagoricalvariable）：

其变量值是定性的，表现为互不相容的类别或属性。

分类变量可分为无序变量和有序变量两类：

（1）无序分类变量（unorderedcategoricalvariable）是指所分类别或属性之间无程度和顺序的差别。

，它又可分为①二项分类，如性别（男、女），药物反应（阴性和阳性）等；②多项分类，如血型（O、A、B、AB），职业（工、农、商、学、兵）等。

对于无序分类变量的分析，应先按类别分组，清点各组的观察单位数，编制分类变量的频数表，所得资料为无序分类资料，亦称计数资料。

（2）有序分类变量（ordinalcategoricalvariable）各类别之间有程度的差别。

如尿糖化验结果按－、±、＋、＋＋、＋＋＋分类；疗效按治愈、显效、好转、无效分类。

对于有序分类变量，应先按等级顺序分组，清点各组的观察单位个数，编制有序变量（各等级）的频数表，所得资料称为等级资料。

变量类型不是一成不变的，根据研究目的的需要，各类变量之间可以进行转化。

例如血红蛋白量（g/L）原属数值变量，若按血红蛋白正常与偏低分为两类时，可按二项分类资料分析；若按重度贫血、中度贫血、轻度贫血、正常、血红蛋白增高分为五个等级时，可按等级资料分析。

有时亦可将分类资料数量化，如可将病人的恶心反应以0、1、2、3表示，则可按数值变量资料（定量资料）分析。

4、随机事件（randomevent）与概率（probability）

医学研究的现象，大多数是随机现象，对随机现象进行实验或观察称为随机试验。

随机试验的各种可能结果的集合称为随机事件，亦称偶然事件，简称事件。

例如用相同治疗方案治疗一批某病的患者，治疗转归可能为治愈、好转、无效、死亡四种结果，对于一个刚入院的患者，治疗后究竟发生哪一种结果是不确定的，可能发生的每一种结果都是一个随机事件。

对于随机事件来说，在一次随机试验中，某个随机事件可能发生也可能不发生，但在一定数量的重复试验后，该随机事件的发生情况是有规律可循的。

概率是描述随机事件发生的可能性大小的数值，常用P表示。

例如，投掷一枚均匀的硬币，随机事件A表示“正面向上”，用n表示投掷次数；m表示随机事件A发生的次数；f表示随机事件A发生的频率（f=m/n），0≤m≤n,0≤f≤1。

用不同的投掷次数n作随机试验，结果如下：

m/n=8/10=0.8,7/20=0.35,……,249/500=0.498,501/1000=0.501,10001/2000=0.5000，由此看出当投掷次数n足够大时,f=m/n→0.5，称P（A）=0.5，或简写为：

P=0.5。

当n足够大时，可以用f估计P。

随机事件概率的大小在0与1之间，即0

P越接近1，表示某事件发生的可能性越大；P越接近0，表示某事件发生的可能性越小。

P＝1表示事件必然发生，P＝0表示事件不可能发生，它们是确定性的，不是随机事件，但可以把它们看成随机事件的特例。

若随机事件A的概率P（A）≤a，习惯上，当a=0.05时，就称A为小概率事件。

其统计学意义是小概率事件在一次随机试验中不可能发生。

例如，某都市大街上疾驶的汽车撞伤行人的事件的发生概率为1/万，但大街上仍有行人，这是因为“被撞”事件是小概率事件，所以行人认为自己上街这“一次试验”中不会发生“被撞”事件。

“小概率”的标准a是人为规定的，对于可能引起严重后果的事件，如术中大出血等，可规定a=0.01，甚至更小。

第四节学习卫生统计学应注意的问题

卫生统计学是从事公共卫生领域研究和工作的必要基础。

预防医学专业的学生在学习本课程时应注意：

1、医学生在学习过程中必须运用逻辑思维方法掌握卫生统计学的基本知识、基本技能、基本概念和基本方法。

切忌死记硬背、生搬硬套，应通过实例提高综合分析问题的能力。

2、掌握调查设计和实验设计的原则，培养收集、整理、分析统计资料的系统工作能力。

在统计工作中要以实事求是、严谨的科学态度对待原始资料，反对伪造和篡改统计数字。

通过学习这门课程，逐步树立起实事求是、严谨的工作作风。

3、在学习统计指标与分析方法时，应重点掌握统计公式的意义、用途和应用条件，不必深究其数学推导。

最终掌握正确的分析思路：

进行资料分析时，需根据研究目的、设计类型和资料类型选择恰当的描述性指标和统计推断方法。

（王洁贞）

第二章定量资料的统计描述

学时分配：

4学时

掌握内容：

1、频数表的编制

2、集中趋势的描述

3、离散趋势的描述

第一节数值变量资料的频数表

统计描述是用统计指标、统计图或统计表描述资料的分布规律及其数量特征。

频数表是统计描述中经常使用的基本工具之一。

1．频数表（frequencytable）的编制

在观察值个数较多时，为了解一组同质观察值的分布规律和便于指标的计算，可编制频数分布表，简称频数表。

（1）求全距（range）：

找出观察值中的最大值与最小值，其差值即为全距（或极差），用R表示。

（2）确定组段和组距：

根据样本含量的大小确定“组段”数，一般设8-15个组段，观察单位较少时组段数可相对少些，观察单位较多时组段数可相对多些，常用全距的1/10取整做组距，以便于汇总和计算。

第一组段应包括全部观察值中的最小值，最末组段应包括全部观察值中的最大值，并且同时写出其下限与上限。

各组段的起点和终点分别称为下限和上限，某组段包含下限，但不包含上限，其组中值为该组段的（下限+上限）/2。

相邻两组段的下限之差称为组距。

（3）列表划记：

确定组段界限，列成表2.1的形式，采用计算机或用划记法将原始数据汇总，得出各组段的观察例数，即频数，表中的第

（1）、（3）栏即所需的频数表。

表2.1某地110名18岁男大学生身高（cm）均数的频数表

2．频数分布的特征

由频数表可看出频数分布的两个重要特征：

集中趋势（centraltendency）和离散程度（dispersion）。

身高有高有矮，但多数人身高集中在中间部分组段，以中等身高居多，此为集中趋势；由中等身高到较矮或较高的频数分布逐渐减少，反映了离散程度。

对于数值变量资料，可从集中趋势和离散程度两个侧面去分析其规律性。

3．频数分布的类型

频数分布有对称分布和偏态分布之分。

对称分布是指多数频数集中在中央位置，两端的频数分布大致对称。

偏态分布是指频数分布不对称，集中位置偏向一侧，若集中位置偏向数值小的一侧，称为正偏态分布；集中位置偏向数值大的一侧，称为负偏态分布，如冠心病、大多数恶性肿瘤等慢性病患者的年龄分布为负偏态分布。

临床上正偏态分布资料较多见。

不同的分布类型应选用不同的统计分析方法。

4．频数表的用途

可以揭示资料分布类型和分布特征，以便选取适当的统计方法；便于进一步计算指标和统计处理；便于发现某些特大或特小的可疑值。

第二节集中趋势的统计描述指标

描述一组同质观察值的平均水平或中心位置的常用指标有均数、几何均数、中位数等。

1．均数（mean，average）：

是算术均数（arithmeticmean）的简称。

常用表示样本均数，表示总体均数。

均数用于反映一组同质观察值的平均水平，适用于正态或近似正态分布的数值变量资料。

其计算方法有：

（1）直接法：

用于样本含量较少时，其公式为：

（2.1）

式中，希腊字母Σ（读作sigma）表示求和；X1，X2，…，Xn为各观察值；n为样本含量，即观察值的个数。

（2）加权法（weightingmethod）：

用于频数表资料或样本中相同观察值较多时，其公式为：

（2.2）

式中，X1，X2，…，Xk与f1，f2，…，fk分别为频数表资料中各组段的组中值和相应组段的频数（或相同观察值与其对应的频数）。

2．几何均数（geometricmean）用G表示，适用于①对数正态分布，即数据经过对数变换后呈正态分布的资料；②等比级数资料，即观察值之间呈倍数或近似倍数变化的资料。

如医学实践中的抗体滴度、平均效价等。

其计算方法有

（1）直接法：

或（2.3）

（2）加权法：

（2.4）

注意：

计算几何均数时观察值中不能有0，因0不能取对数；一组观察值中不能同时有正或负值。

3．中位数（median）用表示。

中位数是一组由小到大按顺序排列的观察值中位次居中的数值。

中位数可用于描述①非正态分布资料（对数正态分布除外）；②频数分布的一端或两端无确切数据的资料③总体分布不清楚的资料。

在全部观察中，小于和大于中位数的观察值个数相等。

（1）直接法：

将观察值由小到大排列，按式（2.6）或式（2.7）计算。

为奇数,（1.5）

为偶数,（1.6）

式中下标、、为有序数列的位次。

、、为相应位次的观察值。

（2）频数表法：

用于频数表资料。

计算步骤是：

①计算的大小，并按所分组段由小到大计算累计频数和累计频率，如表2.1第（3）、（4）栏；②确定所在组段。

累计频数中大于的最小数值所在的组段即为所在的组段；或累计频率中大于50%的最小频率所在的组段即为所在的组段。

③按式（2.7）求中位数。

（2.7）

式中：

L、i、分别为所在组段的下限、组距和频数；为小于L的各组段的累计频数。

例1.1由表2.1计算中位数M。

表2.1199名食物中毒患者潜伏期的M和PX的计算

潜伏期（小时）

（1）

人数f

（2）

累计频数Σf

（3）

累计频率（%）

（4）=（3）/n

0～

15.1

12～

101

50.8

24～

150

75.4

36～

178

89.4

48～

192

96.5

60～

198

99.5

72～84

199

100.0

合计

199

本例n=199，根据表2.3第

（2）栏数据，自上而下计算累计频数及累计频率，见第（3）、（4）栏。

，由第（3）栏知，101是累计频数中大于99.5的最小值，或由第（4）栏知50.8%是大于50%的最小的累计频率，故M在“12～”组段内，将相应的L、i、f50、代入（2.8），求得M。

M=P50==12+12/71（199×50%-30）=23.75（小时）

4．百分位数（percentile）用Px表示。

一个百分位数Px将一组观察值分为两部分，理论上有X%的观察值比它小，有（100-X）%的观察值比它大，是一种位置指标。

中位数是一个特定的百分位数，即M=P50。

百分位数的计算步骤与中位数类似，首先要确定Px所在的组段。

先计算，累计频数中大于的最小值所在的组段就是Px所在组段。

计算见公式（2.8）。

（2.8）

式中：

L、i、fx分别为Px所在组段的下限、组距和频数；为小于L的各组段的累计频数。

百分位数用于描述一组数据某一百分位位置的水平，多个百分位数的结合应

展开阅读全文