卫生统计学第01章绪论.docx-资源下载

卫生统计学第01章绪论.docx

1、卫生统计学第01章绪论第01章绪论第一节概述【统计学】(statistics)：统计学是处理数据中变异性的科学与艺术，内容包括数据的收集 (collection)、分析(analysis)、解释（interpretation)和表达（presentation），目的是求得可靠的结果。第四版教材中概念：是研究数据的收集、整理、分析和推断的一门科学。第二节医学统计资料的来源与分类基本概念：【变量及变量值】：研究者对每个观察单位的某项特征进行观察和测量，这种特征称为变量，变量的测得值叫变量值（也叫观察值），也称为【资料】。定性变量分为：分类变量（无序分类变量）或名义变量包括：多分类变量、二

2、分类变量有序变量（有序分类变量）或等效变量定量变量分为：离散型变量（有缝隙）：只能取整数值连续型变量（无缝隙）：在实数轴上是连续的按变量值的性质可将资料分为：定性资料定量资料1.【定性资料】（分类资料、分类变量）定义：将全体观测单位按照某种性质或特征分组，然后再分别清点各组观察单位的个数。特点：没有度量衡单位多为间断性资料（通过枚举或记数得来）2.【定量资料】（计量资料、数值变量）定义：通过度量衡的方法，测量每个观察单位的某项研究指标的量的大小，得到的一系列数据资料。特点：表现为数值大小有度量衡单位多为连续性资料（通过测量得到）3.【等级资料】（有序变量）定义：介于计量资料和计数

3、资料之间的一种资料，通过半定量方法测量得到。特点：每一个观察单位没有确切值各组之间有性质上的差别或程度上的不同。第三节统计学中常用的几个基本概念1.总体与样本【总体】：根据研究目的确定的同质的、所有观察单位的某种变量值的集合。【样本】：从总体中随机抽取的、具有代表性的部分研究对象，其实测值的集合。2.随机抽样为了保证样本的可靠性和代表性，需要采用随机的方法抽取样本（在总体中每个个体具有相同的机会被抽到样本中）。3. 同质与变异【同质】：研究对象具有的相同的状况或属性等共性称同质或同质性；【变异】：对于同质的各观察单位，其某变量值之间的差异，称为变异。4. 误差【误差】：统计上所说的误

4、差泛指测量值与真值之差，样本指标与总体指标之差。主要有以下二种：系统误差和随机误差。【系统误差】：指数据搜集和测量过程中由于仪器不准确、标准不规范等原因，造成观察结果呈倾向性的偏大或偏小，这种误差称为系统误差。【随机误差】：由于一些非人为的偶然因素使得结果或大或小，是不确定、不可预知的。【抽样误差】：由于抽样原因造成的样本指标与总体指标之间的差别。（举例）特点：有抽样发生抽样误差就不可避免。统计上可以计算并在一定范围内控制抽样误差。减少抽样误差的方法:（1）改进抽样方法，增加样本的代表性；样本量 n 相等的情况下：整群抽样单纯随机抽样系统抽样分层抽样（2）增加样本量n ；（3）选择变异程

5、度较小的研究指标。5、频率与概率频率：样本的实际发生率称为频率。设在相同条件下，独立重复进行n次试验，事件A出现f 次，则事件A出现的频率为f/n。概率：随机事件发生的可能性大小，用大写的P 表示；取值0，1。频率与概率间的关系：1. 样本频率总是围绕概率上下波动；2. 样本含量n越大，波动幅度越小，频率越接近概率。6、参数与统计量参数：总体的统计指标，如总体均数、总体标准差，分别用希腊字母记为、。固定的常数统计量：样本的统计指标，如样本均数、标准差，采用拉丁字母分别记为 .参数附近波动的随机变量。7、统计描述与统计推断【统计描述】（descriptive statistics）：指

6、用统计指标、统计表、统计图等方法对资料的数量特征及分布规律进行测定和描述。【统计推断】（inferential statistics）：指如何抽样，以及如何由样本信息推断总体特征问题。第四节统计工作的基本步骤研究设计搜集资料整理资料分析资料结果表达一、研究设计设计的内容包括资料的收集、整理和分析全过程的设想和安排。分调查设计和实验设计。实验设计的三个基本原则1. 随机化（randomization）2. 对照（control）3. 重复（replication）二、收集资料（data collection）收集资料要遵循完整、准确、及时三个原则。三、整理资料（ sorting

7、 data ）目的是将搜集到的原始资料系统化、条理化，便于进一步计算与分析。四、分析资料（data analysis）运用各种统计分析方法，结合专业知识，从经过整理的资料中，计算出各种指标，进行统计描述和统计推断，反映数据的综合特征，阐明事物的内在联系与规律。1.【统计描述】（descriptive statistics）：指用统计指标、统计表、统计图等方法对资料的数量特征及分布规律进行测定和描述。2.【统计推断】（inferential statistics）：指如何抽样，以及如何由样本信息推断总体特征问题。? 总体均数、总体率的可信区间及其假设检验? 两个总体均数、总体率差值的可信

8、区间及其假设检验? 多个总体指标之间的假设检验。五、结果表达? 使用的统计学方法? 使用的统计学软件（sas、spss）? 假设检验的统计量、P值等? 结论第02章定量资料的统计描述第一节频数分布一、频数分布表（frequency distribution table）【频数】：当汇总大量的原始数据时，把数据按类型分组，其中每个组的数据个数，称为该组频数。【频数表（频数分布）】：表示各组及它们对应的组频数的表格称为频数表或频数分布。了解频数分布情况是研究资料第一步。二、编制频数分布表的步骤1）求极差（R）2）确定组段数、组距和各组段上下限3）统计各组段内的数据频数：即统计出各组段内

9、的数据个数（频数），即得频数表。4）频率与累计频率：三、频数表和频数分布图用途1描述频数分布的类型：对称分布、偏态分布（1）对称分布：若各组段的频数以中心位置左右两侧大体对称，就认为该资料是对称分布。（2）偏态分布：值集中位置偏向一侧，频数分布不对称。根据集中位置偏的方向，偏态分布又分为正偏态（或左偏态）和负偏态（或右偏态）两种。常将频率分布中某一组段频率较大，两侧相邻组段的频率渐次变小的现象称为“峰”。1）左偏态分布（正偏态分布）：这种峰向左侧偏移的分布为正偏态分布。 2）右偏态分布（负偏态分布）：峰向右偏移的分布称为负偏态分布。2.描述频数分布的集中趋势和离散趋势3便于发现一些特

10、大或特小的可疑值4便于进一步做统计分析和处理第二节集中趋势的描述常用的有：算术均数、几何均数、中位数、百分位数一、算术均数应用条件：均数最适用于对称分布，尤其是正态分布资料。因为这时均数位于中央，能反映观察值的集中趋势。当观察值个数较少，而其频数分布基本对称或从专业上可推断其总体为正态或近似正态者，也可用均数作为集中趋势指标。1、计算方法（1）直接计算法公式：（2）加权法(利用频数表）：当资料中出现相同观察值时，可将相同观察值的个数（即频数f）与该观察值x的乘积代替相同观察值逐个相加。公式：对于频数表资料计算加权均数时，式中x为组中值，f为与组中值相对应组段的频数。二、几何均数应用

11、条件：适用于原始数据分布不对称，但经过数据转换（对数转换）后呈对称分布的资料，也用于等比级变化的资料。 1、计算方法 2、加权法公式：三、中位数与百分位数(一)中位数应用条件：适用于任何分布的计量资料，其表达最好的是偏态分布计量资料，对于频数分布类型不明资料及开口资料（即一端或两端无界资料）也可应用。 1. 频数表资料的中位数可用百分位数法计算中位数。百分位数：将N个观察值从小到大依次排列，再分成100份，对应于X%位的数值即为第X百分位数，用PX来表示。中位数是百分位的特殊形式P50。设有n个原始数据从小到大排列，第X百分位数的计算公式为：四、众数（mode）适用于大样本；较粗糙。正

12、态分布时：均数中位数众数正偏态分布时：均数中位数众数负偏态分布时：均数中位数众数第三节离散趋势的描述一、极差（Range）极差，用R表示：即一组变量值最大值与最小值之差。简单，但仅利用了两端点值，稳定性差。二、四分位数间距（quartile range）四分位数间距，用Q表示：Q=P75-P25 下四分位数：上四分位数：三、方差与标准差总体方差样本方差（离均差平方和SS）2、样本标准差用 S 表示，其度量单位与均数一致，所以最常用。公式：公式： 3标准差的意义和用途说明资料的离散趋势(或变异程度)，标准差的值越大，说明变异程度越大，均数的代表性越差；标准差与原始

13、数据的单位一致，在科技论文报告中，均数与标准差经常被同时用来描述资料的集中趋势与离散趋势。用于计算变异系数用于计算标准误结合均值与正态分布的规律，估计正态曲线下的分布，参考值的范围。四、变异系数变异系数(CV) ：常用于比较度量单位不同或均数相差悬殊的两组(或多组)资料的变异程度。变异系数的不同之处：1.描述的是相对离散程度； 2.没有单位；应用：1.比较度量衡单位不同的多组资料的变异度；2.比较均数相差悬殊的多组资料的变异度；第03章定性资料的统计描述定性资料：将全体观察单位按照某种性质或特征分组，然后分别清点各组观察单位的个数。特点：1.无度量衡单位； 2.多为间断性资料（枚举、记数

14、）对定性资料进行统计描述的这些指标都是由两个相互联系的指标之比组成，所以又称相对数。第一节常用的相对数指标及其意义一、率：1、速率（rate）：单位时间内某现象发生的平均概率。如人时发病率，多用于大人群，长时间随访的资料。特点：与时间有关，如某年某病发病率、死亡率。（强度型指标）2.、比率：某现象实际发生数与可能发生某现象的总数之比，用以说明某现象发生的频率。特点：频率型指标，与时间无关。二、比：1、构成比（constituent ratio）：部分与全部之比。2.、相对比（relative ratio）：两指标之比。1、构成比（constituent ratio）特点：1.各部分构成比的合

15、计等于100%或1。2.事物内部某一部分的构成比发生变化时，其他部分的构成比也相应的发生变化。3.分子分母一定同质。2、相对比（relative ratio）：为两个相关指标之比，说明一个指标是另一个指标的几倍或百分之几。两个指标可能性质相同可能不同。【应用相对数时的注意事项】1.计算相对数的分母一般不宜过小。确保研究结果的稳定性。2.分析时不能用构成比代替率。（构成比说明某部分占全体的比重，率说明事物发生的频率。彼此计算不同，说明的问题也不同，但两指标同属于相对数的范畴，有时又都用100做基数，所以易于混淆）。3.注意不能用构成比的动态分析代替率的动态分析。4.对观察单位数不等的几个率，不

16、能直接相加求其总率。5.在比较相对数时应注意可比性。（如比较疗效时，比较组间应病情轻重相同，性别影响应按性别分组后再作比较）6.对样本率（或构成比）的比较应随机抽样，并作假设检验。（由于在抽样研究中，由于存在抽样误差，作率或构成比的比较时，不能仅凭表面数值的大小作结论，而需作假设检验）第二节率的标准化法意义：用统一的标准（如年龄别人口数、年龄别人口构成比、年龄别人死亡率），消除内部构成不同对平均率所产生的影响，使两组平均率具有可比性。一、方法的选择1.直接法：各年龄组死亡率pi已知，以年龄别人口数或年龄别人口构成比作为标准。2.间接法：总死亡人数和年龄别人口数（r或ni）已知，以年龄别死亡率

17、作为标准。二、标准的选取1、选一个具有代表性的、内部构成相对稳定的较大人群作为标准； 2、将要比较的两组资料内部各相应小组的观察单位数相加作为标准； 3、从要比较的两组中任选一组作为标准。三、标准化注意事项1、标准化时，我们假定某一项指标（如年龄别人口构成）不可比，其他指标均可比。对不可比指标进行标准化。2、选用的标准不同，得到的标化准率结果可能不同。因此标准化率只是两组的相对水平，不再反映实际的情况，只能用于比较。3、比较的两组应选用同一标准。4、标准化率也应作统计学假设检验第三节动态数列【动态数列】（dynamic series）：一系列按时间顺序排列起来的统计指标，用以观察和比较该事物

18、在时间上的变化和发展趋势。采用定基比和环比两种方式。常用指标：发展速度，绝对增长量，增长速度；平均发展速度与平均增长速度。绝对增长量：说明事物在一定时期增长的绝对值。发展速度与增长速度：均为相对比，说明事物在一定时期的变化情况。可计算定基比也可计算环比。增长速度=发展速度-100%第04章统计图表统计表基本结构包括：标题、标目、线条、数字、以及备注。统计图概念:用点的位置、线段的升降、直条的长短、面积的大小等来表达统计数据的一种形式。一、常用的统计图 1.直条图 2.百分条图、圆图 3.线图、半对数线图 4.直方图 5.散点图 6.统计地图 7.箱式图1.直条图【适用资料】：相互独立的

19、资料。应用：相互独立资料间的比较。 2.百分条图【适用资料】：构成比资料。3.圆图【适用资料】：构成比资料。应用：描述各部分的百分构成。 4.线图【适用资料】：连续性资料。应用：反映事物的连续的动态变化规律。 5.直方图【适用资料】：连续性变量的频数分布或频率分布。绘制要点：通常横轴代表变量值，要用相等的距离表示相等的数量。纵轴坐标要从0开始，表示频数与组距的比例。各矩形间不留空隙。对于组距相等的资料可以直接作图；组距不等的资料先进行换算，全部转化为组距相等的频数，用转化后的频数作图。6.散点图【适用资料】：双变量资料。绘制要点：横轴代表一个变量，纵轴代表另一个变量。纵横轴的坐标起

20、点不一定要从0开始，根据资料的情况而定。应用：反映两事物间的相关关系，主要用于相关回归分析。 7.箱式图用于描述连续型变量的分布特征，可进行多组数据的直观比较分析。第05章正态分布频率和概率概念复习一、频率和概率：【频率】：对于随机事件A，在相同的条件下进行了n次实验，事件A发生的次数为f，比值f/n为频率，记为fn(A)【概率】：描述某随机事件发生的可能性大小，记为P(A). 当?时，频率fn(A) ?概率P(A)二、频数分布和频率分布性质1、各个组段的频率之和（累计频率）2、频率密度图(纵坐标为频率/组距)：以各长方形的面积代表各组段的频率，纵轴为频率/组距，横轴为组距绘制的图形，

21、称为频率密度图。? 每个直方条的面积=纵坐标组距=（频率/组距）组距=频率? 各个直方条的面积之和各个组段的频率之和三、频率密度图性质(n?)? 现(n1110),假定在该地区随机抽了个岁男孩并且n?，则各个组段的频率?各自的概率? 身高为各个组段的概率各个组段的直方条面积? 各个组段的面积（概率）之和为四、概率密度曲线当n?，直方条面积(频率)?各自的概率，然后组距?时，直方条的宽度?，直方条?垂直线，各个直方条顶点间的连线构成一条光滑的曲线，即：频率/概率密度曲线，而曲线下(直方条)的总面积始终为，身高在区间a,b的概率对应曲线段下的面积(直方条面积) 。正态分布的概率密度一、正态曲线（n

22、ormal curve）：高峰位于中央，两侧逐渐下降并完全对称，曲线两端永远不与横轴相交的钟型曲线。正态曲线的函数表达式称为正态分布密度函数：二、正态分布的参数1.如果变量X的概率密度函数服从上述函数，则称该变量服从正态分布。记做2.总体均数(位置参数)：描述正态分布的集中趋势位置的； 3.总体标准差(形态参数)：描述正态分布离散趋势，越小，分布越集中，曲线形状越“瘦高”；反之越“矮胖”。正态曲线的形状由和两个参数决定。三、正态分布曲线的特点1.始终位于横轴上方；2.关于左右对称，正态高峰位于中央；3.在处取得该概率密度函数的最大值，在处有拐点，表现为钟形；4.靠近处曲线下面积

23、较为集中,两边减少,意味着正态分布变量取值靠近处的概率较大,两边逐渐减少；5. 决定曲线在横轴上的位置，增大，曲线沿横轴向右移，反之，减小，曲线沿横轴向左移；6. 决定曲线的形状，当恒定时，越大，数据越分散，曲线越“矮胖”，越小，数据越集中，曲线越“瘦高”；7.正态分布的总体偏度系数和峰度系数均为0；四、描述分布形态的统计指标：1.偏度系数（SKEW）：总体偏度系数为0时，分布是对称的；取正值时，分布为正偏峰；取负值时，分布为负偏峰。2.峰度系数（KURT）：正态分布的总体峰度系数为0；取负值时，其分布较正态分布的峰平阔；取正值时，其分布较正态分布的峰尖峭。五、正态分布曲线下面积1

24、正态分布变量X的取值为(-,)2任意两点x1，x2且(x1x2)，X在 (x1, x2)范围内取值的概率P,即正态分布曲线在(x1, x2)下面积。六、正态分布曲线的对称性质? 设服从，则正态曲线在=m处对称，正态曲线(-, m)处的曲线下面积为0.5,? 更一般的情况：概率七、标准正态分布N(0,1)对任意一个正态分布可以进行标准化变换，Z变换: 或变换后的随机变量Z服从标准正态分布, 即：ZN(0,1)特别：，则称服从为标准正态分布，记为N(0,1)八、正态分布应用1.确定医学参考值范围（reference range）医学参考值范围-绝大多数正常人的某项指标值范围。【“正常”人群】

25、：排除了影响所研究指标的疾病和有关因素的同质人群。大多数个体；90%，95%，99%等。由于存在个体差异，生物医学数据并非常数，而是在一定范围内波动，故采用医学参考值范围作为判定正常和异常的参考标准。统计方法：1.百分位数法:任何分布的指标；2.正态分布法:服从正态分布的指标3.注意:根据研究背景确定单双侧范围双侧：血清总胆固醇、血液白细胞数无论过低或过高均属异常单侧上限：血清转氨酶、体内有毒物质过高异常（越低越好, P5 ）确定医学参考值范围具体步骤如下：1. 根据研究背景确定研究对象的入选标准和排除标准。这类研究一般要求参加体检并且要求除研究指标血红蛋白指标外，其他指标均正常的对象。2

26、. 根据研究背景，确定血红蛋白过高或过低均属于不正常（双侧范围）。3血红蛋白检测的容许误差和研究背景容许误差的范围，确定受检者的样本量n。4由于在实际研究中，总体均数和方差均不知道的，需要用样本资料进行估计，所以一般至少在100人以上，这样参数估计的平均误差是资料的离散程度的/10以下。2. 如果受检指标血红蛋白近似服从正态分布，则可以用确定其95%参考值范围；3. 如果受检指标血红蛋白呈偏态分布，则可以用百分位数P2.5P97.5确定95%参考值范围，但样本量要充分大。4. 样本量充分大是相对于指标的变异程度而言，指标变异大，要求样本量大；指标变异程度小，要求样本量可以相对小一些。制定医学

27、参考值范围的步骤：1.选择合适的研究对象； 2.要求样本含量足够大； 3.确定取单侧还是双侧正常值范围；4.选择适当的百分界限（多用95%）； 5.选择正确的方法；正态近似法：适用于正态分布或近似正态分布百分位数法：适用于偏态分布资料2.质量控制图原理：如果波动仅由个体差异或随机误差所致，则结果应服从正态分布。为控制实验误差：以为警戒线，以为控制线。第06章参数估计基础第一节均数的抽样误差与标准误【抽样误差】（Sampling error）：由个体变异产生的，抽样造成的样本均数与样本均数之间、样本均数与总体均数之间的差异称为均数的抽样误差。【标准误】(standard error

28、, SE)：即样本均数的标准差，可用于衡量抽样误差的大小。因通常未知，计算标准误采用下式：通过增加样本含量n来降低抽样误差。【标准差和标准误的区别与联系】：1.标准差表示个体变异程度的大小；2.标准误是样本均数的标准差，表示均数间的变异程度，或样本均数与总体均数的接近程度，标准误小，表示样本均数抽样误差小，样本均数与总体均数接近，反之亦然。3.样本均数的标准误（Standard Error)：SE=样本标准差/ 。第二节 t 分布(t-distribution)一、t 分布的图形和特征:t分布曲线是由很多个样本均数得来的，它是一簇曲线，当不同（实际是样本含量不同）时，曲线的形状不同。当时

29、，t分布趋于标准正态分布。t分布曲线有以下特征：以0为中心，左右对称的单峰分布；t分布曲线形态变化与自由度的大小有关。自由度越小，则t值越分散，曲线越低平；自由度逐渐增大时，t分布逐渐逼近Z分布(标准正态分布)；当趋于时，t分布即为Z分布, 因此，标准正态分布是t分布的一个特例。同标准正态分布一样，我们统计学最关心的问题是t分布曲线下的面积（即概率P或），与横轴t值之间的关系。为方便，统计学家编制了不同下的t界值表（附表2），表中，纵标目为概率P，横标目为自由度，一侧尾部面积称为单尾概率，两侧尾部面积之和称为双尾概率。单尾概率用表示，双尾概率用表示。表中数字表示当和确定时对应的t界值或t分

30、布的分位数。总结t界值表：从表中可见：1）在相同自由度时，t值越大，P值越小；2）在相同t值时，双尾概率P为单尾概率P的两倍；3）在相同P值下，自由度越大，对应的t值越小；4）当时，t0.05/2, =1.96, t0.01/2, =2.58.第三节总体均数的可信区间估计总体均数的点估计（point estimation）与区间估计（interval estimation）按预先给定的概率(1-a)，确定一个包含未知总体参数的范围。这一范围称为【参数的可信区间或置信区间】(confidence interval,CI)一、置信区间的有关概念(1-a)称为可信度或置信度（confidence level），常取95。置信区间通常由两个数值即置信限（confidence limit，CL)构成，较小的称为置信下限（lower limit，L），较大的称为置信上限（upper limit，U），二、总体均数置信区间的计算未知，且n较小，按t分布已知，或未知但n足够大，按Z分布单一总体均数的置信区间三、可信区间估计的优劣一是可信度1-a（准确度），愈接近1愈好，如99%的可信度比95%的可信度要好；二是区间的宽度（精密度），区间愈窄愈好。当样本含量为定值时，上述两者互相矛盾。在可

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

卫生统计学第01章 绪论.docx