卫生统计学重点整理 预防医学.docx
《卫生统计学重点整理 预防医学.docx》由会员分享,可在线阅读,更多相关《卫生统计学重点整理 预防医学.docx(13页珍藏版)》请在冰豆网上搜索。
![卫生统计学重点整理 预防医学.docx](https://file1.bdocx.com/fileroot1/2023-1/30/870fbe4c-0be0-4214-83d2-3c9fc3eb395e/870fbe4c-0be0-4214-83d2-3c9fc3eb395e1.gif)
卫生统计学重点整理预防医学
1.
卫生统计学:
是应用概率论和数理统计学的基本原理和方法,研究居民卫生状况以及卫生服务领域中数据的收集、整理和分析的一门科学。
2.
同质(homogeneity):
在统计学中,若某些观察对象具有相同的特征或属性称为同质的。
否则称为异质(heterogeneity)的或者间杂的。
3.
变异(variation):
同质事物之间的差别称为变异。
[没有个体变异,就没有统计学!
]
4.
总体(population):
根据研究目的所确定的同质观察单位的全体。
5.
样本(sample):
是从总体中随机抽取的具有代表性的部分观察单位的集合。
6.
样本含量(samplesize):
样本中包含的观察单位个数。
7.
参数(parameter):
反映总体特征的指标。
特点:
未知、唯一,希腊字母表示,如总体
均数、总体率等。
8.
统计量(statistic):
根据样本观察值计算出来的指标。
特点:
已知、不唯一,拉丁字
母表示,如样本均数、样本率等。
9.
变量(variable):
研究者需要对每个观察单位的某项特征或属性进行观察或测量,这种特征或属性称为变量。
10.
变量值(valueofvariable):
变量的观察值或测量值称为变量值或观察值(observed
value)。
11.
资料(data):
变量值的集合称之为资料。
12.
定量资料(quantitativedata):
变量值是定量的,表现为数值大小。
特点:
一般有度、
量、衡单位,一般属连续性资料。
13.
定性资料(qualitativedata):
观察值是定性的,表现为互不相容的类别或属性。
特
点:
一般无度、量、衡单位,一般属于离散型资料。
可进一步分为计数资料和等级资
料。
fH./
步分
14.
计数资料(countdata):
将观察单位按某种类别或属性进行分组,清点各组观察单位数所得的资料。
可进一步分为二项分类资料和无序多项分类资料。
fH./
步分
15.等级资料(ordinaldata):
将观察单位按照某种特质或属性的程度或等级顺序分组,清点各组观察单位所得的资料。
各属性之间互不相容且有程度的差别。
16.抽样研究(samplingresearch):
从总体中随机抽取样本,通过样本信息推断总体特征的研究方法。
17.抽样误差(samplingerror):
由随机抽样造成的样本统计量与总体参数之间、样本统计量之间的差异。
18.概率(probability):
概率是随机事件发生可能性大小的数值度量。
通常用P表示。
大小介于0与1之间,即0WP<1。
19.小概率事件:
医学研究中,将概率小于等于0.05或0.01的事件称为小概率事件。
20.小概率原理:
并不表示不可能发生,但在某一次试验中,是不会发生的。
21.
单纯随机抽样(simplerandomsampling):
先将调查总体的全部观察单位统一编号,然后采用随机数字表、统计软件或抽签等方法之一随机抽取n(样本大小)个编号,由这n
个编号所对应的n个观察单位构成研究样本。
:
又称机械抽样或等距抽样。
事先将总体内全部观察单位按某一顺序号等距分隔成n(样本大小)个部分,每一部分内含m个观察单位;然后从第一部分开始,从中随机抽出第i号观察单位,依此用相等间隔m机械地在第2部分、第3部分直至第n部分内各抽出一个观察单位组成样本。
23.
分层抽样(stratifiedsampling):
是先按对观察指标影响较大的某项或某几项特征,将
总体分成若干层,该特征的测定值在层内变异较小、层间变异较大,然后分别从每一层内随机抽取一定数量的观察单位结合起来组成样本。
38.医学参考值范围:
亦称正常值范围,是指绝大多数“正常人”的解剖、生理、生化等指
标的波动范围。
44.标准误(standarderror,SE):
通常将样本统计量的标准差称为标准误。
45.可信区间(confideneeinterval,Cl):
按一定的概率或可信度(1-)用一个区间估计总
体参数所在范围,这个范围称作可信度为1-的可信区间,又称置信区间。
46.Poisson分布:
Poisson分布是二项分布的极限形式,二项分布中,当n很小(<0.05),n很大,二项分布7Poisson分布。
47.I型错误(typeIerror):
Hb实际上是成立的,但由于抽样的原因,拒绝了H,这类
“弃真”的错误称为I型错误,其最大概率为
48.n型错误(typenerror):
HL实际上不成立,但假设检验没有拒绝它,这类“取伪”的
错误称为n型错误,其概率大小用p表示。
56.生存时间(survivaltime):
指观察到的存活时间,可用天、周、月、年等时间单位记
录,常用符号t表示。
57.完全数据(completedata):
从观察起点至发生死亡事件所经历的时间。
58.结尾数据(censoreddata):
简称结尾值,又称删失数据或终检值。
生存时间观察过程的截止不是由于死亡事件,而是由于其他原因因引起的,称为结尾。
主要原因有三种:
失访、退出、终止。
59.生存曲线(survivalcurve)
:
以观察(随访)时间为横轴,以生存率为纵,将各个时间点所对应的生存率连接在一起的曲线图,用以描述生存过程。
60.寿命表(lifetable):
是根据特定人群的年龄组死亡率编制出的一种统计表,用以说明
在特定人群年龄组死亡率的条件下人的生命过程。
⑴统计设计;⑵统计分析;⑶生命统计;⑷常用统计分析软件简介。
3.
4.
⑴统计描述:
定量资料和定性资料的统计描述,统计表和统计图。
⑵统计推断:
主要包括参数估计和假设检验。
统计工作的基本步骤:
⑴设计;⑵收集资料;⑶整理资料;⑷分析资料。
参数VS统计量:
参数是反应总体特征的指标;统计量是样本指标。
⑴定量资料
⑵定性资料:
①计数资料;②等级资料。
10.实验设计的基本原则:
⑴对照原则;⑵随机原则;⑶重复原则;⑷均衡原则。
11.常用的实验设计方案:
⑴完全随机设计;⑵配对设计;⑶随机区组设计;⑷交叉设计;⑸析因设计;⑹重复测量设计。
12.实验设计的三要素:
⑴处理因素;⑵受试对象;⑶实验效应。
14.描述离散趋势常用的变异程度指标:
极差、四分位数间距、方差、标准差、变异系数。
16.标准差VS标准误:
⑴标准差表示个体差异的大小,描述资料的频数分布状况,可用于制定医学参考值范
围。
⑵标准误描述样本均数的变异程度,说明抽样误差的大小,用于总体均数的区间估计和假设检验。
⑴n足够大;
⑵P和1-P均不太小;
⑶np和n(1-P)均大于5。
23.生存曲线的特点:
为一条下降的曲线。
平缓表示生存率高或较长生存期,陡峭表示生存率低或较短生存期。
24.比较贡献大小米用:
标准化的偏回归系数。
25.样本含量估计:
⑴接近0.5
⑵若要求相同的检验标准,两组例数相等时所需样本含量较少。
⑶a可以取双侧,也可以取单侧;P只能取单侧。
26.影响检验效能的要素:
⑴样本含量;⑵客观事物差异的大小;⑶个体间变异的大小;⑷a值。
27.如何增大检验效能:
⑴增大a;⑵增加样本含量。
【正态分布的特征】
1.正态曲线在横轴上方均数处最高,向两侧逐渐下降,并以均数为中心,左右对称,但两端与横轴永不相交,呈钟形曲线。
2.正态分布有两个参数,即均数和标准差。
卩是位置参数,C一定时,卩越大,曲线越向右移动;C是形状参数,卩一定时,6越大,曲线越平阔。
3.正态曲线下面积的分布有一定的规律:
正态分布曲线下一定区间内的面积代表了取值于相应区间内的观察值个数在全部观察值总数中所占的比例(频率),或者是观察值落在该区间内
的概率:
正态曲线与横轴之间的面积恒等于1或100%
正态分布为对称分布,其对称轴两侧的面积各为50%;
区间(卩-6,卩+6)面积为68.27%;
1.原则:
①要确定一批样本含量足够大的“正常人”;②根据研究目的和使用要求选定适当的百分界值,如80%90%95唏口99%常用95%③根据专业知识确定单侧或双侧界值;④根据资料的分布特点,选用恰当的计算方法。
2.常用方法和适用条件:
1正态分布法:
适用于正态或近似正态分布的资料
双侧界值:
单侧下界:
单侧上界:
2百分位数法:
常用于偏态分布资料以及资料中一端或两端无确切数值的资料
双侧95%参考值范围为:
P2.5〜P97.5
【I型错误vsn型错误】
4.双侧检验PWa,单侧必得PWa;单侧检验P>a,双侧必得P>a。
5.单侧检验易犯I型错误,双侧检验易犯n型错误,单侧效能高于双侧。
【假设检验】
前提条件
①总体具有同质性;②样本具有代表性和组间可比性。
基本步骤
1建立检验假设,确疋检验水准;
2选疋检验方法和计算检验统计里;
3确定P值,做出推断结论。
注意事项
1.应有严密的研究设计:
①总体中的每个研究个体应具有同质性;②样本资料应具有代表性;③比较的
组间应具有可比性。
2.正确理解a水准和P值的意义
3.正确理解结论的统计学意义
4.假设检验的结论不能绝对化
【t检验】
含义
一种以t分布为基础,以t值为检验统计量的计量资料的假设检验方法。
基本思想
假设在H0成立的条件下做随机抽样,按照t分布的规律获得现有样本检验统计量t值的概率为P,将P值与事先设定检验水准a进行比较,判断是否拒绝H0
应用条件
①独立性;②正态性(可用正态性检验来确认);③方差齐性(可由方差齐性检验来认定)。
主要用途
1单个样本均数与总体均数的比较;
2配对设计资料的差值均数与总体均数的比较;
3成组设计的两样本均数差异的比较。
【方差分析】
含义
一种以数据分析的变异为基础,以F值为统计量的计量资料的假设检验方法。
基本思想
将全部观察值之间的总变异按设计类型分解为两个或多个组成部分,通过比较不同变异来源的均方,借助F分布做出统计推断。
应用条件
①独立性;②正态性(可用正态性检验来确认);③方差齐性(可由方差齐性检验来认定)。
主要用途
多个样本均数的比较(三个及三个以上)
【X2检验】
含义
一种以X2分布为基础,以X2值为检验统计量的计数资料的假设检验方法。
基本思想
通过X2值的大小反映实际频数(A)和理论频数(T)的符合程度,在H0成立时,实际频数(A)和理论频数(T)的相差不应该很大,果实际频数(A)和理论频数(T)的相差很大,则H0成立的可能性很小。
应用条件
①独立性;②正态性(可用正态性检验来确认);③方差齐性(可由方差齐性检验来认定)。
主要用途
1推断两个或两个以上总体率(或构成比)之间有无差别;
2两变量间有无相互关系;③检验频数分布的拟合优度。
2X2表的X2检验的注意事项
1当nA40且所有T>5时,用2X2表x2检验的基本公式或专用公式计算x2值;
2当nA40但有KTv5时,需要用校正公式计算x2值;
3当nv40或有Tv1时,不宜计算X2值,需米用Fisher确切概率法直接计算概率。
RXC表的
X2检验的注意事项
1允许有不超过1/5的基本格子理论频数大于1小于5,但不能有理论频数小于1;
2如果有1/5以上格子的理论频数大于1小于5,或有1个格子的理论频数小于1,可增加样本含量。
【非参数检验的优、缺点】优点:
①适用于任何分布的资料;
②不受总体方差一致的限制;
3可用于等级资料的统计分析;
4有些问题本身没有适当的参数检验方法而非参数检验则恰能处理。
缺点:
①由于它没有充分利用原始数据中所提供的信息故检验效能低;
②其效果有一定近似性。
【秩和检验】
含义
亦称符号秩和检验或Wilcoxon配对法,属于非参数检验(不依赖于总体分布类型,不对总体参数进行推断,只是通过样本观察值推断总体的分布或分布位置是否有差别)。
基本思想
在HO成立的前提下,差值(配对差值、样本各测量值和已知总体中位数M的差值)的总体分布是对称的,总体中位数应为0,T+与T-应接近n(n+1)/4。
若正负秩和相差悬殊,则有理由怀疑Hb的成立。
适用条件
1不满足参数检验条件的资料及无法经变量变换满足参数检验条件的资料;
2未加精确测量的资料,如一端或两端为不确定数值的资料;
3分布类型未知的资料。
主要用途
1推断配对设计资料差值的总体中位数是否为0;
2推断样本所来自总体的中位数与已知总体中位数是否相等。
【等级相关适用范围】
1.不服从双变量正态分布的资料;
【直线回归与直线相关分析区别与联系】
【直线回归分析】
含义
直线回归是研究两个连续性变量间线性依存关系的一种统计分析方法,用直线回归方程描述两个变量间变化的数量关系,属双变量分析的范畴。
前提条件
①独立性;②正态性(可用正态性检验来确认);③方差齐性(可由方差齐性检验来认定)。
应用条件
1两变量的变化趋势呈直线趋势;
2因变量y为来自正态分布的随机变量,x可以是规律变化的或人为选定的一些数值(I型回归),也可以是随机变量(II型回归);
3对于1型回归,当x取不同数值时,y的分布都是正态分布,并且这些分布的方差都相等;对于II型回归,要求x、y服从双变量正态分布。
注意事项
1作回归分析要有实际意义;
2直线回归分析的资料,一般要求应变量y是来自正态总体的随机变量;
3进行回归分析时,应先绘制散点图;
4异常值的处理(通过散点图判断);
5避免外延。
常用多变量统计方法】
1.计数资料服从正态分布:
多重线性回归分析;
2.分类变量:
Logistic回归分析;
3.时间变量(包含有终检数据):
Cox回归分析;
4.对数据进行归类研究:
聚类分析;
5.分类已经明确,欲通过某些指标来判断其归类:
判别分析;
6.研究的指标比较多,需要数个综合变量来反映资料的信息:
主成分分析与因子分析。