卫生统计学重点总结.docx
《卫生统计学重点总结.docx》由会员分享,可在线阅读,更多相关《卫生统计学重点总结.docx(21页珍藏版)》请在冰豆网上搜索。
卫生统计学重点总结
第一章绪论
1•卫生统计学的概念P1
研究居民卫生情况以及卫生
卫生统计学是应用概率论和数理统计学的基本原理和方法,服务领域中数据的收集、整理和分析的一门科学。
2•卫生(医学)统计学的主要步骤P3设计;收集资料;整理资料;分析资料
3.(选择、判断)卫生统计学的基本概念P4
同质(homogeneity):
统计学中,若某些观察对象具有相同的特征或属性,称之为同质或具
有同质性。
变异(VariatiOn):
将同质个体的某项特征或属性的观察值或测量值之间的差异称为变异。
总体(populatiOn):
是根据研究目的确定的的所有观察单位某种特征或属性的观察值或测量值的集合。
样本(SamPle):
是从总体中随机抽取的具有代表性的部分观察单位的集合。
样本中包含的观察单位个数称为样本含量。
参数(Parameter):
反映总体特征的指标称为参数,一般是未知的,常用希腊字母表示。
统计量(StatiStiC):
根据样本观察值计算出来的指标称为统计量,常用拉丁字母表示。
变量(VariabIe):
每个观察单位的某项特征或属性称为变量。
抽样研究(samplingresearch):
从总体中随机抽取样本,通过样本信息推断总体特征的研究方法称为抽样研究。
抽样误差(SamPIingerror):
由随机抽样造成的样本统计量与总体参数之间、样本统计量之间的差异称为抽样误差。
资料(data):
变量值的集合称之为资料。
★4.资料的分类P4
(1)定量资料:
亦称计量资料,其变量值是定量的,表现为数值大小,一般有度、量、衡单位。
(2)定性资料:
亦称分类资料,其观察值是定性的,表现为互不相容的类别或属性,一般无度、量、衡单位。
可进一步细分为两种资料:
1)计数资料:
指将观察单位按某种类别或属性进行分组,清点各组观察单位数所得的
资料。
包括:
①二项分类资料;②无序多项分类资料
2)等级资料:
亦称有序多分类资料,是将观察单位按某特征或属性的程度或等级顺序分组,清点各组观察单位数所得的资料。
第二章调查研究设计
1.调查研究的特点P7
(1)不能人为施加干预措施(与实验研究主要的区别)
(2)不能随机分组
(3)很难控制干扰因素
(4)一般不能下因果结论
2•常用的抽样方法P9~11
基本方法:
单纯随机抽样;系统抽样;分层抽样(抽样误差最小);整群抽样(最大)
综合应用:
多阶段抽样。
第三章实验设计
1•实验设计的基本要素(三个)处理因素;受试对象;实验效应
2•实验设计的基本原则(四点)对照;随机化;重复;均衡
3•常用的实验设计方案
(1)完全随机设计一一又称随机对照试验,采用完全随机化分组方法将同质的实验单位分配到各处理组,各处理组分别接收不同的处理。
优缺点:
设计简单,易于实施,出现缺失值时仍可统计分析;小样本时,均衡性可能较差,抽样误差较大。
(2)配对设计一一是将实验单位按一定条件配成对子,再将每对中的两个实验单位随机分配到不同处理组。
优缺点:
抽样误差较小、实验效率较高,所需样本含量较小;当配对条件未能严格控制造成配对失败或欠佳时,会降低效率。
(3)随机区组设计一一又称为配伍设计,是配对设计的扩大。
是将几个条件相同的受试对
象划成一个区组,将区组中的受试对象采用随机的方法,分配到不同的对比组中,接受不同
的处理。
优点:
每个区组内的实验单位具有较好的同质性,比完全随机设计减少了随机误差,因
而更易发现处理组间的差别,提高了实验效率。
缺点:
要求区组内实验单位数与处理组数相等,实验结果中若有数据缺失,统计分析较
为麻烦。
第四章定量资料的统计描述
一、集中趋势的描述
1•算术均数一一又称均数(mean),是用一组观察值相加除以观察值的个数所得。
样本均数
用X,总体均数用μ。
应用:
适用于对称分布特别是正态分布资料。
2•几何均数一一是n个观察值乘积的n次方根,又称倍数均数,用G表示。
应用:
适用于①对数正态分布;②等比级数资料。
观察值中不能有O
3•中位数一一将一组观察值由小到大排序后,居于中间位置的数值即为中位数,用M表示。
中位数的计算:
★频数表法一一用于频数表资料
(2)频数表法;频数表资料
LM中位数所在蛆段下限
/组距
∕tf中位数所在俎段的頻数
D中位数所在组段前一组的累计频数
4•百分位数一一是指将一组观察值由小到大排序后,将其平均分成100等份,对应于每一分
割位置上的数值就称为一个百分位数,用PX表示。
5•中位数与百分位数的应用P55
中位数:
①偏态分布资料
2一端或两端无确切值
3总体分布不明
百分位数:
非正态分布资料
描述数值变量资料集中趋势的指标
平均数
倉义
应用场合
均数
平均数量水平
对称分布■尤其正态井布
几何均数
平均增减倍数
等比.对数正态分布
中⅛⅛⅛
位次居中的现褰值水平
偏态、分布不明确、分布
耒端无確定值
★二、离散趋势的描述详见P55~58
/■极差
描述离散■四分位间距趙势指标j■标准差
I■变异系数
★掌握以上四个指标的意义和应用。
描述数值变量资料离散趋势的指标
离散超勞指标
应用
s⅛-m⅛s≡≡
资科不IB
四分便数何跑
反映全部观察IL居巾一半的範围
资料不限
方差利标准差
反映全⅛SMλlfl的变异程度
适用于对稼分布.尤正恣
标准差相对于⅛Sfi大小
适用于单位不同或均数芳别校大的≡SZffl的
二、正态分布及其应用P59~60
1•正态分布的概念及各个字母的含义
★2.正态分布的分布特征及规律详见P59
分布特征:
(1)正态曲线在横轴上方均数处最高;并以均数为中心,左右对称;两端与
横轴永不相交,呈钟形的曲线。
(2)正态分布有两个参数,即位置参数和形状参数
(3)正态曲线下面积的分布有一定的规律:
■正态曲线卜Ifil积的分布有一定的规律。
1正态曲践与横轴之间的面积恒等于1或H)0%:
2对称分布,对称轴两侧的面积各为50%:
3在Oσiμσ)区间的血积为68,27%
在M-1.96σ√∕+l96σ}区间的血积为95.00%
在皿—2Λ8<τ.jμ+j如区间的面积为99.00%
3•统计学家发现,可以使所有的正态分布转化为统一的
的正态分布,该正态分布称为标准正态分布。
这种变换称为标准化变换或Z变换。
若X服从
正态分布N
则Z就服从N0,1
第五章定性资料的统计描述
一、常用相对数及其应用
1•率一一指某现象实际发生数与可能发生某现象总数之比,说明某种现象发生的频率或强度,
又称频率指标。
率某时期内实际发生某现象的观察单位数×K率同时期可能发生某现象的观察单位总数
2.构成比——是事物内部某一观察单位数与事物内部各组成部分观察单位的总数之比,说明
事物内部各部分所占的比重。
常以百分数表示。
构成比
某一组成部分观察单位数
同一事物各组成部分的观察单位总数
100%
3.相对比一一相对比是两个有关的指标之比,用以描述两者的对比水平。
两个指标可以是绝对数、相对数或平均数;可以性质相同,也可以性质不同。
相对比甲指标(或100%)乙指标
二、应用相对数需注意的问题(4个)
1•计算相对数分母不宜过小
2.不能以构成比代替率
3.计算合计率时,不能简单地相加求平均
4率的比较时应注意可比性
三、率的标准化P72
标准化法一一是在一个指定的标准构成条件下进行率的对比的方法。
意义:
用统一的“标准”消除资料由于内部构成不同而对所比较的总率产生的影响。
当两组定性资料的内部构成明显不同时,不宜直接比较两组的总率(即平均率),否则有时会出现局部结果与整体结果相矛盾的现象。
当统一标准后再进行计算,这种矛盾的现象便会消失所采用的方法即标准化法。
第六章总体均数和总体率的估计
1.抽样误差:
由抽样引起的样本统计量与总体参数间的差异称抽样误差。
不可避免、可以控
制。
2.标准误:
样本均数的标准差称为均数的标准误,简称标准误。
P78
均数的标准误表示样本均数的变异度
总体标准差未知时,用样本标准差代替
用途:
①衡量样本均数的可靠性;②估计总体均数的可信区间;③用于均数的假设检验。
★标准差与标准误的区别P79
(1)意义不同:
标准差表示个体差异的大小;标准误描述样本均数的变异程度,说明抽样误差的大小。
(2)用途不同:
标准差描述资料的频数分布情况,可用于制定医学参考值范围;而标准误用于总体均数的区间估计和假设检验。
(3)公式不同:
(XX)2
标准差:
;标准误:
3.t分布P80~81
概念:
从正态总体N(μ,σ2)中进行无数次样本含量为n的随机抽样,每次均可得到一个X
和一个S,通过公式:
S厂转换,可得无数个t值,t值的分布即为t分布。
特征:
①以0为中心,左右对称;
2t分布是一簇曲线,形状与自由度V有关;
3当V趋于∞时,t分布逼近标准正态分布;
4t分布曲线下面积为1。
4.总体均数的估计
点估计一一用样本均数估计总体均数。
区间估计一一按一定的概率(可信度,1-α)估计总体均数所在范围亦称总体均数的可信区间。
5.(选择、判断)95%^信区间的涵义P82~83
95%σ信区间意味着做100次抽样,算得100个可信区间,平均有95个区间(或95%勺把握、95%勺可能性)估计正确。
★思考题
(1)标准差与标准误有什么区别与联系?
区别:
详见前面知识点
联系:
标准误的大小与标准差成正比,与根号n成反比。
(2)可信区间与正常值范围有什么不同?
1意义不同:
可信区间是按一定的概率(可信度,1-α)估计总体均数所在范围;正常值范围则是指绝大多数“正常人”的解剖、生理、生化等指标的波动范围。
2公式不同
3用途不同:
可信区间用于估计总体均数;正常值范围用于判断观察对象的某项指标正常与
否。
第七章假设检验
1•假设检验的描述
荫种假设可以总结为:
凤:
μ=AO由抽样误差引起(
Hx:
μ≠/Z0由本质差别引起
解析:
假设0,即认为的差别是由抽样误差造成的,则可用公式计算t值。
根据t值
确定P值的大小,并作出推断。
P小于或等于预先规定的概率值α(如0.05),则为小概率事件,即在一次抽样中发生
的可能性很小,如果它发生了,则怀疑原假设0可能不成立,故认为其对立面
0成立。
2•假设检验的基本思想
应用反证法和小概率事件的原理,先对总体的参数或分布作出某种假设,在H0成立的
条件下,再用适当的方法(如t检验)根据样本对总体提供的信息,推断此假设应当拒绝
或不拒绝。
3.假设检验的基本步骤详见P91~92∕PPT
格式要规范,注意下结论的用词!
★4.I型错误与∏型错误P92~93
I型错误一一拒绝了实际上成立的H。
,犯“弃真”的错误。
其概率大小用α表示,α可
取单侧亦可取双侧。
∏型错误一一不拒绝了实际上不成立的H。
,犯“存伪”的错误。
其概率大小用β表示。
β
只取单侧,其大小一般未知,只有在已知两总体差值δ,α及n时,才能估算出来。
推断结论时可能出现的四种情况:
推断结论与两类错误
实际情况
检验结果
拒绝局
不拒绝局
码成立
第一类错课(E
结论正硫(―C
H不成立
结论正确尸)
第二类错误曲
5.单侧检验与双侧检验P95
误用单侧检验会易犯I型错误;误用双侧检验会易犯∏型错误。
对于同一资料,凡双侧检验P≤α单侧检验必P<α;凡单侧检验P>α,双侧检验必P>α°
★6•假设检验应注意的事项P96
(1)应有严密的研究设计
(2)正确理解α水准和P值的意义
(3)正确理解结论的统计学意义
(4)假设检验的结论不能绝对化
第八章t检验
概念:
t检验是一种以t分布为基础,以t值为检验统计量的计量资料的检验方法。
★t检验的适用条件(4个)
(1)总体方差σ未知;
(2)样本含量n较小(*60);
(3)样本来自正态总体;
2
(TI=
2
(T2
/、,、、~、、》*
(注意:
t检验都是针对总体下结论的!
)
(4)两样本所来自的总体方差齐,即
应用:
1•样本与总体均数的比较
t
2.配对设计均数的比较
V=n-1
d-0d
SdSd八n
V=n-1
3•两样本均数的比较
χ1-X2
S2c(1
nι
1)
“2
V=n-1
★课本P100~106,掌握案例8-1、8-2、8-3、8-7的资料分析和检验步骤。
第九章方差分析
方差分析的含义:
方差是描述研究对象变异程度的一种指标。
方差分析一一是一种以分析数据的变异为基础,以F值为统计量的计量资料的假设检验方法。
★方差分析的基本思想:
根据资料的设计类型(即变异的不同来源),将全部观察值之间的变异(总变异)分解
为两个或多个部分,除随机误差外其余每个部分的变异都可由某个因素的作用加以解释,通
过比较不同变异来源的均方,借助F分布作出统计推断,以了解某因素对观察指标是否有影响或某因素是否有效应。
★三种不同的变异之间的关系:
SSSS间SS组内
总组间组内
(9-4)
将组间均方除以组内均方即得方差分析的统计量F:
组间变异MS组间
组内变异MS组内
MS组间
SS组间
MS组内
SS组内
(9-5)
组内
组间
★方差分析的应用条件:
1各样本须是相互独立的随机样本(独立性)
2各样本来自正态分布总体(正态性)
3各总体方差相等(方差齐性)
方差分析常应用于三个及以上均数的比较,当用于两个均数的比较时,同一资料所得结果与t检验等价,即F=t2完全随机设计的方差分析P119
★掌握案例9-1的资料分析和检验步骤
SNK-q检验一一也称q检验,适用于探索性研究,对任意两个样本均数都进行检验。
★第十章卡方检验
1.概念:
X检验是一种以X分布为基础,以法。
X反映了实际频数与理论频数吻合的程度X检验(PearSon卡方检验)基本公式:
2(AT)2
T
X值为检验统计量的计数资料的假设检验方
(差别的程度)
(R1)(C1)
上式中A为实际频数,T为理论频数;R为行数,C为列数。
主要用途:
1推断两个或两个以上总体率(或构成比)之间有无差别
2两变量间有无相关关系(有无关联)
3检验频数分布的拟合优度
★2.2×2表的卡方检验的注意事项
四陷表瓷料护检验的计算公式
当240且所有T±5时;
基本公式为:
专用公式为:
2x^n(A—Ty2^
宀
{ad-bc)~n
当n≥40但有kT<5时:
校正的基本公式为:
校正的基本公式为:
门_匸(以—门—°』广
2(|ad—beI-Ylrl)λ
(ZJ÷⅛)(c+d){a+c)(h÷d)
当*40我TG眄采用四洛表礁切槪率法
★以案例10-1为例,掌握列表和检验步骤★★3.配对设计X检验
配对四格表资料护检验的计算公式
3fr+r≥40时:
2_{b-c)2
F计算公式为:
×=-ΓΓΓ
当⅛+c<4{]:
校正计算公式为=
亠(I—I—1F
Z^b+c
★★★掌握课本P142表格的绘制、运算和检验步骤
4•行×列(R×C)表资料的X2检验P143~144知识点10-4
RXC表资料的卡方检验可用于:
1、多个样本率的比较
2、两组构成比的比较
3、多组构成比的比较
★适用条件:
无T<1的理论数,并且1≤T≤5的格子数不超过总格子数的1/5。
适用条件不满足时,可采用以下三种措施:
1增加样本含量:
可以增大理论频数
2将理论频数太小的行或列与性质相近的邻行或邻列中的实际频数合并:
合并后可以产生较
大的理论频数,但要注意相邻类别合并的合理性,合并后要有实际意义,合并后自由度应作相应调整
3删去理论频数太小的格子所对应的行或列。
第一种措施为首选,但实际工作中实施起来较难后两种措施会损失部分信息,应慎用
5.Fisher确切概率法
条件:
n40,或T1,或P时
理论依据:
超几何分布(非X检验的范畴)
第十章非参数检验
★1.基本概念
参数检验—已知总体分布类型,对未知参数进行统计推断;依赖于特定分布类型,比较
的是参数。
非参数检验—不依赖总体分布类型,不针对总体参数;不受总体参数影响,比较分布或分布位置。
★2.非参数检验应用范围:
1总体分布形式未知或分布类型不明
2偏态分布的资料
3等级资料:
不能精确测定,只能以严重程度优劣等级、次序先后等表示
4不满足参数检验条件资料:
各组方差明显不齐
5数据的一端或两端是不确定数值,如">50mg”
3.秩和检验
――是一类常用的非参数统计分析方法
――对数据从小到大排序,排序号在统计学上称秩――用数据的秩次代替原数据进行假设检验的方法
4.配对设计两样本比较
★以案例11-1为例,掌握检验步骤P154~155
编秩原则:
①按照差值的绝对值从小到大编秩
2差值为0者不参加编秩
3绝对值相等,符号相同时顺次编秩
4绝对值相等,符号相反时取平均秩次
查表法下结论时,要注意T界值的“内大外小”原则
「比计算分析步骤
[二建立检验假没矶“II1:
Md≠OCtL0,05
£计算检验统计量丁
1求差值d
2编秩
3求秩和,确定检验统计量r值
(任取或人为统计量)
3、确定尸值.做甬推断结论I
①責表法;用于有效对子数S
若r卜界值范圏内,则尸值AF
相应的概率
若TT値隹上、F界值上或外,则尸值小于
等于相应的槪率
A7.5t⅛P⅛⅛6得双ttfp科双侧αo5
10⅜75-50I
5.
t检验),可以推断样本分别代表
两样本比较的秩和检验
完全随机(成组)设计的两个样本比较,若不满足参数检验的条件(如用成组设计两样本比较的秩和检验方法,本法利用两样本观察值的秩和来的两总体分布是否相同。
★以案例11-3为例,掌握检验步骤P156~157
注意:
以样本例数较少组的秩和为统计量TO★6.参数检验与非参数检验的比较
参数检验与非参数检验比较
分类优点缺点
参数检脸
(ParametrKRSt)
充分利用提供的信良*检验效能较高
非参数检验
(□0Dparametrictest)
分布类型不作要求*适用范围广;
可用于任何类3!
资料
对总体分布类型
有比较严格的要
求,适用范因受
到限制
一股犯第二类错
陨的概率@比参
数检验大
第^一章双变量关联性分析
★1.相关分析的概念
直线相关:
又称简单相关,是用来描述具有直线关系的两变量x、y的相互关系的统计方法。
应用条件:
要求两变量均来自于双变量正态总体的随机变量;
变量不分主次,处于同等地位。
★2.相关系数的概念和意义
直线相关系数:
亦称PearSon积矩相关系数,是定量描述两个变量间直线关系的方向和密切程度的指标。
总体相关系数用P表示,样本相关系数用r表示。
r没有单位,取值介于-1与1之间;相关方向用正负号表示;相关的密切程度用绝对值
表示,r绝对值越大,表示两变量相关关系密切程度越高。
3.t检验——可用于双变量相关关系的检验。
4.直线相关分析的注意事项
1相关分析资料要求x、y都应是来自双变量正态总体的随机变量。
2进行相关分析前,应先绘制散点图。
3相关分析要有实际意义,不能把毫无关联的两个事物或者现象拿来做比较。
4不能只根据相关系数绝对值的大小来推断两个变量之间有无相关以及相关的密切程度,必须对相关系数做假设检验。
第十二章直线回归与相关
★1.直线回归的概念又称简单回归,用于研究一个变量随另一个变量变化而变化的依存关系(回归关系),从而预测或控制未知变量的一种统计分析方法。
应用条件:
(1)两变量的变化关系呈直线趋势。
(2)要求因变量Y呈正态分布,自变量X可以是精确测量和控制的变量。
★2.直线回归方程式及意义
回归方程的一般形式为:
Y?
abX
上式中,Y?
为Y的估计值,读作‘Y的回归值'
a为截距(x等于0时相应y的估计值)
b为样本回归系数(直线的斜率)——(其统计学意义是X每增加/减小1个单位,Y平均改变b个单位)
★最小二乘法原理:
各实测点到直线的纵向距离的平方和最小。
3.直线回归的统计推断
(1)方差分析;
(2)t检验
同一资料,有tr=tb=√F
4.(小题)应用直线回归应注意的问题P186
(1)作回归分析要有实际意义
(2)直线回归分析的资料,一般要求应变量y是来自正态总体的随机变量
(3)进行回归分析时,应先绘制散点图(4)绘制散点图后,若出现一些特大特小的离群点(异常点),应及时复核检查
(5)避免外延
(考虑建立线性回归模型的基本假定,回归模型应满足:
线性、独立、正态和方差齐等条件)
★5.直线回归与直线相关的区别与联系P187
区别:
(1)资料要求不同:
回归要求因变量Y服从正态分布;X是可以精确测量和严格控制的变量。
相关要求X和Y是双变量正态分布。
(2)统计意义不同:
说明两变量间依存变化的数量关系用回归,说明变量间的相关关系用相关。
(3)分析目的不同回归分析是把自变量和应变量间的关系用函数公式定量地表示出来;相关分析则是把两
变量间直线关系的密切程度及方向用一个统计指标表示出来。
联系:
(1)r与b的方向一致
(2)r与b的假设检验等价
(3)
用回归解释相关r2(决定系数)
计算式如下:
r2
I2XY
IXXIYY
lxylXX
lYY
SS
SStt
心、
★5.等级相关(秩相关)应用范围:
(1)不服从双变量正态分布的资料
(2)总体分布类型未知的资料
(3)一端或两端有不确定数值的资料
(4)等级资料