卫生统计学知识点汇总整理版Word文档下载推荐.doc
《卫生统计学知识点汇总整理版Word文档下载推荐.doc》由会员分享,可在线阅读,更多相关《卫生统计学知识点汇总整理版Word文档下载推荐.doc(111页珍藏版)》请在冰豆网上搜索。
为观察值(X)与实际值(μ)之差。
抽样误差(samplingerror):
由抽样造成的样本统计量和总体参数的差别、以及样本统计量之间的差别称为抽样误差。
随机事件(Radomevent):
随机试验中可能出现的各种结果,叫随机事件。
即在一定条件下具有多种可能发生的结果,而究竟发生那一个结果不能肯定,又称偶然事件。
概率(Probability):
描述随机事件发生的可能性大小的一种度量,常用P表示。
小概率事件:
当随机事件A的概率P(A)≤a,习惯上,当a=0.05时,就称A为小概率事件;
其统计学意义是小概率事件在一次随机试验中不可能发生。
频率(Frequency):
在n次试验中,若事件A发生的次数为m,则:
m称为事件A在n次试验中的频数,fn(A)称为事件A在n次试验中发生的频率。
统计描述:
用统计指标、统计表、统计图等方法,对样本资料的数量特征及其分布规律进行描述
指用样本信息推断总体特征,包括参数估计和假设检验。
第二讲:
数值变量的统计描述
一、频数表与频数分布图
(一)基本概念:
频数(frequency):
指在一个抽样资料中,某变量值出现的次数。
频数分布表(frequencydistributiontable):
将各数值变量的值及其相应的频数列表,简称频数表。
频率是表示频数出现机率的指标,可用百分数或小数表示,频率为100%或1。
频数分布图(frequencydistributionfigure):
根据频数分布表,以变量值为横坐标,频数为纵坐标,绘制的直方图。
(二)连续型变量频数表的编制方法:
⒈求全距(Range,简记R):
是一组资料中最大值(Xmax)与最小值(Xmin)之差,亦称极差。
2.定组距:
将全距分为若干段,称为组段。
组与组之间的距离,称为组距;
用小写i表示。
原则:
(1)“组段”数一般为10-15个;
(2)“组距”一般为R/10取整;
(3)为计算方便根据组距采取取整数方法
3.写组段:
即将全距分为若干段的过程。
(1)第一组段要包括Xmin,最末组段包括Xmax;
(2)每组段均用下限值加“~”表示,最终组段同时注明上下限。
4.列表划记:
根据预定的组段和组距,用划记的方法整理原始资料。
(三)频数表的用途:
1.揭示频数的分布特征:
集中趋势与离散趋势结合能全面反映频数的分布特征
2.揭示频数的分布类型
对称分布:
集中部位在中部,两端渐少,左右两侧的基本对称,为对称(正态)分布。
正偏:
集中部位偏于较小值一侧(左侧),较大值方向渐减少,为正偏态分布。
负偏:
集中部位偏于较大值一侧(右侧),较小值方向渐减少,为负偏态分布。
3.便于发现某些特大或特小的可疑值。
4.样本含量足够大时,以频率作为概率的估计值。
5.作为陈述资料的形式。
二、集中趋势的指标
集中趋势:
用于描述一组计量资料的集中位置,说明这种变量值大小的平均水平,常用平均数(average)表示。
注意:
1.同质的事物或现象才能求平均数
2.应根据资料分布状态选用适当的均数。
算术均数:
单峰对称分布
包括几何均数:
对数正态分布
中位数、百分位数:
偏态分布
(一)算术平均数(arithmeticmean)
●使用条件:
数据分布比较均匀呈正态分布或近似正态分布。
●样本均数用符号:
X表示
●总体均数用符号:
μ表示
●计算方法有两种:
直接法(小样本)和加权法(大样本)
(1)直接法:
举例:
某地10名18岁健康男大学生身高为(cm):
168.7,178.4,170.0,170.4,172.1,
167.6,172.4,170.7,177.3,169.7
求平均身高?
10
X
)
(
171.7
cm
=
7
169.
4
178.
168.7
+
¼
Ø
适用范围:
小样本资料,n<
30
方法:
将观察值X1、X2、X3、……、Xn直接相加,再除以观察值的个数n。
公式:
(2)加权法:
大样本含量的分组资料或频数表资料。
计算各组段的组中值Xi与其频数fi的乘积和Σfx,然后除以总频数Σf。
举例:
用加权法计算某市8岁男童身高平均数(表3.1)
①计算各组段的组中值xi、fxi和Σfx
第1组段:
117.5
1
2
119
116
上限
下限
x
②用加权法计算该组身高值的均值
05
.
130
100
13055.0
n
fX
å
(二)几何均数(geometricmean,G)
●概念:
对一组观察值,先进行对数变换,按算术均数计算方法求其对数值的均数,该均数的反对数值即几何均数(G)。
用于原始数据分布呈偏态分布,等比资料(倍数变化)或对数正态分布资料的平均数的计算。
●表示符号:
G
●计算方法:
直接法和加权法
小样本资料
将n个观察值(X1,X2,3,……Xn)直接相乘再开n次方。
用对数形式表示为:
设有5份血清样品,滴度分别为:
1:
1,1:
10,1:
100,1:
1000,1:
10000
求其平均滴度。
G=
或G=lg-1((lg1+lg10+lg100+lg1000+lg10000)/5)
=lg-1((0+1+2+3+4)/5)
=lg-12
=100
即:
平均滴度为1:
100;
较好地代表了观察值的平均水平。
适用范围:
公式:
G=lg-1(ΣflgX/Σf)
有95名麻疹易感儿童,接种麻疹疫苗一个月后,血凝抑制抗体滴度见下表,试求平均滴度(例3.3)。
G=lg-1(ΣflgX/Σf)=lg-1(145.0948/95)=33.68
即95名易感儿童接种疫苗一个月后,血凝抑制抗体的平均滴度为1:
33.68。
计算几何均数(G)注意事项:
(1)观察值不能为0;
(2)观察值不能同时有正有负;
(3)同一组资料求得的几何均数小于算术均数。
练习:
1.有8份血清的抗体效价分别为:
1:
5,1:
10,1:
20,1:
40,1:
80,1:
160,1:
320,1:
640
求平均抗体效价。
将各抗体效价的倒数代入公式:
所以血清的抗体平均为1:
56.57
2.有50人的血清抗体效价,分别为:
5人1:
10,9人1:
20,20人1:
40,10人1:
80,6人1:
160
求平均抗体效价。
所以该50人的血清抗体效价为1:
41.70
(三)中位数(Median,M)
把一组变量值从小到大排列,位于中间位置的变量值叫中位数,用M表示。
当一组资料类型分布不清或明显偏态分布时的平均数的计算。
M
百分位数(Percentile,P)
为一种位置指标,表示位于全部观察值第X%位置处的数值。
一个PX将总体或样本的全部观察值分为两部分,理论上有X%的观察值比它小,(100-X)%的观察值比它大,P50分位数即是中位数。
Px
●计算方法:
频数表计算
(1)直接法由原始数据计算中位数:
当n为奇数时:
(2)用频数表计算中位数和百分位数
步骤:
按所分组段,由小到大计算累计频数和累计频率
代入公式计算中位数及其它百分位数
中位数计算公式百分位数计算公式
m
/
-
L
f
i
P
注:
fm、fx为所在组的频数,i为该组段的组距,
L为其下限,∑fL为小于L的各组段的累积频数。
例:
求164例沙门菌食物中毒病人潜伏期的中位数和百分位数P5、P95
潜伏期(h)
①
频数f
②
累积频数
③
累计频率(%)
④
0~
21
21
15.24
12~
58
79
48.17
24~
44
123
75.00
36~
23
146
89.02
48~
12
158
96.34
60~
5
163
99.39
72~
1
164
100.00
1.由表第(4)、
(1)栏可见,M(P50)在24~组段,
所以L=24、i=12、fx=44、ΣfL=79。
2.把L=24、i=12、fx=44、ΣfL=79代入公式,求M。
M(P50)=24+(164/2-79)=24.8(h)
3.同样方法,可求P5、P95。
P5=0+(164×
5%-0)=4.7(h)
P95=48+(164×
95%-146)=57.8(h)
应用:
1.中位数:
常用于描述偏态分布资料的集中位置,反映位置居中的观察值的水平,它和均数、几何均数不同,不是由全部观察值的数量值综合计算出来的,只受居中变量值的影响,不受两端特大值和特小值的影响。
因此,当分布的一端或两端无确定数值或资料的分布不清可以求中位数。
2.百分位数:
A.用于描述数据某一百分位的位置,最常用的是P50,即中位数;
也可用多个百分位数的结合来描述一组资料的分布