卫生统计学学习指导与习题集Word文档下载推荐.docx
《卫生统计学学习指导与习题集Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《卫生统计学学习指导与习题集Word文档下载推荐.docx(73页珍藏版)》请在冰豆网上搜索。
二、现代公共卫生领域对统计学的挑战
公共卫生不仅应用统计学,而且不断提出新要求和新问题,是现代统计学研究和发展的巨大功力。
第三节统计学的若干概念
一、总体与样本
总体是根据研究目的确定的同质研究对象的全体,按研究对象来源又有目标总体和研究总体。
样本是指从研究总体中抽取的一部分有代表性的个体。
抽样研究的目的是用样本推断总体。
二、同质与变异
同质是指同一总体中个体的性质、影响条件或背景相同或非常相近。
变异是指同质的个体之间存在的差异。
统计学的任务是在变异的背景上描述同一总体的同质性,揭示不同总体的异质性。
分类变量
{
三、变量的类型
定性变量
有序变量
定量变量
变量
定量变量可分为离散型变量和连续型变量。
变量类型可以转化:
定量→有序→分类→二值。
注意转化方向只能由信息量多向信息量少。
四、参数与统计量
参数是指反映总体特征的统计指标。
五、设计与分析
统计设计是医药卫生设计科研不可或缺的部分。
统计设计包括抽样方法、统计学原则、统计方法数据如何收集、样本量多大等统计学内容。
设计决定了统计分析的方法。
统计设计和统计分析是不可分割的两项内容。
六、因果与联系
探究因果关系首先考虑是否存在联系。
但存在联系未必有因果联系,因为存在大量的混杂因素。
单靠统计学分析大多只能考虑变量之间的联系,难于证明因果联系。
第四节目标与方法
一、基本概念方法与技能
正确理解基本概念、掌握常用的设计和经典的分析方法、学会用统计软件完成有关计算。
二、教与学的方法
应用是根本目的,理解概念与动手实践才是根本。
要结合生活经验、医学实际来教与学。
借助统计学实验理解统计现象与理论,借助案例讨论从反面吸取教训。
【补充习题】
一、选择题
(一)A1题
每一道题下面有A、B、C、D、E五个被选答案,请从中选择一个最佳答案。
1.下面的变量中,属于分类变量的是(B)
A.脉搏 B.血型 C.肺活量 D.红细胞计数 E.血压
2.下面的变量中,属于定量变量的是(B)
A.性别 B.体重 C.血型 D.职业 E.民族
3.某人记录了50名病人体重的测定结果:
小于50kg的13人,介于50kg和70kg间的20人,大于70kg的17人,此种资料属于(A)
A.定量资料 B.分类资料 C.有序资料 D.二分类资料 E.名义变量资料
4.上述资料可以转换为(C)
5.若要通过样本作统计推断,样本应是(C)
A.总体中典型的一部分 B.总体中任一部分
C.总体中随机抽取的一部分 D.总体中选取的有意义的一部分
E.总体中信息明确的一部分
6.统计量(E)
A.是统计总体数据得到的量
B.反映总体统计特征的量
C.是根据总体中的全部数据计算出的统计指标
D.是用参数估计出来的
E.是由样本数据计算出的统计指标
7.因果关系(C)
A.就是变量间数量上的联系 B.可以用统计方法证明
C.必定表现为数量间的联系 D.可以通过单独考察两个变量间关系得出
E.可以通过变量间数量上的联系来证明
(二)A2型
每一道题以一个小案例出现,其下面都有A、B、C、D、E五个备选答案,请从中选择一个最佳答案。
1.教材中提及美国人1954年实施了旨在评价Salk疫苗预防小儿麻痹或死于脊髓灰质炎效果的临床试验。
有180万儿童参与,约有1/4参与者得到了随机化。
这180万儿童是(C)
A.目标总体 B.研究总体 C.1份样本 D.1份随机样本 E.180万份样本
2.上述试验最终肯定了索尔克疫苗的效果。
请问此结论是针对(C)而言。
A.180万儿童 B.每个儿童 C.所有使用索菲克疫苗的儿童 D.所有儿童 E.180万儿童中随机化的1/4
二、是非题
1.定量变量、分类变量和有序变量可以相互转换。
(×
)
2.假变量可以参与计算,所以假变量是定量变量。
3.离散变量在数值很大时。
单位为“千”或“万”时可以取小数值,此时可接近地视为连续型变量 (√)
4.同质的个体间不存在差异。
5.如果个体间有变异,则它们一定不是来自同一总体。
第二章定量资料的统计描述
第一节频率分布表与频率分布图
一、离散型定量变量的频率分布
对离散型定量变量,变量值的取值是不连续的。
直接清点各变量值出现的频数,即为频率分布表。
离散型定量变量的频率分布图可用直方图表达,以各等宽矩形直条的高度表示各频率的多少。
二、连续型定量变量的频率分布
对连续型定量变量,变量值的取值是连续的,将数据适当分组,清点各组的频数,即为频率分布表。
连续型定量变量的频率分布图可用直方图表达。
即纵坐标为频率密度,即频率/组距,直方图的面积之和等于1.
三、频率分布表(图)的用途
频率分布表(图)可以揭示资料的分布类型,如对称分布或偏峰分布;
也可以描述资料的分布特征,即集中趋势和离散趋势;
便于发现某些特大和特小的可疑值;
便于进一步计算指标和统计分析。
第二节描述集中趋势的统计指标
对于连续型定量变量,平均数是应用最广泛、最重要的一个指标体系,它常用于描述一组同质观察值的集中趋势,反映一组观察值的平均水平。
常用的平均数有3种:
算数均数、几何均数和中位数。
一、算术均数
意义:
算术均数简称均数,常用μ表示总体均数,X表示样本均数。
反映全部数量观察值的平均数量水平。
适用条件:
适用于对称分布资料,尤其正态或近似正态分布资料。
计算:
1.直接法(基于原始数据)
X=X1+X2+…+Xnn=Xn
其中,n为样本含量,X1+X2+…+Xn为观察值。
2.频率表法(也叫加权法,基于频率表资料)
X=fx0f=fx0n
其中,f为组段的频数,x0为组段的中值,x0=(组段上限+组段下限)/2。
二、几何均数
几何均数以符号G表示,常用来反映一组含多个数量级数据的集中位置。
适用于原始观察值分布不对称,但经对数转换后呈对称分布的资料,如对数正态分布资料。
观察值间常呈倍数关系,或变化范围跨越多个数量级。
1.直接法(基于原始数据)
G=nX1X2…Xn或G=log-1[logXn]
2.频率表法(也称加权法,基于频率表资料)
G=log-1[flogXn]
三、中位数
中位数常用符号M表示,是指将原始观察值从小到大排序后,位次居中的那个数,即理论上有一半的观察值低于中位数,一般都观察值高于中位数。
中位数适用于各种分布的资料,特别是偏峰分布资料、分布末端无确定值的资料等。
将n例观察值从小到大排列,第i个数据用XI*表示。
n为奇数时,
M=Xn+12*
n为偶数时,
M=12(Xn2*+Xn2+1*)
2.百分位数法(基于频率表资料)
百分位数常用符号Px表示,是排序后的全部实测值的某百等份分割值,即在全部实测值中有x%个体观察值比它小,有1-x%个体观察值比它大。
中位数就是一个特定的百分位数,即M=P50。
Px=L+iFL+i-FL(n*x%-FL)
其中L为欲求的百分位数所在组段的下限,i为该组段的组距,FL为截止至L的累计频数,FL+i-FL为该组段内的频数,n为总频数。
四、众 数
全部实测值中出现次数最多的数值即为众数。
第三节 描述离散趋势的统计指标
同一总体中不同个体存在的差异称为变异。
为比较全面地把握资料的分布特征,不仅需要了解数据的集中位置,而且需要了解数据的离散程度。
常用的描述离散趋势的统计量包括极差、四分位数间距、方差、标准差和变异系数。
一、极 差
极差,也称全距。
样本量接近的同类资料比较,极差越大意味着数据间变异越大。
极差只考虑数据的最大值和最小值,所以用极差反映数据的变异程度常常比较粗略和不稳定。
R=最大值—最小值
资料不限。
二、四分位数间距
四分位数间距表示百分位数P75和百分位数P25之差,理论上P25与P75之间恰好包括总体中间50%的个体观察值。
同类资料比较,Q越大意味着数据间变异越大。
用四分位数间距反映数据的变异程度比极差稳定。
Q=P75—P25
其中,P75和P25的求法参见前述百分位数求法。
适用条件:
四分位数间距可用于各种分布资料,特别对偏峰分布资料,常把中位数和四分位数间距结合起来描述资料的集中趋势和离散趋势。
三、方 差
方差考虑了全部观察值的变异程度。
总体方差用σ2表示,定义为观察值离均差平方和的算术均数;
样本方差用S2表示,是总体方差的无偏估计。
同类资料比较时,方差越大意味着数据间变异度越大。
总体方差σ2=(X-μ)2N
样本方差S2=(X-X)2n-1
见标准差。
四、标 准 差
方差的算术平方根称为标准差。
总体标准差用σ表示,样本标准差用S表示。
标准差的量纲与原变量一致,故实际应用中常使用标准差。
同类资料比较时,标准差越大意味着观察值间变异度越大。
总体标准差σ=(X-μ)2N
样本标准差S=(X-X)2n-1
其中,n-1称为自由度。
方差和标准差都适用于对称分布的资料,特别对正态分布或近似正态分布资料,常把均数和标准差结合起来,全面描述的集中趋势和离散趋势。
五、变 异 系 数
变异系数用CV表示,为标准差与算术均数之比,是一个不带量纲的相对数。
CV=SX×
100%
方差和标准差都适用于对称分布的资料,特别对正态分布或近似正态分布资料,常把均数和标准差结合起来,全面描述资料的集中趋势和离散趋势。
第四节 描述分布形态的统计指标
一、偏度系数
理论上总体偏度系数为0时,分布是对称的;
取正值时,分布为正偏峰;
取负值时分布为负偏峰。
SKEW=n(n-1)(n-2)(X-XS)3
二、峰度系数
理论上正态分布的总体峰度系数为0;
取负值时,其分布较正态分布的峰平阔取正值时,其分布较正态分布的峰尖峭。
KURT=n(n+1)(n-1)(n-2)(n-3)(X-XS)4-3(n-1)2(n-2)(n-3)
【补充练习题】
选择题
(一)A1型
每一道题下面有A、B、C、D、E五个备选答案,请从中选择一个最佳答案。
1.用频率表计算平均数时各组的组中值应为(E)
A.本组段变量值的平均数 B.本组段变量值的中位数
C.本组段的上限值 D.本组段的下限值
E.(本组段上限值+本组段下限值)/2
2.离散型定量