医学统计学考试重点8号更新Word文档下载推荐.docx
《医学统计学考试重点8号更新Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《医学统计学考试重点8号更新Word文档下载推荐.docx(16页珍藏版)》请在冰豆网上搜索。
(3)等级资料:
将观察单位按测量结果的某种属性的不同程度分组,所得各组的观察单位数,称为等级资料(ordinaldata)。
等级资料又称有序变量。
如患者的治疗结果可分为治愈、好转、有效、无效或死亡,各种结果既是分类结果,又有顺序和等级差别,但这种差别却不能准确测量;
一批肾病患者尿蛋白含量的测定结果分为+、++、+++等。
等级资料与计数资料不同:
属性分组有程度差别,各组按大小顺序排列。
等级资料与计量资料不同:
每个观察单位未确切定量,故亦称为半计量资料。
两种误差(2选1)
抽样误差(samplingerror)由于抽样而引起的总体指标(参数)与样本指标(统计数)之间的差异。
抽样误差是由个体变异或其它随机因素造成的,是不可避免的,但误差分布有规律可循,可进行估计和分析。
系统误差(systematicerror):
由于测量仪器结构本身的问题、刻度不准确或测量环境改变等原因,在多次测量时所产生的,总是偏大或总是偏小的误差,称为系统误差。
它带有规律性,经过校正和处理,通常可以减少或消除。
统计的步骤(考填空题,四个空)
统计工作的步骤
1.设计:
设计内容包括资料收集、整理和分析全过程总的设想和安排。
设计是整个研究中最关键的一环,是今后工作应遵循的依据。
2.收集资料:
应采取措施使能取得准确可靠的原始数据。
3.整理资料:
简化数据,使其系统化、条理化,便于进一步分析计算。
4.分析资料:
计算有关指标,反映事物的综合特征,阐明事物的内在联系和规律。
分析资料包括统计描述和统计推断。
实验设计的基本原则 (考填空题,三个空)
随机化原则、对照的原则、重复的原则。
参数:
参数(paramater)是指总体的统计指标,如总体均数、总体率等。
总体参数
是固定的常数。
多数情况下,总体参数是不易知道的,但可通过随机抽样抽取有代表性的样
本,用算得的样本统计量估计未知的总体参数。
统计量:
统计量(statistic)是指样本的统计指标,如样本均数、样本率等。
样本
统计量可用来估计总体参数。
总体参数是固定的常数,统计量是在总体参数附近波动的随机
变量。
第二章
频数表的制作步骤以及频数分布表的用途(问答题)
频数分布表的编制步骤:
例:
某市1982年50名7岁男童的身高(cm)资料如下,试编制频数表。
114.4 117.2 122.7 124.0 114.0 110.8 118.2 116.7 118.9 118.1
123.5 118.3 120.3 116.2 114.7 119.7 114.8 119.6 113.2 120.0
119.8 116.8 119.8 122.5 119.7 120.7 114.3 122.0 117.0 122.5
119.7 124.9 126.1 120.0 124.6 120.0 121.5 114.3 124.1 117.2
120.2 120.8 126.6 121.5 126.1 117.7 124.1 128.3 121.8 118.7
1、找出观察值中的最大值(largestvalue)、最小值(smallestvalue),求极差(range)。
极差等于最大值减最小值。
本例最大值=128.3,最小值=110.8,则极差=128.3-110.8=17.5(cm)
2、确定分组数和组距(classinterval)。
组数的多少是根据例数的多少来确定的,以能够反映出频数分布的特征为原则,一般分10—15组。
组距为相邻两组的间隔,组距=极差/组数。
本例拟分10组,则组距=17.5/10=1.75≈2,为划记方便,可取稍大或稍小的数(当然本例组距也可取1.5)。
3、确定组段。
第一组段包括要最小值,取较最小值稍小且划分方便的数,本例取“110~”。
最后组段包括最大值并写出其上限值。
4、划记。
将各观察值以划“正”字的方法,一笔代表一例,划在相应组段中。
例如第一个数l14.4应在组段“114~”处划,第二个数117.2应在“116~”处划,以此类推。
5、统计各组段的频数。
全部数据划记完后,清点各组段的人数。
根据编制出的频数表即可了解该数值变量资料的频数分布特征。
频数分布表的用途
1、描述资料的分布特征和分布类型。
频数分布有两个重要特征:
集中趋势和离散趋势。
大部分观察值向某一数值集中的趋势称为集中趋势,常用平均数指标来表示,各观察值之间大小参差不齐。
频数由中央位置向两侧逐渐减少,称离散趋势,是个体差异所致,可用一系列的变异指标来反映。
2、便于进一步计算有关指标或进行统计分析。
当数据较多且需手工计算时,常先编制频数表,再进行统计计算。
3、发现特大、特小的可疑值。
如果频数表的一端或两端出现连续几个组段的频数为零后,又出现少数几个特大值或特小值,使人怀疑其是否准确,需进一步检查和核对并做相应处理。
4、据此绘制频数分布图。
描述数据分布集中趋势的指标和描述数据分布离散程度的指标 (考选择或者填空)
2. 描述数据分布集中趋势的指标
算术均数、几何均数、中位数。
3. 描述数据分布离散程度的指标
极差、四分位数间距、方差、标准差、变异系数。
正态分布的特征(考选择题υ、σ对图形的影响)
服从正态分布的变量的频数分布由υ、σ完全决定。
(1)υ是正态分布的位置参数,描述正态分布的集中趋势位置。
正态分布以x=υ为对
称轴,左右完全对称。
正态分布的均数、中位数、众数相同,均等于υ。
(2)σ描述正态分布资料数据分布的离散程度,σ越大,数据分布越分散,σ越小,数
据分布越集中。
σ也称为是正态分布的形状参数,σ越大,曲线越扁平,反之,σ越小,曲
线越瘦高。
标准正态分布(填空)
1.标准正态分布是一种特殊的正态分布,标准正态分布的υ=0,σ2=1,通常用u(或Z)表示服从标准正态分布的变量,记为υ~N(0,12)。
正态分布的应用(简答)
某些医学现象,如同质群体的身高、红细胞数、血红蛋白量,以及实验中的随机误差,呈现为正态或近似正态分布;
有些指标(变量)虽服从偏态分布,但经数据转换后的新变量可服从正态或近似正态分布,可按正态分布规律处理。
其中经对数转换后服从正态分布的指标,被称为服从对数正态分布。
1.估计频数分布一个服从正态分布的变量只要知道其均数与标准差就可根据公式即可估计任意取值范围内频数比例。
2.制定参考值范围
(1)正态分布法适用于服从正态(或近似正态)分布指标以及可以通过转换后服从正态分布的指标。
(2)百分位数法常用于偏态分布的指标。
表3-1中两种方法的单双侧界值都应熟练掌握。
3.质量控制:
为了控制实验中的测量(或实验)误差,常以作为上、下警戒值,以作为上、下控制值。
这样做的依据是:
正常情况下测量(或实验)误差服从正态分布。
4.正态分布是许多统计方法的理论基础。
检验、方差分析、相关和回归分析等多种统计方法均要求分析的指标服从正态分布。
许多统计方法虽然不要求分析指标服从正态分布,但相应的统计量在大样本时近似正态分布,因而大样本时这些统计推断方法也是以正态分布为理论基础的。
医学参考值范围的制定(计算题)
确定参考值范围的单双侧:
一般生理物质指标多为双侧、毒物指标则多为单侧。
确定百分位点:
一般取95%或99%。
例题
某市20岁男学生160人的脉搏数(次/分钟),经正态性检验服从正态分布。
求得
=76.10,S=9.32。
试估计脉搏数的95%、99%参考值范围。
解:
脉搏数的95%正常值范围为:
±
1.96S=76.10±
1.96(9.32)=57.83~94.37
脉搏数的99%正常值范围为:
±
2.58S=76.10±
2.58(9.32)=52.05~100.37
第三章
标准误的概念,计算公式。
标准误
:
抽样研究中,样本统计量与总体参数间的差别称为抽样误差(samplingerror)。
统计上用标准误(standarderror,SE)来衡量抽样误差的大小,即样本均数的标准差,是描述均数抽样分布的离散程度及衡量均数抽样误差大小的尺度。
t分布的图形特征及其与正态分布的区别(简答)
t分布的图形特征
1.以0为中心,左右对称的单峰分布;
2.t分布是一簇曲线,其形态变化与n(确切地说与自由度ν)大小有关。
自由度ν越小,t分布曲线越低平;
自由度ν越大,t分布曲线越接近标准正态分布(u分布)曲线。
t分布
对应于每一个自由度ν,就有一条t分布曲线,每条曲线都有其曲线下统计量t的分布规律,计算较复杂。
t分布与正态分布比较的区别
t分布与标准正态分布相比有以下特点:
①都是单峰、对称分布;
②t分布峰值较低,而尾部较高;
③随自由度增大,t分布趋近与标准正态分布;
当ν趋向∞,t分布的极限分布是标准正态分布。
置信区间和参数估计(名解2选1)
置信区间:
在统计学中,一个概率样本的置信区间(Confidenceinterval)是对这个样本的某个总体参数的区间估计。
置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。
给出的是被测量参数的测量值的可信程度。
1、对于具有特定的发生概率的随机变量,其特定的价值区间------一个确定的数值范围(“一个区间”)。
2、在一定置信水平时,以测量结果为中心,包括总体均值在内的可信范围。
3、该区间包含了参数θ真值的可信程度。
4、参数的置信区间可以通过点估计量构造,也可以通过假设检验构造。
参数估计:
指用样本指标值(统计量)估计总体指标值(参数)。
参数估计有两种方法:
点估计和区间估计。
可信区间与参考值范围的不同点(简答)
应注意:
可信区间与参考值范围的意义、计算公式和用途均不同。
1.从意义和用途来看
95%参考值范围是指同质总体内包括95%个体值的估计范围,而总体均数95%可信区间是指按95%可信度估计的总体均数的所在范围。
可信区间用于估计总体参数,总体参数只有一个。
参考值范围用于估计变量值的分布范围,变量值可能很多甚至无限。
2.从计算公式看
若指标服从正态分布,95%参考值范围的公式是:
1.96s。
总体均数95%可信区间的公式是:
。
前者用标准差,后者用标准误。
前者用1.96,后者用α为0.05,自由度为v的t界值。
t检验的应用条件和类型(填空)
t检验的应用条件:
要求各样本来自相互独立的正态总体且各总体方差齐。
t检验的类型:
单样本t检验,独立t检验,配对t检验
配对设计和完全随机设计(名解2选1)
完全随机设计(completelyrandomdesign):
完全随机设计仅涉及一个处理因素(但可为多水平),故又称单因素(one-way)设计。
它是将受试对象按随机化的方法分配到各个处理组中,观察实验效应,临床试验中的随机对照试验也属于此类设计。
配对设计(paireddesign):
是将受试对象按一定条件匹配成对,再随机分配每对中的两个受试对象到不同处理组。
配对的因素是影响实验效应的主要非处理凶素。
假设检验的基本求解步骤或者注意事项。
(简答2选1)
假设检验的基本步骤
1.建立假设,确定检验水准α
假设有零假设(H0)和备择假设(H1)两个,零假设又叫作无效假设或检验假设。
H0和H1的关系是互相对立的,如果拒绝H0,就要接受H1.根据备择假设不同,假设检验有单、双侧检验两种。
检验水准用α表示,通常取0.05或0.10.检验水准说明了该检验犯第一类错误的概率。
2.根据研究目的和设计类型选择适合的检验方法
这里的检验方法,是指参数检验方法,有u检验、t检验和方差分析三种,对应于不同的检验公式。
对双样本资料,要注意区分成组设计和配对设计的资料类型。
如果资料里有"
配成对子"
字样,或者是对同一对象用两种方法来处理,一般就可以判定是配对设计资料。
3.确定P值并作出统计结论
u检验得到的是u统计量或称u值,t检验得到的是t统计量或称t值。
方差分析得到的是F统计量或称F值。
将求得的统计量绝对值与界值相比,可以确定P值。
当α=0.05时,u值要和u界值1.96相比较,确定P值。
如果u<1.96,则P>0.05.反之,如u>1.96,则P<0.05.t值要和某自由度的t界值相比较,确定P值。
如果t值<t界值,故P>0.05.反之,如t>t界值,则P<0.05.相同自由度的情况下,单侧检验的t界值要小于双侧检验的t界值,因此有可能出现算得的t值大于单侧t界值,而小于双侧t界值的情况,即单侧检验显著,双侧检验未必就显著,反之,双侧检验显著,单侧检验必然会显著。
即单侧检验更容易出现阳性结论。
当P>0.05时,接受零假设,认为差异无统计学意义,或者说二者不存在质的区别。
当P<0.05时,拒绝零假设,接受备择假设,认为差异有统计学意义,也可以理解为二者存在质的区别。
但即使检验结果是P<0.01甚至P<0.001,都不说明差异相差很大,只表示更有把握认为二者存在差异。
假设检验时应注意的事项
(一)要有严密的抽样研究设计;
样本必须是从同质总体中随机抽取的;
要保证组间的均衡性和资料的可比性。
(二)根据现有的资料的性质、设计类型、样本含量大小正确选用检验方法。
(三)对差别有无统计学意义的判断不能绝对化,因检验水准只是人为规定的界限,是相对的。
差别有统计学意义时,是指无效假设h0被接受的可能性只有5%或不到5%,甚至不到1%,根据小概率事件一次不可能拒h0,但尚不能排除有5%或1%出现的可能,所以可能产生第一类错误;
同样,若不拒绝h0,可能产生第二类错误。
(四)统计学上差别显著与否,与实际意义是有区别的。
如应用某药治疗高血压,平均降低舒张压0.5kpa,并得出差别有高度统计学意义的结论。
从统计学角度,说明该药有降压作用,但实际上,降低0.5kpa是无临床意义。
因此要结合专业作出恰如其分的结论。
第一类错误与第二类错误(名解2选1)
Ⅰ型错误又称第一类错误(typeⅠerror):
拒绝了实际上成立的
,为“弃真”的错误,其概率通常用
表示。
可取单尾也可取双尾,假设检验时研究者可以根据需要确定
值大小,一般规定
=0.05或
=0.01,其意义为:
假设检验中如果拒绝
时,发生Ⅰ型错误的概率为5%或1%,即100次拒绝
的结论中,平均有5次或1次是错误的。
Ⅱ型错误又称第二类错误(typeⅡerror):
不拒绝实际上不成立的
,为“存伪”的错误,其概率通常用
只取单尾,假设检验时
值一般不知道,在一定情况下可以测算出,如已知两总体的差值
(如
)、样本含量
和检验水准
以下图说明两类错误:
第四章
为什么等级资料不可用方差分析?
资料不相互独立
方差分析的基本思想应用条件(简答)
方差分析(analysisofvariance,ANOVA)的基本思想就是根据资料的设计类型,即变异的不同来源将全部观察值总的离均差平方和(sumofsquaresofdeviationsfrommean,SS)和自由度分解为两个或多个部分,除随机误差外,其余每个部分的变异可由某个因素的作用(或某几个因素的交互作用)加以解释,如各组均数的变异SS组间可由处理因素的作用加以解释。
通过各变异来源的均方与误差均方比值的大小,借助F分布作出统计推断,判断各因素对各组均数有无影响。
方差分析的应用条件
(1)各样本是相互独立的随机样本,且来自正态分布总体。
(2)各样本的总体方差相等,即方差齐性(homoscedasticity)。
第五章
分类资料的统计描述(几个常用相对数指标填空题)
率(强度相对数,频率相对数)、构成比、相对比
应用相对数时应注意的问题(简答题六条)
⑴计算相对数的分母一般不宜过小。
⑵分析时不能以构成比代替率。
⑶不能用构成比的动态分析代替率的动态分析。
⑷对观察单位数不等的几个率,不能直接相加求其总率。
⑸在比较相对数时应注意可比性。
⑹对样本率(或构成比)的比较应随机抽样,并做假设检验。
率的标准化的基本思想,应注意的问题(分析题)
率的标准化的基本思想 :
要比较两个总率时,发现两组资料的内部构成(如年龄、性别构成等)存在明显不同,而且影响到了总率的结果,这时就不宜再直接比较总率,而应考虑采用标准化法。
标准化法的基本思想,就是采用统一的标准(统一的内部构成)计算出消除内部构成不同影响后的标准化率(调整率),然后再进行比较。
二、直接标准化法的计算方法
当已知所比较资料各组率Pi,可选用直接法计算标化率。
三、间接标准化死亡比的计算方法
当所比较的资料已知各自某现象总发生数r及各分组观察单位数时,宜采用间接法计算标化率。
第六章
二项分布,Piosson分布在什么条件下接近正态分布(选择或填空)
第七章(考计算题)
配对与完全随机设计下的四格表的计算
列四格表
公式选择
给个例题把
为研究静脉曲张是否与肥胖有关,观察122对同胞兄弟,每对同胞兄弟中有一个属肥胖,另一个属正常体重,记录得静脉曲张发生情况见表8-2,试分析之。
[评析]这是一个配对设计的资料,因此用配对
检验公式计算。
第八章
参数统计与非参数统计(名解2选1)
1.参数统计
样本所来自的总体分布具有某个已知的函数形式,而其中有的参数是未知的,统计分析的目的就是对这些未知的参数进行估计或检验。
此类方法称为参数统计。
2.非参数统计
样本所来自的总体分布难以用某种函数式来表达,还有一些资料的总体分布的函数式是未知的,只知道总体分布是连续型的或离散型的,解决这类问题的一种不依赖总体分布的具体形式的统计方法。
由于这类方法不受总体参数的限制,故称非参数统计法(non-parametricstatistics),或称为不拘分布(distribution-freestatistics)的统计分析方法,又称为无分布型式假定(assumptionfreestatistics)的统计分析方法。
它检验的是分布,而不是参数。
非参数统计不需对总体分布(总体参数)作出特殊假设。
非参数统计的特点和适用范围(简答)
1.特点
(1)样本所来自的总体的分布形式为任何形式,甚至是未知的,都能适用。
(2)收集资料方便,可用“等级”或“符号”来评定观察结果。
(3)多数非参数方法比较简便,易于理解和掌握。
(4)缺点是损失信息量,适用于参数统计法的资料用非参数统计方法进行检验将降低检验效能。
2.适用范围
(1)等级资料。
(2)偏态分布资料。
当观察资料呈偏态或极度偏态分布而又未作变量变换,或虽经变量变换仍未达到正态或近似正态分布时,宜用非参数检验。
(3)各组离散程度相差悬殊,即方差明显不齐,且不能变换达到齐性。
(4)个别数据偏离过大,或资料为单侧或双侧没有上限或下限值。
(5)分布类型不明。
(6)初步分析。
有些医学资料由于统计工作量大,可采用非参数统计方法进行初步分析,挑选其中有意义者再进一步分析(包括参数统计内容)。
(7)对于一些特殊情况,如从几个总体所获得的数据,往往难以对其原有总体分布作出估计,在这种情况下可用非参数统计方法。
非参数检验的优缺点:
(简答)
非参数统计与传统的参数统计相比,有以下优点:
1、非参数统计方法要求的假定条件比较少,因而它的适用范围比较广泛。
2、多数非参数统计方法要求的运算比较简单,可以迅速完成计算取得结果,因而比较节约时间。
3、大多数非参数统计方法在直观上比较容易理解,不需要太多的数学基础知识和统计学知识。
4、大多数非参数统计方法可用来分析如象由等级构成的数据资料,而对计量水准较低的数据资料,参数统计方法却不适用。
5、当推论多达3个以上时,非参数统计方法尤具优越性。
但非参数统计方法也有以下缺点:
1、由于方法简单,用的计量水准较低,因此,如果能与参数统计方法同时使用时,就不如参数统计方法敏感。
若为追求简单而使用非参数统计方法,其检验功效就要差些。
这就是说,在给定的显著性水平下进行检验时,非参数统计方法与参数统计方法相比,第Ⅱ类错误的概率β要大些。
2、对于大样本,如不采用适当的近似,计算可能变得十分复杂。
注意:
凡符合或经过变换后符合参数检验条件的资料,最好用参数检验。
当资料不具备参数检验的条件时,非参数检验是一种有效的分析方法。
配对设计的符号秩和检验方法(简答)
(1)假设:
H0:
差值总体中位数Md=0
H1:
Md≠0
α=0.05
(2)求差值
(3)编秩次:
依差值的绝对值从小到大编秩次。
编秩次时遇差数等于0,舍去不计,同时样本例数减1;
遇绝对值相等差数,符号相同顺次编秩次,符号相反取平均秩次,且符号相反。
(4)求秩和并确定检验统计量:
分别求出正负秩次之和,正秩和以T+表示,负秩和的绝对值以T-表示。
T+及T-之和应等于n(n+1)/2,任取T+(或T-)作检验统计量T。
(5)确定P值和作出推断结论:
当n≤50时,查T界值表,得出P值。
若检验统计量T值在上、下界值范围内,其P值大于表上