医学统计学复习知识点汇集.doc
《医学统计学复习知识点汇集.doc》由会员分享,可在线阅读,更多相关《医学统计学复习知识点汇集.doc(3页珍藏版)》请在冰豆网上搜索。
![医学统计学复习知识点汇集.doc](https://file1.bdocx.com/fileroot1/2022-10/19/5318e93e-90e7-4d41-bb28-e44c45caad09/5318e93e-90e7-4d41-bb28-e44c45caad091.gif)
正态分布(normaldistribution):
随着观察例数逐渐增多,组段不断分细,直方图顶端的连线就会逐渐形成一条高峰位于中央(均数所在处),两侧逐渐降低且左右对称,不与横轴相交的光滑曲线,称频数曲线,近似于数学上的正态分布。
变异系数(coefficientofvariance):
是相对数没有单位,用来比较度量单位不同或均数相差悬殊的两组或多组资料间的变异度。
抽样误差(samplingerror):
总体中各个体间存在差异,从总体中随机抽取一定量的样本,由样本计算的统计与总体参数之间的差异或各样本统计量之间的差异,称为抽样误差。
第一类错误:
拒绝了实际上成立的H0,即样本原本来自μ=μ0的总体,由于抽样的偶然性得到了较大的t值,较小的P值,按α=0.05检验水准拒绝了H0,接受了H1,这类“弃真”错误称为第一类错误。
假设检验(hypothesistest):
亦称显著性检验,其基本思想是先对总体的参数或分布做出某种假设,然后根据样本信息选用适当的方法,推断此假设应当拒绝或不拒绝。
同质(homogeneity):
指被研究指标的影响因素相同;
变异(variation):
指同质基础上的各观察单位间的差异。
变量(variable):
进行搜集资料时,都要有明确的观察单位,然后对每个观察单位的某项特征进行观测,这种被观察单位的特征称为变量。
总体:
总体是根据研究目的确定的同质研究对象中所有观察单位某种变量值的集合。
样本:
样本是从总体中随机抽取部分观察单位(有代表性),其变量值的集合。
概率:
是描述随机事件发生的可能性大小的量(数值),统计学上用符号“P”来表示。
误差:
指测定值与真实值或研究结果与实际情况之间的差别,有系统误差、随机测量误差和抽样误差。
参数(paramerter):
描述总体变量值特征的指标,一般未知,需通过样本指标估计,用希腊字母表示。
统计模型(statisticalmodel):
指以概率论为基础,采用数学统计方法建立的模型.常用的这类模型有:
标准差模型,回归模型.
可信区间(confidenceinterval):
是按一定的概率100(1-)%估计总体均数所在的范围,亦称估计区间。
常取的可信度为95%和99%。
卡方检验(chi-squaretest):
是一种用途很广的假设检测方法,适用于分类变量资料中推断两个或多个总体率(或构成比)之间有无差别,两个分类指标之间有无相关关系的检验以及检验频数分布的拟合优度。
样本例数(samplesize):
又称样本含量,样本大小,指样本中所包含的观察单位数。
四分位数间距(quartilerange):
为上四分位数QU(即P75)与下四分位数QL(即P25)之差。
其间包括一组观察值的一半,可看成是中间50%观察值的极差。
其数值越大,变异度越大,反之,变异度越小。
常用于描述偏态频数分布及分布的一端或两端无确切数值资料的离散程度。
全距(range):
亦称极差,为一组同质观察值中最大值与最小值之差。
它反映了个体差异的范围,描述定量资料的变异度大小。
频数表的用途和基本步骤:
(1)揭示资料的分布特征和分布类型;
(2)便于进一步计算指标和分析处理;(3)便于发现某些特大或特小可疑值。
基本步骤:
(1)求出极差;
(2)确定组段,一般设8~15个组段;(3)确定组距;组距=R/组段数,但一般取一方便计算的数字;(4)列出各个组段并确定每一组段频数。
统计工作的步骤:
(1)设计;
(2)搜集资料;来源:
医学领域的统计资料主要来自三个方面,统计报表,经常性工作记录,专题调查或专题实验;要求:
统计学对原始资料的要求是完整、准确、及时;贮存:
注意资料的时效性、磁盘备份等。
(3)整理资料:
检查核对准确性和完整性,设计分组,拟定整理表,归表。
(4)分析资料统计分析包括统计描述和统计推断(参数估计,假设检验)。
计量资料(数值变量):
集中趋势(均数、几何均数、中位数、众数和调和均数,是描述一组同质观察值的平均水平或中心位置的指标)离散趋势:
极差(全距)、四分位数间距、方差(总体方差和样本方差)、标准差和变异系数。
计数资料(分类变量):
相对数(率、构成比、相对比、动态数列)
总体方差:
样本方差:
标准误越小,表示抽样误差越小,样本平均数对总体平均数估计越可靠。
t分布:
总体均数可信区间估计:
(1)σ未知且n小时(n小于30或50),按分布原理计算可信区间。
(2)σ未知但n足够大时(n大于100),t分布近似正态分布,按正态分布原理估计可信区间。
(3)σ已知,按正态分原理估计可信区间。
可信区间有两个要素:
准确度(accuracy)和精密度(precision)。
准确度反映可信度的大小,即可信区间包容总体均数的概率愈接近1愈好;精密度反映可信区间的长度,区间长度愈小精密度愈高。
二者相互矛盾,常用95%可信区间。
poisson分布:
总体参数的估计:
(1)查表法:
当样本计数X≤50,查poisson分布μ的可信区间;
(2)正态近似法:
当样本计数X>50,
总体率的估计(二项分布):
(1)查表法:
当样本含量n≤50,特别是p很接近于0或1时,按二项分布原理估计总体率的可信区间,可根据样本含量n和阳性例数X乾地查表查出总体率的可信区间。
(2)近态近似法:
当样本含量n足够大,且np>5且n(1-p)>5,样本率p的抽样分布近似正态分布,总体率的可信区间
已知:
n=,p=
np=?
>5n(1-p)=?
>5
总体率的可信区间
实际准备的药物:
求出的上下限分别乘以总n。
正态分布、二项式和泊松分布的关系:
二项分布(binomialdistribution):
对只具有两种互斥结果的离散型随机事件的规律性进行描述的一种概率分布。
Poisson分布是在π很小,样本含量n趋于无穷大时,二项分布的极限形式。
当v=∞时,t分布即为u分布,趋向正态分布。
正态分布的特征:
正态曲线在横轴上方均数处最高;以均数为中心,左右对称;正态分布有两个参数,即均数μ(位置参数)和标准差σ(形状参数),μ越大,曲线沿横轴越向右移动;σ越大,曲张越平阔;正态分布在±1σ处各有个拐点;正态曲线下的面积分布有一定的规律。
t分布的特征:
以0为中心,左右两侧对称的单峰型分布;t分布曲线的变化与自由度的大小有关,自由度v越小,则t值越分散,曲线越低平;自由度v逐渐增大时,则t分布逐渐逼近正态分布。
当v=∞时,t分布即为u分布。
标准正态分布(u分布)与t分布有何异同?
答:
相同点:
t分布和标准正态分布(u分布)都是以0为中心的正态分布。
标准正态分布是t分布的特例(自由度是无限大时)。
不同点:
t分布为抽样分布,u分布为理论分布;t分布比标准正态分布的峰值低,且尾部翘得更高;t分布受自由度大小的影响,随着自由度的增大,逐渐趋近于标准正态分布;t分布有无数条曲线,而u分布只有唯一一条曲线。
直线回归方程的应用:
(1)定量描述两变量之间的依存关系;
(2)利用回归议程进行预测;(3)利用回归议程进行统计控制。
应用直线回归的注意事项:
(1)作回归分析要有实际意义;
(2)直线回归分析的资料,一般要求因变量Y是来自正态分布总体的随机变量,自变量X可以是正态随机变量,也可以是精确测量和严格控制的值。
(3)进行回归分析时,应先绘制散点图,如提示有直线趋势,可作线性回归分析,否则应考虑作数据转换或进行非线性回归;(4)对离群值应检查核对,予以修正或剔除;(5)回归直线不要外延。
t检验的注意事项:
(1)要有严密的抽样设计,随机、均衡、可比。
(2)选用的检验方法必须符合其适用条件(注意:
t检验的前提是资料服从正态分布)。
(3)单侧检验和双侧检验,单侧检验的界值小于双侧检验的界值,因此更容易拒绝,犯第Ⅰ错误的可能性大。
(4)假设检验的结论不能绝对化。
不能拒绝H0,有可能是样本数量不够,拒绝H0,有可能犯第Ⅰ类错误。
(5)正确理解P值与差别有无统计学意义。
P越小,不是说明实际差别越大,而是说越有理由拒绝H0,越有理由说明两者有差异,差别有无统计学意义和有无专业上的实际意义并不完全相同。
(6)假设检验和可信区间的关系。
结论具有一致性,提供的信息不同。
区间估计给出总体均值可能取值范围,但不给出确切的概率值,假设检验可以给出H0成立与否的概率。
假设检验时应注意的事项
(1)要有严密的抽样研究设计;样本必须是从同质总体中随机抽取的,要保证组间的均衡性和资料的可比性,可能影响结果的非处理因素在对比组间应尽可能相同或相近;
(2)正确选择检验方法;根据现有的资料类型、设计类型、分析目的、样本含量等因素选用适当的检验方法,如不符合条件可做适当转换;(3)正确理解“差别无显著性”的含义,差别有统计学意义,不能理解为两者差差大,也不能理解为所分析的指标在实际应用上就有“显著效果”。
(4)检验假设的推断结论为概率结论,不能绝对化:
检验水准人为规定,是相对的,报告结论时应列出检验统计量和P值的确切范围。
(5)注意是单侧检验还是双侧检验。
假设检验的步骤:
(1)建立假设和确定检验水准:
根据实际情况确定单、双侧检验,建立假设,确定检验水准;
(2)选定检验方法和计算统计量:
根据设计的类型及研究目的选择合适的检验方法并计算出对应的统计量;(3)确定P值并做出推断结论。
若t≥tα,v,则P≤α,按检验水准,拒绝H0,接受H1,尚可认为差异显著有统计学意义;相反则差异不显著,无统计学意义。
应用相对数时的注意事项有哪些?
(1)正确区分分子、分母,且计算相对数的分母不宜过小;观察例数过小时抽样误差较大,计算的相对数往往不稳定,可靠性差。
所以当观察例数较少(如少于30例)时,一般以绝对数表示为好,如以相对数表示,应给出其可信区间。
(2)分析时不能以构成比代替率;(3)对观察单位数不等的几个率,不能直接相加求其平均率;(4)资料的对比应注意可比性;(5)对样本率(或构成比)的比较应遵循随机抽样,要做假设检验;(6)要正确选择分子和分母的数值,要能说明事物的特点和性质;(7)计算构成比也可以是划分为各组间的定量指标资料,同一事物各组成部分的构成比之和应为1或100%。
可信区间与参考值范围的区别:
意义、计算公式和用途均不同。
(1)参考值范围是指同质总体内包括百分之几十个体值的估计范围。
而可信区间是指在百分之几十的可信度估计的总体参数的所在范围。
(2)同样的百分之几十,参考值范围是样本范围,可信区间是指可信度范围,二者有着本质的不同。
(3)从意义来看,95%参考值范围是指同质总体内包括95%个体值的估计范围,而总体均数95%可信区间是指按95%可信度估计的总体均数的所在范围。
(4)从计算公式看,若指标服从正态分布,95%参考值范围的公式是:
±1.96s。
总体均数95%可信区间的公式是:
。
前者用标准差,后者用标准误。
前者用1.96,后者用α为0.05,自由度为v的t界值。
(5)从用途上看,可信区间用来估计总体均数,参考值范围用来判断观察对象的某项指标是否正常。
简述检验假设与可信区间的联系与区别。
答:
(1)可信区间用于推断总体参数所在的范围,假设检验用于推断总体参数是否不同。
前者估计总体参数的大小,后者推断总体参数有无质的不同。
(2)可信区间也可回答假设检验的问题。
但可信区间不能提供确切的P值范围,只能给出在α水准上有无统计意义。
(3)可信区间还可提示差别有无实际意义。
简述标准差、标准误的区别与联系?
区别:
(1)含义不同:
标准差S表示观察值的变异程度,描述个体变量值(x)之间的变异度大小,S越大,变量值(x)越分散;反之变量值越集中,均数的代表性越强。
标准误估计均数的抽样误差的大小,是描述样本均数之间的变异度大小,标准误越大,样本均数与总体均数间差异越大,抽样误差越大;反之,样本均数越接近总体均数,抽样误差越小。
(2)与n的关系不同:
n增大时,S趋于σ(恒定),标准误减少并趋于