统计学名词解释.docx
《统计学名词解释.docx》由会员分享,可在线阅读,更多相关《统计学名词解释.docx(36页珍藏版)》请在冰豆网上搜索。
统计学名词解释
名词解释:
医学统计学:
用统计学的原理和方法研究生物医学问题的一门学科。
变量(variable):
观察单位的某项特征
变量值(valueofvariable):
变量的观察结果(测量值)
总体(population):
是根据研究目的确定的同质的观察单位的全体,确切的说是同质的所有的观察单位某种变量值的集合。
样本(sample)从总体中随机抽取部分由代表性的观察单位,其测量值的集合称为样本。
随机抽样(randomsample):
按随机化原则从总体中抽取部分观察单位的过程。
同质(homogeneity):
是针对被研究指标来讲,其影响因素相同。
简单地理解就是指对研究指标影响大约可以控制的主要因素应尽可能相同。
变异(variation):
指在自然地状态下,个体测量结果在同质基础上的差异。
等级资料(ordinaldata):
将观察单位按测量结果的某种属性的不同程度分组,所得各组的观察单位称为等级资料,如患者的治疗结果可分为治愈,好转,有效,无效,死亡。
有序变量(定性变量的一种)。
概率(probability):
是度量某一随机事件A发生可能性大小的一个数值,记为P(A),P(A)越大,说明A事件发生的可能性越大,0
频率(frequency):
在相同的条件下,独立重复做n次实验,事件A出现了m次,比值m/n称为随机事件A在n次实验中出现的频率。
随机误差(randomerror):
排除了系统误差后的尚存的误差,受多种因素影响,使观察值不按照方向性和系统性而随机的变化,误差变量一般服从正态分布,可以通过统计处理来估计。
系统误差(systemerror):
由于受试对象,研究者,仪器设备,研究方法等非实验因素影响等确定性原因造成,有一定倾向性或规律性的误差,可以避免。
随机变量(randomvariable):
是指取值不能事先确定的观察结果,不能用一个正常数来表示,每个变量的取值服从特定的概率分布。
参数(parameter):
根据总体分布特征而计算的总体统计指标。
统计量(statistic):
由总体中随机抽取样本而计算的相应样本指标。
频数表(frequencytable):
将各变量值及其相应的频数列出表格形式,用来表示一批数据各观察值出现的频繁程度。
算术均数(arithmeticmean):
描述一组数据在数量上的平均水平。
总体均数用µ表示,样本均数用
表示。
几何均数(geometricmean):
描述对数正态分布或数据呈倍数变化资料的水平,记为G.
中位数(median),将一组观察值由小到大排列,n为奇数时取位次居中的变量值,为偶数时,取位次居中的两个变量的平均值。
极差(range):
又称全距,为最大值与最小值之差,用于资料的粗略分析,计算简便但稳定性较差。
符号R.
百分位数(percentile):
将n个观察值从小到大依次排列,再把它们的位次转化为百分位。
四分位数间距(interquarnlerange):
表示百分位数P75和百分位数P25之差,定义为Q=P75-P25.。
方差(variance):
表示一组数据的平均离散情况,由离均差的平方和除以样本个数得到。
标准差(standarddeviation):
是描述反映正态分布计量资料离散程度的指标。
是方差的正平方根,使用的量纲与原量纲相同,适用于近似正态分布的资料,大小样本均可,最为常用。
变异系数(coefficientofvariation):
用于量纲不同和变量间或均数相差较大的变量间变异程度的比较,其计算公式为:
CV=
正态曲线(normalcurve)是函数f(X)=
对应的曲线,此曲线是一条高峰位于中央,两侧逐渐下降并完全对称,曲线两端永远不与横轴相交的钟形曲线。
正态分布(normaldistribution):
若指标X的频率曲线对应于正态曲线,则称该指标服从正态分布,通常用记号N(µ,σ2)表示均数为标准差为的正态分布。
标准正态分布(standardnormaldistribution):
均数为0标准差为1的正态分布为标准正态分布,记为N(0,1).
标准化转换(standardizedtransformation):
若随机变量X服从正态分布N(µ,σ2),经过标准化转换Z=
就服从标准正态分布。
统计推断(statisticalinference):
通过样本指标来说明总体特征,这种从样本获取有关总体信息的过程为统计推断。
抽样误差(samplingerror):
由个体差异产生,由于抽样而造成的样本统计量与样本统计量及样本统计量与总体参数之间的差异称为抽样误差,无倾向性,不可避免。
均数的标准误(standarderrorofmeanSEM):
用于表示均数抽样误差的指标,反映样本均数之间的离散程度和样本均数抽样误差的大小。
可信区间(confidenceintervalCI):
为按预先给定的概率确定的包含未知总体参数的可能围,含义是包含总体参数的可能性是1-a。
自由度:
n个变量中,可自由取值的变量的个数。
参数估计:
用样本指标(统计量)估计总体指标(参数),有点估计和区间估计两种。
假设检验中P的含义:
指从H0规定的总体随机抽得的等于及大于(或等于及小于)现有样本获得的检验统计量值的概率。
I类错误:
拒绝了实际上成立的H0这类弃真的错误称为I类错误,概率大小用alfa表示。
II类错误:
接受了实际上不成立的H0这类存伪的错误称为II类错误,概率大小用β表示。
检验效能:
是指当两总体确有差别,按规定的检验水准所能发现该差异的能力。
数值表示:
1-β
检验水准:
是预先规定的,当假设检验结果拒绝H0接受H1下有差别的结论时犯错误的概率称为检验水准,记为α
均方:
有离均差平方和被自由度相除而得。
方差分析:
根据资料的设计类型,即变异的不同来源将全部观察值总的离均差平方和与自由度分解为两个或多个部分,除随机误差外,其余每个部分的变异可由某个或某几个因素的作用加以解释,通过各变异来源地均方与误差均方比值的大小,借助F分布做出统计推断,判断各因素对观测指标有无影响。
总变异:
样本中全部实验单位差异称为总变异,其大小可用全部观察值的均方表示。
组间变异:
各处理组间观察值大小不等,这种变异称为组间变异,可用组间均方表示。
组变异:
各处理组部观察值大小不等,这种变异称为组变异,可用组均方表示。
完全随机设计:
只考虑一个处理因素,将全部受试对象随机分配到各处理组,然后观察实验效应。
随机区组设计:
事先将全部受试对象按自然属性分为若干区组,原则是各区组的受试对象的特征相同或相近,且受试对象数与处理因素的水平相等,然后将每个区组的观察对象随机地分配到各处理组。
相对数:
是两个有联系的指标之比,是分类变量常用的描述性统计指标,常用相对数有“率,构成比,比”等。
率:
频率指标,说明一定时期某现象发生的频率或强度,计算公式为发生某现象的观察单位数除以可能发生某现象的观察总体值*100%表示方式有百分率%,千分率。
构成比:
构成指标。
说明某一事物部的各组成部分所占的比重或分布,计算公式为:
某一组分的观察单位数除以同一事物各组分的观察单位总数*100%,表示方法有百分数等。
比相对比。
是AB两个有关指标之比,说明A是B的若干倍或百分之几,计算公式为比等于
。
标准化法:
常用于部构成不同的两个或多个率比较的一种方法,基本思想是指定一个统计标准,按指定标准计算调制率,使之具备可比性以后再比较,以消除由于部构成不同对总率比较带来的影响。
定基比:
统一用某个时间的指标作为基数,其它各时间的指标与之相比。
环比:
以前一个时间的指标作基数,以相邻的后一个时间的指标与之相比。
平均增长速度:
用于概括某一时期的平均速度变化,即该时期环比的几何均数减1。
计算公式为平均增长速度=平均发展速度-1=
粗死亡率(crudedeathrateCDR):
或死亡率(mortalityrate),指某地某年平均每千人口中的死亡数,它反映居民总的死亡水平。
发病率(incidencerateIR):
表示一定时期,可能发生某病的一定人群中新发生某病的强度。
患病率(prevalenceratePR):
又称现患率,指某时刻点上受检人群中现患某种疾病的频率,通常用于描述病程较长或发病时间不明确的疾病的患病情况。
动态数列(dynamicseries)按一定的时间顺序,将一系列描述事物的统计指标依次排列起来,就可以观察和比较该事物在时间上的变化和发展趋势。
标化死亡率(standardizedmortalityrateSMR):
寻找一个统一的分布作为标准组,然后每个比较组均按照该分布标准计算相应的死亡率,所得到的死亡率是相对于标准组的,故称为标化死亡率,由于采取了统一的标准,消除了部分布不同对总死亡率的影响,使算得的标化死亡率具有可比性。
二项分布(Binomialdistribution):
如果每一次实验只有阳性或阴性两种可能的结果,每次实验阳性结果的发生概率均为π,阴性结果均为1-π,每次实验结果是相互独立的,那么重复n次实验,发生阳性结果次数X的概率分布称为二项分布。
拟合优度:
指一种度量某事物的频数分布是否符合某一理论分布或数据是否与模型吻合的方法。
非参数统计:
不依赖于总体分布类型,也不对总体参数进行统计推断的假设检验。
参数统计:
通常要求样本来自总体分布型是已知的,在这种假设的基础上,对总体参数进行估计和检验。
秩次:
变量值按从小到大顺序所编的秩序号。
秩和:
各组秩次的合计称为秩和,是非参数检验的基本统计量。
直线回归:
建立一个描述应变量依自变量而变化的直线方程,并要求各点与该直线纵向距离的平方和为最小。
回归系数:
即直线的斜率,直线回归方程中用b表示,其统计意义为X每增减一个单位,Y平均改变b个单位。
直线相关:
用于双变量正态分布资料,有正相关,负相关和零相关等关系。
零相关表示两变量之间美欧直线相关系数。
相关系数或积差相关系数:
以符号γ表示样本相关系数,p表示总体相关系数,它是说明具有直线关系的两个变量间相关关系的密切程度与相关方向的指标。
秩相关或等级相关:
用双变量等级数据作直线相关分析,适用于1,不服从双变量正态分布而不宜作积差相关分析,2,总体分布型未知,3,用等级表示原始数据。
统计图:
将统计指标用几何图形表达,即以点的位置,线段的升降,直条的长短和面积的大小等形式直观的表示事物间的数量关系。
安慰剂对照:
在实验研究中,对照组使用一种外形与实验药物完全相同而毫无药理作用的物质,这种对照称为安慰剂对照。
随机化:
指研究对象中或总体中每一个观察单位都有同等的机会被选入样本或实验研究的各处理组中。
混杂因素:
指实验研究中由于某些非实验因素与实验因素同时并存的作用影响到观察的结果,这种非实验因素称为混杂因素。
偏倚:
指在实验中由于某些非实验因素的干扰而形成的系统误差,歪曲了处理因素的真实效应。
实验研究:
是指研究者根据研究目的主动加以干预措施,并观察总结结果,回答假设研究所提出的问题的一种研究方法。
调查研究:
是指对特定对象群体进行调查,影响被调查的因素是客观存在的,研究者只能被动地观察和如实记录。
调查时的研究条件往往难以控制,一般只有通过合理分组,设置对照等手段尽可能的减少干扰。
简答
1,统计工作的步骤:
统计工作全过程可分为:
统计设计,搜集资料,整理资料和分析资料四个步骤。
它们相互联系,缺一不可。
设计:
是整个统计研究实施的依据,是最关键的一环,在设计时应对后三个步骤进行周密的设想和安排。
搜集资料:
是统计工作的基础。
是根据设计取得准确可靠地原始数据,按其来源时间分为经常性资料和一时性资料。
资料要求完整,准确和及时。
整理资料:
对原始资料进行审核、校正、整理并使之系统化、条理化,便于统计分析。
分析资料:
计算统计指标,反映数据的综合特征,阐明事物在的联系和规律,得出科学结论,统计分析包括统计描述和统计推断。
2,制作频数表的步骤:
求全距,定组段数和组距;划组段;绘制整理表。
3,频数表的用途:
解释频数的分布特征和类型:
便于进一步计算统计指标和进行统计分析处理;便于发现某些特大或特小的可疑值。
4,标准差的用途:
表示观察值得平均离散程度:
结合均数可疑描述正态资料频数分布的特征和估计医学参考值围:
结合样本均数可疑计算变异系数;结合样本含量可疑计算标准误。
5,变异系数的应用:
比较度量衡单位不同的多组资料的变异度:
比较均数相差悬殊的多组资料的变异度。
6,正态分布的特征:
以μ为中心,左右对称,均数处于曲线最高,两边逐渐下降;正态分布曲线下面积分分布有一定规律:
有两个参数μ和σ,位置参数μ和变异参数σ决定了曲线的变异度和位置。
7,正态分布的应用:
估计频数分布:
制定医学参考值围;做质量控制
8,标准误的用途:
反映了样本均数间的离散程度及样本均数抽样误差的大小;推算可信区间;进行假设检验。
9,t分布的特征:
单峰分布,以O位中心,左右对称,类似于标准正态分布;t分布形状与n有关,自由度越小,标准误越大,t值越分散,曲峰越矮,尾翘越高;n趋于无穷时,样本标准差逼近总体标准差,t分布逼近标准正态分布,t分布不是一条曲线,而是一簇曲线。
10,假设检验的基本思想:
基于反证法思想和小概率思想。
反证法思想:
首先提出假设,用适当的统计方法确定假设成立的可能性大小,如果可能性小,则认为假设不成立,拒绝它,如果可能性大,还不能认为它不成立;小概率思想:
是指小概率事件在一次随机实验中认为基本上不会发生,在进行统计分析时要事先规定概率,即检验水准a
11,假设检验的基本步骤:
建立假设;确定检验水准;选定检验方法;计算检验统计量;确定P值,做出推断结论。
12,t检验的应用条件:
当样本含量较小时,理论上要求样本取自正态总体,两样本均数比较时还要求两样本方差相等,(u检验应用条件:
样本含量较大,或n虽小但总体标准差已知)。
13,配对设计的几种情形:
两个同质受试对象分别接受两种不同的处理;同一受试对象分别接受两种不同的处理;同一受试对象处理前后
14,配对t检验的基本原理:
设两种处理的效应相同,即u1=u2,即看成是差值的样本均数d所代表的未知总体均数与已知总体均数的比较
15,假设检验注意的问题:
要有严密的研究设计:
不同变量或资料选用不同的检验方法;正确理解显著性一词的含义;做结论不能绝对化;统计显著性对应于统计结论,医学临床生物学显著性对应于专业结论。
16,参数检验和非参数检验的区别及各自优缺点:
参数检验:
以已知分布为假设条件,对总体参数进行估计或检验;非参数检验:
不依赖总体分布的具体形式和检验分布是否相同。
参数检验优点是符合条件时检验效率高,缺点是对资料要求严格而且要求资料的分布型已知和总体方差相等。
非参数检验优点是计算简单便于掌握;应用广泛;收集资料方便,缺点是容易损失信息。
检验效率低。
17,可信区间与假设检验的区别和联系:
可信区间用于说明量的大小即推断总体均数的围,而假设检验用于推断质的不同即判断两总体均数是否不同,两者相互联系又相互区别;可信区间亦可回答假设检验的问题;可信区间比假设检验可提供更多的信息,但并不意味着可信区间能够完全代替假设检验;可信区间只能在预先规定的概率——检验水准的前提下进行计算,而假设检验能够获得较为确切的P值,故两者结合起来次才是完整的分析。
18,方差分析的基本思想:
根据资料的设计类型,即变异的不同来源将全部观察值总的离均差平方和和自由度分解为两个或多个部分,除随机误差外,其余每个部分的变异可由某个或几个因素的作用加以解释,通过比较不同变异来源地均方,借助F分布做出统计推断,从而了解该因素对观测指标有无影响。
19,方差分析的应用条件:
1各次观察独立,即任何两个观察值之间均不相关,2同一水平下的观察值Xij分别服从总体均数μ的正态分布。
3各总体的方差基本相等,概括的表达为:
任何观察值都是独立的来自于具有等方差的正态总体。
20,应用相对数的注意事项:
计算相对数的分母一般不宜过小;分析是不能以构成比代替率,应当注意不能用构成比的动态分析代替率的动态分析;对观察单位不等的几个率,不能直接相加求其总率,在比较相对数时应注意可比性;对样本率(构成比)的比较应随机抽样,并做假设检验。
21,四格表
2检验的适用条件:
1,当n>=40且所有T>=5时,用普通的
2检验,若所得的P约等于0时,改用确切概率法,2,当n>=40但1<=T<=5时,用校正
2检验;3当n<40或T<1时,不能用
2检验,改用确切概率法。
22,秩和检验的基本思想:
假定从一总体中,随机抽取一个样本,可以求出T+和T-,当重复所有可能组合的样本,得T+和T-的分布,T的分布以均数为中心对称的非连续分布,当H0成立,从总体随机抽取任一样本,所得T值在均数附近的概率最大,当T值远离均数概率较小,随着n增大,T的分布逐渐逼近均数n(n+1)/4,方差n(n+1)(2n+1)/24的正态分布,当n<25时,T的分布已较好地近似正态分布。
23,成组设计两个样本比较的秩和检验的基本思想n1和n2两个样本,来自同一总体和分布相同的两个总体,即假设检验H0成立,则n1样本的秩和T与平均秩和n1(N+1)/2一般相差不大,也就是u值小于u,若T与平均秩和n1(N+1)/2相差很大,则表示筹得的样本统计量T值的概率很小,因而拒绝检验假设H0。
24,直线回归方程的应用:
描述两变量的依存关系;利用回归方程进行预测;利用回归方程进行统计控制。
25,应用直线回归应注意的问题:
做回归分析要有实际意义,不能把毫无关联的两种现象勉强做回归分析,即使有回归关系也不一定是因果关系,还必须对两种现象间的在联系有所认识,能从专业理论上做出合理解释或有所依据,在进行直线回归分析前,应绘制散点图,当观察点的分布有直线趋势,才适宜直线回归分析;直线回归方程的适用围一般以自便量的取值为限,不能任意外延。
26,直线回归与相关的区别1资料要求不同:
回归要求变量Y服从正态分布,X是可以精确测量和严格控制的变量,相关要求两个变量X,Y服从双变量正态分布,2应用情况不同:
说明两变量间依存变化的数量关系用回归,说明变量间的相关关系用相关3,意义不同:
回归系数b表示自变量X每变化一个单位后应变量Y的平均变化量,相关系数r表示两变量相关的方向和密切程度,4取值围不同:
-1<=r<=1;b负无穷到正无穷大。
5单位不同,回归系数b有单位,相关系数r没单位。
27,直线回归与相关的联系:
1两者都是研究两个数值变量的关系的统计方法,2方向一致:
对一组数据若同时计算r与b,他们的正负号一致,r为正说明两变量间的相互关系是同向变化的,b为正号说明X增减一个单位,Y平均增减b个单位,3假设检验对同一样本,r与b的假设检验得到的t值相等,由于r的假设检验简单,故在实际应用中常用以前法代替后法,4用回归解释相关,决定系数P2=SS回/SS总,回归平方和越接近总平方和,R2越接近1。
28,列表的原则1重点突出,简单明了2主次分明,层次清楚,符合逻辑。
29,列表的基本要求1标题,概括表的容,写于表的正上方中央,必要时注明时间地点。
主要容2标目以横纵向标目分别说明主语与谓语,文字简明,层次清楚,有单位用()3,线条用三线条表示,粗略的顶端线及纵标下的横线,其余一律省去,4数字以阿拉伯数字表示,暂缺或无数字分别以“”、“——”表示,不应有空项,为核实与分析,表常应有合计。
5不列备注,必要说明者表*,于表下方说明。
30,实验的基本原则随机化,对照,重复。
31,对照的种类:
空白,安慰剂,自身,实验,标准
32,实验设计的基本步骤:
建立研究假设,明确研究围,确立处理因素,明确观察指标,控制误差和偏倚。
33,常用的实验设计方法:
完全随机设计,配对设计,交叉设计,随机区组设计,析因设计。
34,确定样本含量时应具备的条件:
建立假设检验,定出检验水准,提出所期望的检验效能,必须知道有样本推断总体的一些信息。
35,常用的估计样本含量的方法:
两样本均数比较,配对实验和交叉试验,样本均数与总体均数的比较,两样本率的比较,配对分类资料多用X2检验进行处理,估计总体均数的样本含量,估计总体率的样本含量。
36,实验设计和调查设计的主要区别:
调查设计1在研究过程中没有人为施加的干预措施,而是客观的观察记录某些现象的现状及其相关特征,2不能采用随机分配的方法来平衡或消除非研究因素对研究结果的影响;实验设计1研究者根据研究目的主动加以干预措施,并观察总结其结果,回答研究假设所提出的问题,2按随机分配的方法去除混杂因素。
37,标准误与标准差的区别与联系
区别
1概念不同:
标准差是描述样本中个体值间的变异程度指标,标准差越小,表示变量值围绕均数波动越小,标准误是描述样本均数间的变异程度指标,标准差越小,表示变量值围绕均数波动越小。
2用途不同:
标准差用于表示变量值对均数波动的大小,当资料呈正态分布时,与均数结合可估计正常值围,计算变异系数等,标准误常用于表示样本统计量和总体参数的波动情况,可估计参数可信区间进行假设检验。
3与例数的关系不同,当样本含量足够大时,标准差趋向稳定,而标准误随例数增大而减小,甚至趋向于0,若样本含量趋向于总例数,标准差趋近于0或更高。
38,非参数检验的适应情况:
1分布型未知,2能以严重程度,优劣等级,效果大小和名次先后等划分的等级资料。
3分布极度偏态。
4本组个别变量偏离越大,远离本组其他变量值,5,方差不齐时,6筛选或只需获得初步结果。
39,如何正确选用单侧检验和双侧检验:
单侧检验首先应根据专业知识来确定,同时也应考虑所要解决问题的目的,若从转押知识判断一种方法的结果可能低于或高于另一种方法的结果,则用单侧检验;在尚不能从专业知识判断两种结果高低时,用双侧检验,若研究者对于低于或高于两种结果都关心时,则用双侧检验,若只关心其中一种可能,则取单侧检验,一般认为双侧检验较保守和稳妥,单侧检验由于充分利用了另一侧的不可能性,更易得出有差别的结论,但应慎用。
40,配对t检验与配伍组设计的方差分析之间有何联系?
两样本t检验与完全随机设计的方差分析有何联系?
配伍组设计的方差分析是配对t检验的推广,他们的基本原理相同。
完全随机设计的方差分析是两样本t检验的推广,他们的基本原理相同。
不管是配伍组设计害死完全随机设计,当对比样本为两组,可用t检验也可以用方差分析,他们是等价的,当对比样本在两组以上只能用方差分析。
41,P
0.05拒绝H0的理论根据。
P值是指从H0规定的总体随机抽取等于及大于(或等于及小于)现有样本统计量的概率,P
0.05,说明在H0成立的条件下,得到现有检验结果的概率小于小概率事件标准0.05.因小概率事件在一次实验中几乎不可能发生,现的确发生了,说明样本信息不支持H0,所以怀疑假设H0不成立,故拒绝H0。
42,配对比较的假设检验,能否出现t检验结果P>0.05,而非参数检验结果P<0.05?
答:
可能出现。
配对t检验的统计量t=
,式中d为差值均数,当Sd固定时,t的大小取决于d,差值均数小,t值就小,表明每个对子是接近的,故检验结果为P>0.05。
推断两总体差值为0的假设未能拒绝,在参数检验中,综合了差数大小与方向的全部信息,差数大小更能提供两组数据之差有无实际意义的信息,而配对秩和检验更侧重方向的作用,设想当n对差数全部为正号时,尽管两组数据非常接近,也会出现T+很大,T-为零的局面,即P<0.05的结果,这种局面虽然可以出现,但随n的增大,如果H0为真,则差数的方向是随机出现的,故T+和T-一般相差不大,其检验结果与参数检验结果多数情况下还是一致的。
43,参数检验和非参数检验所得结果不一致,以何为准?
仅供参考
第一章绪论