医学统计学名词解释.docx

资源描述

医学统计学名词解释.docx

《医学统计学名词解释.docx》由会员分享，可在线阅读，更多相关《医学统计学名词解释.docx（9页珍藏版）》请在冰豆网上搜索。

医学统计学名词解释.docx

医学统计学名词解释

1.总体：

总体〔population〕是根据研究目确实定的同质的观察单位的全体，更确切的说，是同质的所有观察单位某种观察值〔变量值〕的集合。

总体可分为有限总体与无限总体。

总体中的所有单位都能够标识者为有限总体，反之为无限总体。

样本：

从总体中随机抽取局部观察单位，其测量结果的集合称为样本〔sample〕。

样本应具有代表性。

所谓有代表性的样本，是指用随机抽样方法获得的样本。

2.随机抽样：

随机抽样〔randomsampling〕是指按照随机化的原那么〔总体中每一个观察单位都有同等的时机被选入到样本中〕，从总体中抽取局部观察单位的过程。

随机抽样是样本具有代表性的保证。

3.变异：

在自然状态下，个体间测量结果的差异称为变异〔variation〕。

变异是生物医学研究领域普遍存在的现象。

严格的说，在自然状态下，任何两个患者或研究群体间都存在差异，其表现为各种生理测量值的参差不齐。

4.计量资料：

对每个观察单位用定量的方法测定某项指标量的大小，所得的资料称为计量资料〔measurementdata〕。

计量资料亦称定量资料、测量资料。

.其变量值是定量的，表现为数值大小，一般有度量衡单位。

如某一患者的身高〔cm〕、体重（kg）、红细胞计数（1012/L）、脉搏〔次/分〕、血压〔KPa〕等

计数资料：

将观察单位按某种属性或类别分组，所得的观察单位数称为计数资料〔countdata〕。

计数资料亦称定性资料或分类资料。

其观察值是定性的，表现为互不相容的类别或属性。

如调查某地某时的男、女性人口数；治疗一批患者，其治疗效果为有效、无效的人数；调查一批少数民族居民的A、B、AB、O四种血型的人数等。

等级资料：

将观察单位按测量结果的某种属性的不同程度分组，所得各组的观察单位数，称为等级资料〔ordinaldata〕。

等级资料又称有序变量。

如患者的治疗结果可分为治愈、好转、有效、无效或死亡，各种结果既是分类结果，又有顺序与等级差异，但这种差异却不能准确测量；一批肾病患者尿蛋白含量的测定结果分为+、++、+++等。

等级资料与计数资料不同：

属性分组有程度差异，各组按大小顺序排列。

等级资料与计量资料不同：

每个观察单位未确切定量，故亦称为半计量资料。

5．概率：

概率（probability）又称几率，是度量某一随机事件A发生可能性大小的一个数值，记为P〔A〕，P〔A〕越大，说明A事件发生的可能性越大。

0﹤P〔A〕﹤1。

频率：

在一样的条件下，独立重复做n次试验，事件A出现了m次，那么比值m/n称为随机事件A在n次试验中出现的频率（freqency）。

当试验重复很屡次时P〔A〕=m/n。

6.随机误差：

随机误差〔randomerror〕又称偶然误差，是指排除了系统误差后尚存的差。

它受多种因素的影响，使观察值不按方向性与系统性而随机的变化。

误差变量一般服从正态分布。

随机误差可以通过统计处理来估计。

抽样误差〔samplingerror〕是指样本统计量与总体参数的差异。

在总体确定的情况下，总体参数是固定的常数，统计量是在总体参数附近波动的随机变量。

7．系统误差：

系统误差（systematicerror）是指由于仪器未校正、测量者感官的某种偏差、医生掌握疗效标准偏高或偏低等原因，使观察值不是分散在真值的两侧，而是有方向性、系统性或周期性地偏离真值。

系统误差可以通过实验设计与完善技术措施来消除或使之减少。

8．随机变量：

随机变量〔randomvariable〕是指取指不能事先确定的观察结果。

随机量的具体内容虽然是各式各样的，但共同的特点是不能用一个常数来表示，而且，理论上讲，每个变量的取值服从特定的概率分布。

9．参数：

参数〔paramater〕是指总体的统计指标，如总体均数、总体率等。

总体参数是固定的常数。

多数情况下，总体参数是不易知道的，但可通过随机抽样抽取有代表性的样本，用算得的样本统计量估计未知的总体参数。

10．统计量：

统计量〔statistic〕是指样本的统计指标，如样本均数、样本率等。

样本统计量可用来估计总体参数。

总体参数是固定的常数，统计量是在总体参数附近波动的随机变量。

11.频数表〔frequencytable〕用来表示一批数据各观察值或在不同取值区间的出现的频繁程度〔频数〕。

对于离散数据，每一个观察值即对应一个频数，如某医院某年度一日内死亡0，1，2…个病人的天数。

对于散布区间很大的离散数据与连续型数据，数据散布区间由假设干组段组成，每个组段对应一个频数。

12.算术均数〔arithmeticmean〕描述一组数据在数量上的平均水平。

总体均数用μ表示，样本均数用X表示。

13.几何均数〔geometricmean〕用以描述对数正态分布或数据呈倍数变化资料的水平。

记为G。

14.中位数〔median〕Md将一组观察值由小到大排列，n为奇数时取位次居中的变量值；为偶数时，取位次居中的两个变量的平均值。

反映一批观察值在位次上的平均水平。

15.极差〔range〕亦称全距，即最大值与最小值之差，用于资料的粗略分析，其计算简便但稳定性较差。

16.百分位数〔percentile〕是将n个观察值从小到大依次排列，再把它们的位次依次转化为百分位。

百分位数的另一个重要用途是确定医学参考值范围。

17.四分位数间距〔inter-quartilerange〕是由第3四分位数与第1四分位数相减计算而得，常与中位数一起使用，描述偏态分布资料的分布特征，较极差稳定。

18.方差〔variance〕：

方差表示一组数据的平均离散情况，由离均差的平方与除以样本个数得到。

19.标准差〔standarddeviation〕是方差的正平方根，使用的量纲与原量纲一样，适用于近似正态分布的资料，大样本、小样本均可，最为常用。

20.变异系数〔coefficientofvariation〕用于观察指标单位不同或均数相差较大时两组资料变异程度的比拟。

用CV表示。

计算：

标准差/均数*100%

21.统计推断：

通过样本指标来说明总体特征，这种从样本获取有关总体信息的过程称为统计推断〔statisticalinference〕。

22.抽样误差：

由个体变异产生的，抽样造成的样本统计量与总体参数的差异，称为抽样误差〔samplingerror〕。

23.标准误及Xs：

通常将样本统计量的标准差称为标准误。

许多样本均数的标准差Xs称为均数的标准误〔standarderrorofmean，SEM〕，它反映了样本均数间的离散程度，也反映了样本均数与总体均数的差异，说明均数抽样误差的大小。

24.可信区间：

按预先给定的概率确定的包含未知总体参数的可能范围。

该范围称为总体参数的可信区间〔confidenceinterval，CI〕。

它确实切含义是：

可信区间包含总体参数的可能性是1-α，而不是总体参数落在该范围的可能性为1-α。

25.参数估计：

指用样本指标值〔统计量〕估计总体指标值〔参数〕。

参数估计有两种方法：

点估计与区间估计。

26.假设检验中P的含义：

指从H0规定的总体随机抽得等于及大于〔或等于及小于〕现有样本获得的检验统计量值的概率。

27.I型与II型错误：

I型错误〔typeIerror〕，指拒绝了实际上成立的H0，这类“弃真〞的错误称为I型错误，其概率大小用α表示；II型错误〔typeIIerror〕，指承受了实际上不成立的H0，这类“存伪〞的误称为II型错误，其概率大小用β表示。

28.检验效能：

1-β称为检验效能〔poweroftest〕，它是指当两总体确有差异，按规定的检验水准a所能发现该差异的能力。

29.检验水准：

是预先规定的，当假设检验结果拒绝H0，承受H1，下“有差异〞的结论时犯错误的概率称为检验水准〔levelofatest〕，记为α。

30..率〔rate〕又称频率指标，说明一定时期内某现象发生的频率或强度。

计算公式为：

发生某现象的观察单位数/可能发生某现象的观察单位总数*100%，表示方式有：

百分率〔%〕、千分率〔‰〕等。

31.构成比〔proportion〕又称构成指标，说明某一事物内部各组成局部所占的比重或分布。

计算公式为：

某一组成局部的观察单位数/同一事物各组成局部的观察单位总数*100%，表示方式有：

百分数等。

32.比〔ratio〕又称相比照，是A、B两个有关指标之比，说明A是B的假设干倍或百分之几。

计算公式为：

A/B，表示方式有：

倍数或分数等。

33.非参数统计：

针对某些资料的总体分布难以用某种函数式来表达，或者资料的总体分布的函数式是未知的，只知道总体分布是连续型的或离散型的，用于解决这类问题的一种不依赖总体分布的具体形式的统计分析方法。

由于这类方法不受总体参数的限制，故称非参数统计法〔non-parametricstatistics〕，或称为不拘分布〔distribution-freestatistics〕的统计分析方法，又称为无分布型式假定〔assumptionfreestatistics〕的统计分析方法。

34.参数统计：

通常要求样本来自总体分布型是的〔如正态分布〕，在这种假设的根底上，对总体参数〔如总体均数〕进展估计与检验，称为参数统计（parametricstatistics）

35.秩次：

变量值按照从小到大顺序所编的秩序号称为秩次〔rank〕。

36.秩与：

各组秩次的合计称为秩与〔ranksum〕，是非参数检验的根本统计量。

37.直线回归〔linearregression〕建立一个描述应变量依自变量变化而变化的直线方程，并要求各点与该直线纵向距离的平方与为最小。

直线回归是回归分析中最根本、最简单的一种，故又称简单回归〔simpleregression〕。

38.回归系数〔regressioncoefficient〕即直线的斜率（slope），在直线回归方程中用b表示，b的统计意义为X每增〔减〕一个单位时，Y平均改变b个单位。

39.相关系数r：

用以描述两个随机变量之间线性相关关系的密切程度与相关方向的统计指标。

40、抽样误差：

是指样本指标值与被推断的总体指标值之差。

主要包括：

样本平均数与总体平均数之差；样本成数与总体成数之差。

41、正态分布：

概率论中最重要的一种分布，也是自然界最常见的一种分布。

该分布由两个参数——平均值与方差决定。

概率密度函数曲线以均值为对称中线,方差越小，分布越集中在均值附近。

42、标准正态分布：

标准正态分布又称为u分布，是以0为均数、以1为标准差的正态分布，记为N〔0，1〕。

标准正态分布曲线下面积分布规律是：

在-1.96～＋1.96范围内曲线下的面积等于0.9500，在-2.58～＋2.58范围内曲线下面积为0.9900。

43、动态数列：

将某种现象在时间上变化开展的一系列同类的统计指标，按照时间先后顺序排列，就形成了一个动态数列，也称时间数列，时间序列。

44、率的标准误：

反映率的抽样误差大小的指标：

率的标准误，它实际上是样本率的标准差。

率的标准误可用来估计率的抽样误差。

率的标准误越小，率的抽样误差也越小。

45、拟合优度〔GoodnessofFit〕是指回归直线对观测值的拟合程度。

46、秩与检验：

从两个非正态总体中所得到的两个样本之间的比拟，其零假设为两个样本从同一总体中抽取的。

47、直线相关：

又称线性相关，是指两列变量中的一列变量在增加〔或减少〕时，而另一列变量随之而增加〔或减少〕，或这一列变量在增加时，而另一列变量那么相应地减少。

它们之间存在一种直线关系。

直线相关可用直线拟合。

48、零相关：

即没有关系，变量x与y之间的关系十分散乱，无法找出它们之间的联系，各现象间表现为相互独立。

这种关系称为零相关。

49、决定系数：

决定系数是指在x或y的总变异中，可以相互以直线关系说明的局部所占的比率。

即随x的改变而呈线性改变的平方与，对y总变异平方与的比率等于随y的改变而呈线性改变的平方与占x变数总平方与的比率。

50、秩相关：

秩相关是一种非参数统计方法，适用于资料不是正态双变量或总体分布未知；数据一端或两端有不确定值的资料或等级资料。

51、多元线性回归：

在回归分析中，如果有两个或两个以上的自变量，就称为多元回归。

事实上，一种现象常常是与多个因素相联系的，由多个自变量的最优组合共同来预测或估计因变量，比只用一个自变量进展预测或估计更有效，更符合实际。

52、偏回归系数：

在多元回归分析中，随机因变量对各个自变量的回归系数，表示各自变量对随机变量的影响程度。

53、负相关系数：

在多元回归分析中，衡量某一变量与由多个变量线形组合后，对该变量作估计的变量之间线形关系密切程度的量，或表征由多个变量作某一变量的回归时的回归方差与该变量的方差的比例。

54、确定系数：

如果因变量的一组统计观测数据yi〔i=0，1，…，n〕的平方值为y¯，所有统计观测数据值都分布在这个均值的上下，我们可以求出其总的误差平方与S总。

计算公式为：

。

55、统计表与统计图：

统计表：

数据经整理后使之进一步表格化，便形成统计表〔statisticaltable〕。

统计图：

表现统计数字大小与变动的各种图形总称。

56、抚慰剂对照：

又称“假药对照〞,仅给予抚慰剂的对照。

所谓抚慰剂是外形、颜色、大小均与试药相近,但不含任何有效成分的制剂。

使用抚慰剂主要解决试验新药时疾病自愈与抚慰剂效应问题,排除试药以外因素的干扰,它常与盲法结合使用,便于保密。

57、混杂因素：

亦称混杂因子或外来因素，是指与研究因素与研究疾病均有关，假设在比拟的人群组中分布不匀，可以歪曲〔掩盖或夸张〕因素与疾病之间真正联系的因素。

58、抽样调查：

抽样调查是，一种非全面调查，它是从全部调查研究对象中，抽选一局部单位进展调查，并据以对全部调查研究对象作出估计与推断的一种调查方法。

59、简单随机抽样：

也称为单纯随机抽样、纯随机抽样、SPS抽样，是指从总体N个单位中任意抽取n个单位作为样本,使每个可能的样本被抽中的概率相等的一种抽样方式。

60、系统抽样：

总体中各单位按一定顺序排列，根据样本容量要求确定抽选间隔，然后随机确定起点，每隔一定的间隔抽取一个单位的一种抽样方式。

61、分层抽样：

先将总体的单位按某种特征分为假设干次级总体〔层〕，然后再从每一层内进展单纯随机抽样，组成一个样本。

62、整群抽样又称聚类抽样。

是将总体中各单位归并成假设干个互不穿插、互不重复的集合，称之为群；然后以群为抽样单位抽取样本的一种抽样方式。

63、相对危险度〔relativerisk，RR〕：

又称率比〔rateratio〕，是暴露组发病率〔Ie〕与非暴露组发病率〔Iu〕的比值。

64、病例对照研究：

病例对照研究是以现在确诊的患有某特定疾病的病人作为病例，以不患有该病但具有可比性的个体作为对照，通过询问，实验室检查或复查病史，搜集既往各种可能的危险因素的暴露史，测量并比拟病例组与对照组中各因素的暴露比例，经统计学检验，假设两组差异有意义，那么可认为因素与疾病之间存在着统计学上的关联。

65、队列研究：

是将人群按是否暴露于某种可疑因素及其暴露程度分为不同的亚组，追踪其各自的结局，比拟不同亚组之间结局频率的差异，从而判定暴露因子与结局之间有无因果关联及关联大小的一种观察性研究方法。

66、寿命表：

。

67、完全寿命表：

0岁起点，1岁1组，直到某一特定人群的生命极限。

68、简单寿命表：

一般以5岁为一组，但5岁前与80岁及以上稍特殊,年龄分组较少，各年龄组死亡率相对稳定，因此在卫生统计中较为常用。

69、现时寿命表：

据某年或某一时期内，假定同时出生“一代人〞按其特定人群的年龄组死亡率先后死去，计算这“一代人〞按年龄的尚存人数、死亡人数、生存人年数及平均预期寿命来制定的寿命表。

70、定群寿命表〔队列寿命表〕：

研究某同时出生人群〔或某特殊人群〕的生命过程，用随访法进展，记录某特定人群中的每一个人从进入该特定人群到最后死亡的实际过程。

71、生存分析：

是指根据试验或调查得到的数据对生物或人的生存时间进展分析与推断，研究生存时间与结局与众多影响因素间关系及其程度大小的方法，也称生存率分析或存活率分析。

展开阅读全文