第02章个体变异与变量分布.docx

上传人:b****2 文档编号:24544868 上传时间:2023-05-28 格式:DOCX 页数:38 大小:335.18KB
下载 相关 举报
第02章个体变异与变量分布.docx_第1页
第1页 / 共38页
第02章个体变异与变量分布.docx_第2页
第2页 / 共38页
第02章个体变异与变量分布.docx_第3页
第3页 / 共38页
第02章个体变异与变量分布.docx_第4页
第4页 / 共38页
第02章个体变异与变量分布.docx_第5页
第5页 / 共38页
点击查看更多>>
下载资源
资源描述

第02章个体变异与变量分布.docx

《第02章个体变异与变量分布.docx》由会员分享,可在线阅读,更多相关《第02章个体变异与变量分布.docx(38页珍藏版)》请在冰豆网上搜索。

第02章个体变异与变量分布.docx

第02章个体变异与变量分布

第2章个体变异与变量分布

 

本章介绍个体变异的概念和统计资料的描述,包括指标的频数分布及其特征、常用描述指标,以及正态分布、二项分布、Poisson分布等。

§2.1个体变异

变异(variation)是以具有同质性的观察单位为载体,某项观察指标在其观察单位之间显示的差别。

由于观察单位通常即观察个体,故变异亦称个体变异(individualvariation)。

变异表现为定量的,如血清总胆固醇的测定值,可形成定量资料;变异表现为定性的,如病人性别,可形成定性资料;变异表现为等级的,如心功能分级,可形成等级资料。

变异是生物体在一种或多种不可控因素(已知的和未知的)作用下所产生反映的综合表现。

就每个观察单位而言,其观察指标的变异是不可预测的,或者说是随机的。

观察指标的表述用变量(variable),或称随机变量(randomvariable)。

当观察值的个数(样本含量)达到足够多时,其分布将趋于稳定,并最终服从于总体分布。

变异现象广泛存在于人体及其他生物体。

从这个意义上说,变异是医学研究中必须运用统计指标并进行统计分析的缘由。

医学统计学的主旨就是运用变异的规律对医学资料进行统计分析。

§2.2频数分布

由于个体变异的普遍存在,故医学研究中任何观察指标在各个体上的观察结果均不尽相同,当个体数目增多时,这些观察结果将会呈现出一定的分布(distribution)规律。

不同的观察指标有各自固有的分布规律,并依此作为选择相应的统计分析方法的重要依据。

医学研究中观察到的原始数据(rawdata)通常需要经过整理,用适当的形式表达其分布之特征。

整理数据最有效的形式是频数分布(frequencydistribution),根据频数分布(样本)可以初步判断指标分布(总体)的特征。

用频数分布表示的数据称为分组资料(groupeddata)。

在样本含量足够大时,频数分布将接近其理论分布。

2.2.1定量资料的频数分布

先看一个例子。

例2.1某市1997年12岁男童120人的身高(cm)资料如下。

142.3

156.6

142.7

145.7

138.2

141.6

142.5

130.5

134.5

148.8

134.4

148.8

137.9

151.3

140.8

149.8

145.2

141.8

146.8

135.1

150.3

133.1

142.7

143.9

151.1

144.0

145.4

146.2

143.3

156.3

141.9

140.7

141.2

141.5

148.8

140.1

150.6

139.5

146.4

143.8

143.5

139.2

144.7

139.3

141.9

147.8

140.5

138.9

134.7

147.3

138.1

140.2

137.4

145.1

145.8

147.9

150.8

144.5

137.1

147.1

142.9

134.9

143.6

142.3

125.9

132.7

152.9

147.9

141.8

141.4

140.9

141.4

160.9

154.2

137.9

139.9

149.7

147.5

136.9

148.1

134.7

138.5

138.9

137.7

138.5

139.6

143.5

142.9

129.4

142.5

141.2

148.9

154.0

147.7

152.3

146.6

132.1

145.9

146.7

144.0

135.5

144.4

143.4

137.4

143.6

150.0

143.3

146.5

149.0

142.1

140.2

145.4

142.4

148.9

146.7

139.2

139.6

142.4

138.7

139.9

从该120个数据来看,并不能判断这120人的身高有何规律性。

现将其整理成表2.1的频数分布表(frequencytable)。

该地区120名12岁男童的身高分布在125.9到160.9之间,从频数分布表上可以清楚地看到,分布在“140~”这一组的人数最多,占37/120=30.83%,并以该组为中心,向两侧人数逐渐减少,基本对称,呈现出中间多两边少的分布趋势。

表2.11997年某市120名12岁男童身高(cm)的频数分布

组段

(1)

频数

(2)

频率

(3)

124~

1

0.0083

128~

2

0.0167

132~

10

0.0833

136~

22

0.1834

140~

37

0.3083

144~

26

0.2167

148~

15

0.1250

152~

4

0.0333

156~

2

0.0167

160~

1

0.0083

合计

120

1.0000

若以身高为横轴,以频数为纵轴,绘制频数分布图,见图2.1,更能清楚直观地看到这种分布规律。

事实上,12岁男童的身高是服从正态分布的(见2.5节和第9章)。

定量资料的频数分布实际上是将定量资料人为地划分为若干个相连接的区间,统计每个区间所包含的观察值个数。

从一组数据编制频数分布表需要确定区间个数即组段数(k),组距(w),各组段的上、下限,以及相应的频数(fi)。

组段数一般取8~12个为宜,以保证能反映分布的类型,而不宜太多或太少。

一般组距取整数或方便计算的数值。

各组距一般取为相等,第一组应包含最小值,最后一组应包含最大值。

各组包含该组的下限,但不包括该组的上限。

从第一组的下限开始,每隔一个组距w为一个组段,重复k次得到k个组段。

最后统计每个组段的频数,各组频数占总频数的比例称为相对频数或频率(relativefrequency)。

 

身高(cm)

40

 

图2.1某市120名12岁男童身高的频数分布

2.2.2定性资料及等级资料的频数分布

定性资料及等级资料的整理是根据指标值的不同属性进行的,经归类汇总各类的频数,并形成分布。

不同属性是根据指标的性质自然形成的(如性别、疾病分类),或统一规定的(如心功能I-IV级),或人为界定的(如体重的正常范围、超重范围和肥胖范围)。

下面是两个实例。

例2.2是按一个指标自然分类的频数分布,属定性资料;例2.3是按研究者界定的5个等级所得两组频数分布,属等级资料。

例2.2某研究观察了507名傣族人的ABO血型,其中,O型205人;A型112人;B型150人;AB型40人。

按4种血型分类整理成表2.2的频数分布。

表2.2507名傣族人血型的频数分布

血型

频数

频率(%)

O

205

40.43

A

112

22.09

B

150

29.59

AB

40

7.89

合计

507

100.00

例2.3为了研究人参的镇静作用,以5%浸液注入实验组小鼠腹腔,对照组则注入相同剂量的生理盐水,镇静强度分为5个等级:

(-)正常活动,(+)无主动行走,(++)无主动站立,(+++)无肢体活动,(++++)停止一切活动。

表2.3人参镇静作用实验中两组小白鼠镇静强度的频数分布

镇静强度

实验组

对照组

4

11

+

1

0

++

2

1

+++

1

0

++++

12

0

合计

20

12

2.2.3数据分布的类型

频数分布可分为对称分布与非对称分布。

非对称分布又称偏态(skew)分布,包括正偏态(positiveskewness)和负偏态(negativeskewness),正偏态是指分布的尾部偏向数轴正侧(或

0

400

 

发汞含量(mol/kg)

自评分

(b)某城市892名老年人生存质量自评分的频数分布

(a)239人发汞含量的频数分布

 

2500

90

2000

1500

1000

500

 

0

死亡年龄(岁)

生存时间(月)

(c)102名黑色素瘤患者的生存时间频数分布

(d)某地某年死亡者的年龄分布

图2.2几种偏态分布实例的图示

右侧),故又称右偏态;负偏态是指分布的尾部偏向数轴负侧(或左侧),故又称左偏态。

分布只有一个高峰者称为单峰分布;出现两个或多个高峰者称为双峰或多峰分布。

图2.2(a)中,大多数居民发汞含量在1~15mol/kg之间,少数居民的发汞大于15mol/kg,分布呈正偏态;图2.2(b)是某城市老年人生存质量自评分的频数分布,这是一个负偏态分布;图2.2(c)中,黑色素瘤患者生存时间大部份在30个月内,少数达45个月,分布呈极度偏态,又称L型分布;图2.2(d)中,死亡年龄分布出现了两个高峰,一个在0~5岁,另一个在70~75岁。

资料的分布类型不同,所选用的统计分析方法也不相同。

§2.3定量资料的统计指标

资料的频数分布只能给出资料分布的直观印象,还不能全面反映资料的性质。

还需用统计指标,即统计量(statistic)来说明资料的特征,以便于比较、分析。

统计量是根据样本计算的、用于描述样本之特征的量。

本节主要介绍定量资料的集中位置和离散程度的描述。

2.3.1集中位置的描述

平均数(average)是用来描述定量资料集中位置的一组指标体系,它是分析定量资料的基本指标。

由于个体变异的存在,变量值是分散的,故须通过平均数把它们集中起来,反映其共同趋向的平均水平。

所以,平均数具有对一组变量值的代表性。

平均数包括算术均数、几何均数、中位数、众数、调和均数等,以前3种较为常用。

(1)算术均数

算术均数(arithmeticmean)简称均数(mean),常用符号

表示,读作Xbar。

均数反映一组变量值的平均水平。

将n个观察值X1,X2,……,Xn直接相加后再除以观察值的个数n,即:

(2.1)

式中希腊字母∑为求和符号,读作sigma。

均数有时须采用加权方法计算,如一门课程的平均成绩由3部分组成:

平时考试成绩(X1)占20%,期中考试成绩(X2)占30%,期末考试成绩(X3)占50%。

则平均成绩为:

其中,0.2,0.3,0.5称为权重(weight)或加权系数(weightcoefficients),反映每一部分成绩对均数的贡献。

设样本含量为n的一组数据为X1,X2,…,Xn,则其加权均数(weightedmean)可定义为:

(2.2)

其中,w1,w2,…,wn是权重系数,并满足:

(wi>0)。

均数最适用于单峰对称分布资料的平均水平的描述。

像图2.2(d)资料不宜计算均数来代表其平均死亡年龄,而应分年龄组分析。

一般来说,资料呈双峰分布或多峰分布,往往说明其中存在间杂性。

(2)几何均数

几何均数(geometricmean)简记为G。

有些医学资料,如抗体滴度、细菌计数等,其频数分布呈明显偏态,各变量值之间形成倍数关系,经对数变换后观察值如趋向于单峰对称分布,则宜用几何均数表示其平均水平。

设有n个变量值X1,X2,….,Xn,其几何均数定义为n个变量值之积开n次方根:

(2.3)

为避免很多数相乘使计算结果太大或太接近于0,导致计算机(器)溢出,可用对数变换法,即先对原始数据作对数变换,求得其均数,再用反对数变换获得几何均数:

(2.4)

式(2.3)与(2.4)等价。

例2.4有5份血清的抗体效价为1:

10,1:

20,1:

40,1:

80,1:

160,求平均抗体滴度。

即平均抗体滴度为1:

40。

应用几何均数时注意:

①变量值中不能有0,因为0与任何数的乘积均为0。

此时可采用近似处理,即先将全部变量值各加一个“小值”,再从算得的几何均数中减去此“小值”。

②同一组变量值不能同时存在正值和负值。

必要时亦可仿照上法,以消除负值的影响。

③若变量值全为负值,可在计算时将负号除去,算出结果后再冠以负号。

(3)中位数和百分位数

中位数(median)简记为M,是指将一组变量值按从小到大的顺序排列,位置居中的观察值水平。

因此,在一个数列中,大于和小于中位数的变量值数目是相等的。

(2.5)

百分位数(percentile)是一种位置指标,用符号PX表示。

一个百分位数可将一组变量值分为两部分,理论上有X%的变量值比它小,有(100-X)%的变量值比它大。

例如含量为200的样本,取第5百分位数P5,理论上应有10个变量值小于P5,有190个变量值大于P5。

显然,第50百分位数(P50)就是中位数。

对于某一连续分布资料,当指定X%后,PX即为定值;而对于一组原始数据,PX并不恰好等于某一变量值。

如10例由小到大排列的正常人发汞值(mol/kg):

1.1,1.8,3.5,4.2,4.8,5.6,5.9,7.1,10.5,16.3,理论上,10.5与16.3之间的任何数均可作为P90的估计值,因为任何在10.5与16.3之间的数,都满足“90%的变量值比它小,10%的变量值比它大”的条件,实际工作中常取两者的均数13.4(mol/kg)作为P90。

同理,该组资料的中位数取(4.8+5.6)/2=5.2(mol/kg)。

应用中位数和百分位数时,应注意:

①中位数和百分位数的计算对资料分布没有特殊要求,所有资料均可计算中位数和百分位数。

一般情况下,在例数较多时,分布在中间的百分位数较稳定,靠近两端的百分数,仅在样本含量足够大时才趋于稳定,所以当样本含量较少时不宜用靠近两端的百分位数来估计频数分布范围。

②由于中位数不是综合全部变量值计算所得,它只是位置居中的观察值,与两端的极端值无关,因此在抗极端值的影响方面,中位数比均数具有较好的稳定性,但不如均数精确。

因此,当资料适合计算均数或几何均数时,不宜用中位数表示其平均水平。

上述介绍的算术均数、几何均数、中位数是最常用的3种平均数。

须注意,平均数要在观察单位同质的前提下应用,不同质的观察单位不宜合在一起求任何平均数。

2.3.2离散趋势的描述

先看一个例子。

例2.5设有甲、乙两组同性别同年龄儿童体重(kg):

甲组26,28,30,32,34

=30kgn甲=5

乙组24,27,30,33,36

=30kgn乙=5

这两组儿童体重的均数相同,均为30kg,但两组数据的分散程度是不相同的,乙组数据显得分散,甲组数据相对集中。

可见,平均数只能反映指标的集中位置,不能反映变量值在分布上的“集中、整齐”或“分散、参差”的离散程度。

用于反映离散程度的变异指标包括全距(range)、四分位数间距(interquartilerange)、方差(variance)、标准差(standarddeviation)和变异系数(coefficientofvariation)等,其中以标准差和变异系数尤为常用。

(1)全距

全距亦称极差,记为R,是一组变量值中最大值与最小值之差,反映资料分布的范围,全距大,说明数据的变异度大;反之,则说明变异度小。

用全距来说明变异度的大小,虽然简单,但存在如下缺点:

①不灵敏:

仅反映最大值与最小值之间的差异,当组内其它数据变动时,全距仍然不变。

②不稳定:

当样本例数增加时,获得过大或过小的变量值的可能性增大,因而全距可能变大。

故全距对变异度的描述是很粗略的,只能用来初步反映变异的大小。

(2)四分位数间距

四分位数(quartile)是两个特定的百分位数:

第25%分位数P25,和第75%分位数P75,分别记为QL和QU。

四分位数间距(interquartilerange)定义为:

QU-QL,其间包括了全部观察值的一半。

四分位数间距越大,说明数据的变异度越大。

四分位数间距较全距稳定,常与中位数一起,描述不对称分布资料的特征。

(3)方差和标准差

为了全面考虑每个观察值的变异情况,就总体而言,应考虑总体中每个变量值X与总体均数之差,称为离均差。

由于X-有正有负,且总和为0:

∑(X-)=0,这样仍达不到反映变异程度之目的,故将离均差平方后再相加,即∑(X-)2,称离均差平方和(sumofsquaresaboutthemean,简记为SS)。

但∑(X-)2的大小,除与变异程度有关外,还与变量值的个数N有关,即使两总体变异度相同,N大则∑(X-)2也大,为了消除N的影响,可取其平均,这就是总体方差(variance),用2表示,即:

(2.6)

因方差的单位是原度量单位(如kg、cm等)的平方,为了恢复成原单位,又将总体方差开平方,即得总体标准差(standarddeviation,简记为SD):

(2.7)

标准差和方差均反映个体变异,个体变异度越大,标准差和方差也越大,反之亦然。

然而,在实际工作中常常得到的是样本资料,总体均数往往是未知的,只能用样本均数作为的估计值,因此可用

代替(X-)2,用样本例数n代替N,但直接代入式(2.7)往往低估总体标准差,为弥补这一缺点,1908年英国统计学家Gosset提出,求离均差平方和的平均时,用n-1代替n作为校正,于是样本标准差s的定义为:

(2.8)

其中,n-1称为自由度(degreeoffreedom,df),所谓自由度就是允许自由取值的个数。

上式分子中有n项,因受

这一条件的制约,而只有n-1项可以自由变动,故自由度为n-1。

一般情况下,自由度=变量值个数-限制条件数。

例2.6求例2.2两组数据的标准差。

甲组:

n=5,s=3.16(kg)乙组:

n=5,s=4.74(kg)

可见乙组变异度较大。

标准差的基本内容是离均差“

”,它显示一组变量值与其均数的距离,故标准差直接地、总结地、平均地描述了变量值的离散程度。

在同质的前提下,标准差大表示变量值的离散程度大,即变量值的分布分散、不整齐、波动较大;反之,标准差小表示变量值的离散程度小,即变量值的分布集中、整齐、波动较小。

(4)变异系数

变异系数(coefficientofvariation,简记为CV)亦称离散系数(coefficientofdispersion),是标准差s与均数

之比,即:

(2.9)

变异系数派生于标准差,其应用价值在于同时排除了平均水平和量纲的影响。

因此变异系数常用于:

①比较度量衡单位不同的两组或多组资料的变异度。

②比较均数相差悬殊的两组或多组资料的变异度。

例2.7某地20岁男子100人,身高均数为166.06cm,标准差为4.95cm;体重均数为53.72kg,标准差为4.96kg,试比较身高和体重的变异何者为大。

由于单位不同,故不能直接比较两者的标准差,而应比较变异系数:

身高

体重

由此可见,该地20岁男子体重的变异度大于身高的变异度。

例2.8由表2.4资料可知,虽然儿童身高的标准差随着年龄的增大而增加,但不同年龄儿童身高的均数相差较大,在比较身高的变异度时,不能只看标准差的大小。

若用变异系数分析,则可看出6岁以下儿童身高的变异程度随着年龄的增加而逐渐减少。

表2.4某地某年不同年龄儿童身高(cm)的变异

年龄组

人数

均数

标准差

变异系数(%)

1~2月

100

56.3

2.1

3.7

5~6月

120

66.5

2.2

3.3

3~3.5岁

300

96.1

3.1

3.2

5~5.5岁

400

107.8

3.3

3.1

2.3.3平均数与变异度的关系

在一组定量数据中,平均数与变异度之间存在着密切的关系。

数据的分布越集中,变异度越小,各变量值与平均数间的距离波动就越小,则平均数的代表性就越好;反之,数据的分布越分散,变异度越大,各变量值与平均数间的距离波动就越大,则平均数的代表性就越差。

可见,平均数所表示的集中性与变异度所表示的离散性,是从两个不同的角度阐明定量资料的特征。

通常,用平均数与变异指标一起描述资料的分布特征。

例如,常用均数和标准差描述正态分布资料的特征;用中位数和四分位数间距描述偏态分布资料的特征。

§2.4定性资料与等级资料的统计指标

2.4.1相对数的概念

定性的或等级的原始资料经过整理,获得若干“绝对数”。

例如,某年甲地区的小学生中流脑发病63例,乙地区的小学生中流脑发病35例。

这些绝对数反映事物的实际水平,也是统计分析的基本数据。

但是,用绝对数只能说明甲地区的发病比乙地区多28例,而无法说明两地流脑流行的严重程度及其差别。

按甲地区共有小学生50051人,乙地区共有小学生14338人,可算出两个发病率:

甲地区流脑发病率:

1000‰=1.26‰

乙地区流脑发病率:

1000‰=2.44‰

这两个发病率是由绝对数算出来的相对数。

相对数有两个作用:

第一,表示事物出现的频度。

如发病率1.26‰,是指平均每年每千名小学生中发病1.26人,以此表示该病发生的强度,显然比用“50051人中一年内发病63人”明了。

第二,便于比较。

由于把两个原来不等的人数——50051和14338都化为相同的基数1000,统一了标准,可以直接比较:

甲地区小学生的发病率只有乙地区小学生的一半稍多,两个地区发病强度的差别就很清楚了。

可见,相对数表示相对关系。

常用相对数包括率、构成比、相对比,等。

2.4.2常用相对数

(1)率

率(rate)又称频率指标,用以说明某事物或某现象在其可能发生的范围内实际发生的频率或强度,常以百分率(%)、千分率(‰)、万分率(1/万)、十万分率(l/10万)等表示。

计算公式为:

(2.10)

式中分母由某现象的实际发生数(A)与实际未发生数(B)两部分组成,故上式可写成:

K按需选用,可以是100%、1000‰、……,主要使算得的率至少保留1~2位整数。

例2.9表2.5是对某市某年全年的急性传染病发病情况的统计,其中I区全年的急性传染病发病数为2433,该年年平均人口数为636723人(I区该年7月1日零时的人口数),据式(2.10),I区某年全年的急性传染病发病率=

仿此可计算其他各区的发病率,见表2.5第(6)栏。

表2.5某市某年各区急性传染病发生数及其相对数

市区

年平均

人口数

急性传染

病发生数

各区与I区

发病数之比

各区急性传染病

发生数构成比(%)

各区急性传染病

发病率(1/万)

(1)

(2)

(3)

(4)

(5)

(6)

I

636723

2433

18.9

38.21

II

389540

3033

1.25

23.5

77.86

III

699712

1650

0.68

12.8

23.58

IV

328363

1503

0.62

11.6

45.77

V

286967

1282

0.53

10.0

44.67

VI

317504

1853

0.76

14.4

58.36

VII

153838

1130

0.46

8.8

73.45

合计

2812647

12884

100.0

45.81

表2.5第(6)栏中的发病率表明了该市该年各区急性传染病发生频率的大小,如II区的发病率为77.86/

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > PPT模板 > 自然景观

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1