统计学计量的统计描述方法.docx
《统计学计量的统计描述方法.docx》由会员分享,可在线阅读,更多相关《统计学计量的统计描述方法.docx(11页珍藏版)》请在冰豆网上搜索。
统计学计量的统计描述方法
计量资料的统计描述方法
怎样表达一组数据
描述计量资料的常用指标—
A、描述平均水平(中心位置):
均数
、中位数和百分位数、几何均数G、众数(mode)
B、描述数据的分散程度:
标准差、四分位数间距、变异系数、方差、全距
(一)均数mean和标准差standarddeviation
1.(算术)均数
均数是描述一组计量资料平均水平或集中趋势的指标。
*直接计算公式:
应用条件:
适用于对称分布,特别是正态分布资料。
2.中位数(median)M和百分位数(percentile)
A.中位数M
是将一组观察值从小到大排序后,居于中间位置的那个值或两个中间值的平均值。
应用条件:
用于任何分布类型,包括偏态资料、两端数据无界限的资料。
计算:
n为奇数时--
n为偶数时--
9人数据:
12,13,14,14,15,15,15,17,19天
B.百分位数
是将N个观察值从小到大依次排列,再分成100等份,对应于X%位的数值即为第X百分位数。
中位数是第百分50位数。
四分位数间距(quartilerange)
=第25百分位数(P25)~第75百分位数(P75)。
四分位数间距用于描述偏态资料的分散程度(代替标准差S),包含了全部观察值的一半。
百分位数计算(频数表法):
:
第X百分位数所在组段下限
:
小于
各组段的累计频数
:
第X百分位数所在组段组距
:
总例数fx:
所在组段频数
注:
有的教材X=r;
=C
例:
求频数表的第25、第75百分位数(四分位数间距)
组段
频数
累积频数∑f
56~
2
2
59~
5
7
62~
12
19∑f25
L2565~
15
34P25在此
68~
25
59
71~
26
85∑f75
L7574~
19
104P75在此
77~
15
119
80~
10
129
83~85
1
130
合计
130
①确定Px所在组段:
P25所在的组段:
nX%=130×25%=,
65~组最终的累积频数=34,落在65~组段内;
P75所在的组段:
nX%=130×75%=,此值落在74~组段
②确定Px所在组段的
、
、fx、
③P25=65+3x[(130x25%-19)/15]=
P75=74+3x[(130x75%-85)/19]=
四分位数间距=~(次/分)
3.几何均数G(geometricmean)
应用:
适用于成等比数列的资料,特别是服从对数正态分布资料。
原始数据分布不对称,经对数转换后呈对称分布的资料。
可用于反映一组经对数转换后呈对称分布或正态分布的变量值在数量上的平均水平。
例如抗体滴度。
计算:
N个数值的乘积开N次方,即为这N个数的几何均数。
有8份血清的抗体效价分别为1:
5,1:
10,1:
20,1:
40,1:
80,
1:
160,1:
320,1:
640,求平均抗体效价。
使用分母计算!
平均抗体效价为:
1:
57
加权法:
众数
是一组观察值中出现频率最高的那个观察值;若为分组资料,众数则是出现频率最高的那个组段的组中值。
适用于大样本但较粗糙。
例:
有16例病人的发病年龄为42,45,48,51,52,54,55,55,58,58,58,58,61,61,62,62,试求众数。
正态分布时:
均数=中位数=众数
正(右)偏态分布时:
均数>中位数>众数
负(左)偏态分布时:
均数<中位数<众数
3.标准差S
S描述数据的分散程度.描述一组数据在其平均数周围的分布情况,若每个数据集中在其平均数周围,此平均数对这组数据的代表照就大;反之,代表性较差。
标准差S
甲组
75
80
85
90
95
100
105
n1=7
1=90
s1=
乙组
45
60
75
90
105
120
135
n2=7
2=90
s2=
,分子越大。
或者
标准差的5应用:
描述变异程度、计算标准误、计算变异系数、
描述正态分布、估计正常值范围
S用于正态分布资料
怎样使用均数和标准差
论文中常用
±S描述对称、正态或近似正态分布数据的特征。
描述偏态资料的分散程度需用四分位数间距P25~P75(代替标准差S)。
方差:
方差=S2
全距R:
R=最大值–最小值。
简单,但仅利用了两端点值,稳定性差。
变异系数(coefficientofvariation,CV):
计算:
CV=(S/
)100%,无单位
应用:
1.单位不同的多组数据比较;
2.均数相差悬殊的多组资料
什么是正态分布
(二)正态分布(Normaldistribution)
正态分布是描述连续型变量值分布的曲线.当例数比较多时,医学上许多资料近似服从正态分布。
正态分布在统计推断上有重要的作用。
正态分布曲线理论上的特征
(1)以X=μ均数为中心,X值呈钟型分布,中央高、两端对称性减少、与X轴永不相交。
(2)在X=μ处,f(x)取最大值(例数最多)。
(3)正态分布由均数μ、标准差σ决定曲线的左右位置和高低形状:
正态分布有两个参数,即位置参数--均数
和形态参数--标准差
。
若固定标准差
,改变均数
值,曲线沿着X轴平行移动,其形状不变。
若固定
,
越小,曲线形状越陡峭;反之,
越大,曲线越平坦。
正态分布均数(位置参数)、标准差(变异度)变化示意图
正态曲线面积分布规律:
1X轴与正态曲线所夹面积恒等于1或100%;
2区间
的面积为%;
3区间
的面积为%;
4区间
的面积为%。
正态分布u值表(标准正态分布概率单位值)
变量值
分布范围(%)
尾部面积
α
单侧u值
双侧u值
80
90
95
99
尾部面积为α的u值,记为uα,称为u界值:
尾部面积各为%时(黑色处),其对应的u值为u=±;
u=(,)区间的面积为(空白处)
正态分布的应用:
1.估计正态分布X值在特定值范围内的分布比例(概率)。
2.制定某临床指标的参考值范围
3.利用估计变量值的范围或对极端值做取舍。
4.许多统计方法的统计推断建立在正态分布基础上。
怎样确定资料是否属正态分布
1.做正态性检验;
2.粗略估计:
正态一般
;
者必为偏态!
正态分布可用于求参考值范围!
(三)医学参考值范围的制定
概念 医学参考值是指包括绝大多数“正常人”的各种生理及生化指标常数,也称正常值(背景值)。
正常值是指在一定范围内波动的值,医学上常用95%的范围作为判定正常或异常的参考标准。
制定参考值的基本原则
1.选定正常人:
即排除了影响研究指标的有关因素的同质人群。
有足够的样本例数(一般不低于100例)
2.确定参考值范围的百分界限(常用95%)
3.考虑制定单侧或双侧诊断界值:
新药肯定比旧药好(旧药肯定比新药差)——单侧
新药可能好,也可能差------------------------------双侧
双侧标准较高,结论较可靠(常用)
4.依分布(正态或偏态)确定计算方法:
(1)正态分布法
±μS,其中
双侧95%参考值范围公式:
±
单侧95%参考值范围公式:
+
例:
已知111人的血铅
=μg/100ml,S=μg/100ml
因为血铅可以低而不可以高,故用单侧95%参考值范围
+=+×=(μg/100ml);
血铅95%参考值范围≤μg/100ml
注意:
如果资料非正态分布而使用正态分布法,会得出错误结论!
!
(2)百分位数法
适用于偏态分布资料
计算公式:
双侧界值:
~
单侧用上界:
P95
单侧用下界:
P5