生物统计学基本概念及公式.docx
《生物统计学基本概念及公式.docx》由会员分享,可在线阅读,更多相关《生物统计学基本概念及公式.docx(34页珍藏版)》请在冰豆网上搜索。
生物统计学基本概念及公式
生物统计学(Biostatistics)是以概率理论为基础,研究生命科学中随机现象规律性的应用数学科学。
涉及到医学科学研究的设计、资料搜集、归纳、分析与解释的一门应用性基础学科、
二、科学研究的基本程序
1、提出一个欲待研究的问题:
2、科学研究设计:
专业设计、统计学设计:
统计学设计(statisticaldesign):
是指用统计学原理对研究的全过程所作出的周密合理的统精品文档,你值得期待
筹安排,如确定研究对象,拟定研究因素及其分配,如何执行随机、对照与重复的统计学原则,如何观察与度量效应,以及数据收集、整理与分析的方法,通过合理的、系统的安排,达到控制系统误差,以尽可能少的资源消耗(最小的人力、物力、财力和时间)获取准确可靠的信息资料及可信的结论,使效益最大化。
3、获取试验与观察的资料,又称为搜集资料
4、数据审核与计算机录入
5、分析资料
描述性统计(descriptivestatistics)是指用统计指标、统计图、统计表等方法,对数据的特征及其分布规律进行检测与描述。
统计推断(inferentialstatistics)是通过随机样本信息推断总体特征的过程。
统计推断又包括置信区间(confidenceinterval)估计与统计学假设检验(hypothesistest)。
统计学分析过程按变量的多寡可分为单变量分析与多重变量分析。
6、分析结果的合理解释(Explicationofresults):
研究中应注意的问题
1、统计学结论的正确与否取决于统计学分析数据的真实性、准确性以及研究样本对研究总体的代表性。
2、尽可能地控制系统误差是统计分析数据真实性、准确性的保证。
3、随机化抽样是确保样本数据对研究总体具有代表性的重要过程。
变量variable:
在总体中,个体的许多属性(如年龄、性别、血浆胆固醇等)存在变异性,统计学上将反映个体属性变异性特征的指标称为随机变量(Randomvariable),简称变量;针对不同类型的属性,需采用不同类型的变量,因而产生不同类型的资料。
总体(Population)与样本(Sample):
根据研究目的所确定的具有相同性质的观察单位的集合成为总体(母体)。
从同一总体中通过随机化过程抽取的部分观察单位称为样本(子样)。
抽样(Sampling)从研究总体中通过一定原则获取样本的过程
样本含量(Samplesize).样本中所包含的基本研究单位数量
同质(Homogeneity):
同一总体中的每一个体都具有相同性质类别的特征。
变异(Variation):
同一总体中的各个体间的差异性。
随机化(randomization):
能使总体中每一观察单位均能以同等机会(概率)进入样本,或分配到实验组与对照组的过程。
抽样误差(SamplingError):
由于总体中各个体间存在变异性,因抽样过程的随机性所至样本的统计量与总体的参数不等,或多个样本的统计量存在差异性称为抽样误差。
概率(Probability):
描述随机事件发生的可能性的度量。
随机事件A的发生概率记为P(A)。
概率的取值在0到1之间,若P=1或P=0的事件称为必然事件,若0
概率接近于0(如P<0.05)的事件称为小概率事件。
分布(distribution):
一个随机试验的所有结局事件与对应的概率的排列称为分布。
对应于样本数量值分布称其为频率分布(FrequencyDistribution);对应总体数量值的分布则称其为概率分布(ProbabilityDistribution)。
参数(Parameter):
描述总体特征的数量称为参数;常用希腊字符表示,如μ表示总体均数,σ表示总体标准差,π表示总体率。
统计量(Statistic):
描述样本特征的数量称为统计量;常用英语字母表示,如
表示样本均数,s表示样本标准差,p表示样本率。
生物医学数据的组织与表达
变量的类型:
按变量测量的精确程度由低到高,将数据分类为:
名义变量(如性别、婚姻状况)、有序变量(如疗效,类别间差别大小难以度量)、区间变量(如摄氏体温,类别间差别有实际意义)、比变量(如身高,除具有区间变量的特征外,还具有真实意义的零点。
摄氏温度的零点为水结冰时温度,并非绝对意义的零点,所以它不属于比变量)
1、定性变量(QualitativeVariable)
(1)名义变量(Nominalvariable)二项分类:
性别分类,如男性为1,女性为0。
多项无序分类:
血型的A、B、AB、O型多项无序分类
(2)有序(等级)变量(Ordinalorrankingvariable)多项有序分类:
疗效观测分为显效、有效、好转及无效4个类别。
2、定量变量(QuantitativeVariable)
(1)区间变量(intervalvariable):
或数值变量(numericalvariable)如:
身高,血压,血清胆固醇浓度,体温,脉搏计数、红细胞计数、玫瑰花环计数、住院天数等。
(一般有度量衡单位,类别间的差别大小有实际意义)
(2)比变量(ratiovariable):
以上例子中除体温外(具有真实意义的零点)
连续型变量(Continuousvariable)与离散型变量(Discretevariables)
根据观察数据之间有无缝隙(gap),常将数据分类为离散型变量(有缝隙)与连续型变量(无缝隙)两大类,名义变量一定是离散型变量;连续型变量只能是比、区间和有序变量,但比、区间和有序变量也可以是离散型变量
频数分布表:
*定量数据的频数分布;*(非配对设计)定性数据的频数分布*配对设计定性数据的频数分布
频数(frequency):
将定量数据分类成若干个组段,或将定性数据分类成若干个类别,所清点得到的每一组段或类别的数据出现个数。
频数表的编制步骤
(1)求极差(range):
即最大值与最小值之差,又称为全距。
R=6.29-2.72=3.57mmol/L
(2)决定分组组数、组距:
组距=极差/组数。
(3)列出组段:
(4)划记计数。
(非配对设计)定性数据的频数分布:
*一维频数表*二维频数表*高维频数表
统计图形表达:
*直方图(Histogram):
用于描述定量变量的数据分布特征。
*概率-概率散点图(p-pplot)又称为p-p图或百分点图,横轴为观察累积概率,纵轴为理论(如正态)累积概率,确定样本数据对于理论分布的一致性;*分位数-分位数散点图(q-qplot)又称为q-q图,横轴为观察值,纵轴为理论(如正态)分位数,确定样本数据对于理论分布的一致性绘P-P或Q-Q图的数据*茎叶(Stem-Leaf)图*盒式图(Boxplot)直条图(Barchart):
用直条反映定性变量不同类别下的某指标大小。
饼图(pieChart):
反映定性变量各个分类的构成情况。
*散点图*线图*统计地图(statisticalmap)
SAS会话窗口界面:
三个基本窗口*Editor编辑窗:
在此编写SAS程序*Log记录窗:
记录程序运行过程中所做的内容,如所运行的数据情况、所调用的过程步、程序运行时间等(红色---错误绿色---警告兰色---正常)*Output结果输出窗:
统计分析的结果。
*Result窗口*Explorer窗口
单变量综合性描述统计量
常用的中心趋势指标:
算术均数、几何均数、中位数、众数,统称为平均数(average)
算术平均数TheArithmeticmean:
简称均数(Mean)或均值,定义为所有测量值之和除以变量值个数(即,样本含量SampleSize)。
反映一组呈对称分布的变量值在数量上的平均水平。
(1)直接计算法:
公式:
(2)加权法:
组中值=(下限值+上限值)/2
均数的特征:
*最常用,特别是正态分布资料;*对极值非常敏感,最大值和最小值常将其拉向自己;*离均差的和为0
中位数(median):
是将每个变量值从小到大排列,位置居于中间的那个变量值。
公式:
n为奇数时
n为偶数时
频数表资料的中位数
中位数的特征:
计算时只利用了位置居中的测量值,优点:
对极值不敏感,缺点:
并非考虑到每个观测值;适用于各种分布类型的资料,特别适合于:
大样本偏态分布资料或者一端或两端无确切数值的资料
百分位数(percentile):
直接计算
设有n个原始数据从小到大排列,第X百分位数的计算公式为:
当nX%为带有小数位时:
当nX%为整数时:
频数表法:
计算方法大致同中位数
几何均数(geometricmean):
可用于反映一组经对数转换后呈对称分布或正态分布的变量值在数量上的平均水平。
公式:
(2)加权法:
几何均数的特征
1、几何均数适用于对数正态分布,如药物的效价、抗体的滴度、传染性疾病的潜伏期等资料。
2、变量x服从对数正态分布,即表示变量lg(xi)服从正态分布。
对于lg(xi),具有正态分布的所有特性。
众数(Mode):
是一群数据中出现次数(频数)最多的值。
适用于大样本;较粗糙。
众数的特征:
1、对于某些数据而言,例如均匀分布,并不存在众数;2、对于某些数据存在两个或多于两个的众数;3、定性数据可以存在众数;4.众数对于进一步的统计学计算与分析不具备应用价值。
离散与变异性指标:
全距;方差;标准差;变异系数;四分位间距;多样性指数
全距range:
为最大值与最小值之差,也叫极差,即R=Max(x)−Min(x).
方差:
(Variance)也称均方差(meansquaredeviation),反映一组数据的平均离散水平。
样本方差为各变量值到样本均数距离的平方和除以自由度的商值,即
总体方差:
标准差:
样本标准差为样本方差的平方根;总体标准差为总体方差的平方根。
样本标准差实用公式
样本标准差的加权公式
随机变量xi的标准化:
如果随机变量xi服从正态分布,均数和标准差分别为
和s,则随机变量xi的标准化正态离差值(Standardnormaldeviation)又称为标准化得分值(StandardScores)为:
变异系数(coefficientofvariation,CV):
常用于比较度量单位不同或均数相差悬殊的两组(或多组)资料的变异程度。
四分位数间距(inter-quartilerange):
用IQR表示:
IQR=P75-P25=Q3-Q4
多样性指数(IndicesofDiversity):
描述无序分类变量在各各义类别间频数的离散度。
用熵与最大熵之比表达离散度
率、比的均数与方差
率(rate):
在特定条件下,可能发生某现象的总例数中,实际发生某现象的强度或频率。
比(ratio):
构成比(Proportion,constituentratio):
构成比指标用以表示事物内部某一构成成分在全部构成中所占的比例或比重。
相对比(relativeratio)是由两个有关联的指标之比。
应用率比指标时的注意事项
1、保证有足够样本含量;2、不要将率和比指标混淆;3、注意平均率的计算;4、率和比指标比较时,要有可比性(不可比时可采用率标准化);5、不要简单由样本率的差异做出结论。
率比和均数一样都有抽样误差,需采用假设检验下结论。
随机变量、概率和概率分布
频率frequency:
样本的实际发生率。
设在相同条件下,独立重复进行n次试验,事件A出现f次,则事件A出现的频率为f/n。
概率probability:
随机事件发生的可能性大小,用大写的P表示;取值[0,1]。
样本空间(samplingspace):
随机试验的所有可能的结果称为样本空间。
频率与概率间的关系:
1.样本频率总是围绕概率上下波动;2.样本含量n越大,波动幅度越小,频率越接近概率。
事件间的关系:
(1)和事件(Unionoftwoevents):
事件A或者事件B发生(A或B)或(A∪B)
(2)积事件(Intersectionoftwoevents):
事件A与事件B同时发生(A与B)或(A∩B)
(3)互斥事件:
事件A、事件B不可能同时发生(也可都不发生),则事件A与事件B互斥
(4)对立事件:
事件A、事件B不可能同时发生,并且事件A与事件B必有一个发生。
条件概率(conditionprobability)若关心的事件为B,以事件A为条件,则在A的条件下,事件B发生的概率为P(B|A)
事件的独立性:
若事件A的发生不影响事件B的发生,即事件A与事件B相互独立,则有P(B|A)=P(B)
概率分布(probabilitydistribution):
描述随机变量值xi及这些值对应概率P(X=xi)的表格、公式或图形。
概率密度函数(probabilitydensityfunction):
如果样本量很大,组段很多,矩形顶端组成的阶梯型曲线可变成光滑的分布曲线。
大多数情况下,可采用一个函数拟合这一光滑曲线。
这种函数称为~
常用的概率分布:
离散型随机变量分布
一、二项分布
二、泊松分布
当二项分布中n很大,π很小时,二项分布就变成为Poisson分布,所以Poisson分布实际上是二项分布的极限分布。
由二项分布的概率函数可得到泊松分布的概率函数为:
Poisson分布主要用于描述在单位时间(空间)中稀有事件的发生数
Poisson分布概率的计算
Poisson分布的性质
1.Poisson分布的均数与方差相等即σ2=m
2.Poisson分布的可加性
3.Poisson分布的正态近似:
m相当大(≥20)时,近似服从正态分布:
N(m,m)
4.二项分布的Poisson分布近似
连续型随机变量分布:
变量的取值充满整个数值区间,无法一一列出其每一个可能值。
一般将连续型随机变量整理成频数表,对频数作直方图,直方图的每个矩形顶端连接
的阶梯形曲线来描述连续型变量的频数分布。
如果样本量很大,组段很多,矩形顶端组成的阶梯型曲线可变成光滑的分布曲线。
大多数情况下,可采用一个函数拟合这一光滑曲线。
这种函数称为概率密度函数(probabilitydensityfunction)
成功次数的概率分布─二项分布:
二项分布的应用
1.二项分布的均数与方差
X~B(n,π)
X的均数
X的方差:
X的标准差:
出现阳性次数至多为k的概率:
出现阳性次数至少为k的概率:
正态分布(NormalDistribution)
1.概率密度函数
2.概率分布函数
正态分布特征
(1)正态分布在横轴上方均数处最高。
(2) 正态分布以均数μ为中心,左右对称。
(3)正态分布由参数μ和σ确定。
μ(总体均数)是位置参数,当σ(总体标准差)不变时,μ越大,则曲线沿横轴越向右移动;反之,μ越小,曲线沿横轴越向左移动。
σ是变异度参数,当μ不变时,σ越大,表示数据越分散,曲线越平坦;σ越小,表示数据越集中,曲线越陡峭。
(4)正态分布曲线与X轴所围成的面积为1。
(5)在μ±σ的区间内占总面积的68.27%,在μ±1.96σ的区间内占总面积的95%;在μ±2.58σ的区间内占总面积的99%。
标准正态分布:
标准正态离差:
此概率密度函数实质上就是正态分布的概率密度函数中μ=0,σ=1的情形。
从几何意义上说,此变换实质上是作了一个坐标轴的平移和尺度变换,使正态分布具有平均数为μ=0,标准差σ=1。
这种变换称为标准化正态变换。
因此将这种具有平均数为μ=0,标准差σ=1的正态分布称为标准正态分布,记为N(0,1)
正态分布概率密度曲线在-1~+1的区间内占总面积的68.27%,在-1.96~+1.96的区间内占总面积的95%;在-2.58~+2.58的区间内占总面积的99%。
标准正态分布
正态分布
面积或概率
-1~1
μ±σ
68.27%
-1.96~1.96
μ±1.96σ
95%
-2.58~2.58
μ±2.58σ
99%
描述正态分布特征的两个参数:
偏度系数coefficientofskewness:
度量随机变量对称性的参数r1=0为对称,r1>0为正偏态,反之为负偏态。
峰度系数coefficientofkurtosis:
描述随机变量陡峭度的参数,r2=0为正态峰,r2>0分布较正态分布陡峭,r2<0时分布较正态分布平阔。
正态分布的特征,归纳起来有两点:
一是对称性(symmetry):
若分布不对称就是偏态,长尾拖向右侧(变量值较大的一侧)叫做正偏态,或右偏态;长尾拖向左侧(变量值较小的一侧)叫做负偏态,或左偏态。
二是正态峰(mesokurtosis):
峰态系数是描述随机变量陡峭度的参数,分为:
正态峰、平阔峰、尖峭峰。
正态分布在医学中的应用
1.大多数生理生化指标服从正态分布
2.估计医学参考值范围
3.质量控制
4.二项分布,poisson分布的极限均为正态分布;
5.卡方、t与F分布都与正态分布有关。
如果总体服从正态分布N(m,s2),则从该正态总体中抽取样本,得到的样本均数也服从正态分布,但该分布为N(m,s2/n),此时的方差是总体的1/n倍,即有
不论总体的分布形式如何,只要样本含量n足够大时,样本均数的分布就近似正态分布,此称为中心极限定理centrallimittheorem。
常用的三种抽样分布
一、分布
(1)自由度为1的
分布若Z~N(0,1)则Z2的分布称为自由度为1的
分布
(chi-squaredistribution),记为
二、t分布:
自由度-1
t分布的特征
①以0为中心,左右对称的单峰分布;
②t分布曲线是一簇曲线,其形态变化与自由度的大小有关。
自由度越小,则t值越分散,曲线越低平;自由度逐渐增大时,t分布逐渐逼近Z分布(标准正态分布);当趋于∞时,t分布即为Z分布。
三、F分布
令
和
分别为服从自由度为
和
的
独立变量的卡方分布,则称
服从分子自由度
为
和分母自由度为
的F分布,记为F~
。
对于样本方差
和
,自由度分别为
和
的
正态总体,所以有F=
~
统计推断
统计推断(Statisticalinference)是采用样本统计量
对相应总体参数
所做的非确定性的推估。
包括:
1.点估计pointestimation;2.区间估计intervalestimation;3.假设检验hypothesistesting(orsignificancetesting);4.预测(prediction)
抽样误差(samplingerror):
由于个体差异导致的样本统计量与总体参数间的差别。
标准误(standarderror,SE):
即样本均数的标准差,可用于衡量抽样误差的大小。
样本总体标准差已知时,
样本总体标准差未知时,
总体均数的点估计(pointestimation)与区间估计(intervalestimation)
参数的估计:
点估计:
由样本统计量直接估计总体参数
区间估计:
获得一个置信区间(confidenceinterval,CI)——由样本数据估计得到的、100(1-α)%可能包含未知总体参数的一个范围值。
一、置信区间的有关概念:
(1-α)或100(1-α)%称为置信度(confidencelevel),常取95%(90%、99%)。
σ已知或s未知但n足够大,按Z分布;s未知,按t分布
σ已知,总体均数双侧100(1-α)%置信区间为:
σ已知,总体均数单侧100(1-α)%置信区间为:
或
Z0.05/2=1.96双侧
Z0.05=1.645单侧
置信区间通常两个数值即两个置信限(confidencelimit,CL):
较小的称为置信下限(lowerlimit,L),较大的称为置信上限(upperlimit,U),
置信区间的涵义
从同一总体中重复抽取若干个相互独立的样本,将具有100(1-a)%的置信度,所计算的置信区间包括总体均数。
如95%的置信区间表示:
如果从同一总体中重复抽取100个独立样本,那么将可能有95个置信区间包括总体均数。
(总体均数会落在这样的区间…说法欠妥)
对于一次估计的置信区间,可能有95%的正确率包括总体均数,但仍有5%的置信区间估计错误。
5%是小概率事件,统计学认为在一次的估计中不发生。
置信区间估计的优劣:
置信度大好,还是小好?
1.置信度1-α(准确度,accuracy),愈接近1愈好,如99%的置信度比95%的置信度要好;
2.区间的宽度(精密度,precision),区间愈窄愈好。
当样本含量为定值时,上述两者互相矛盾。
在置信度确定的情况下,增加样本含量可减小区间宽度。
总体均数置信区间与参考值范围的区别
区别点
总体均数可信区间
参考值范围
含
义
从同一总体中重复抽取若干个相互独立的样本,将具有100(1-α)%的置信度,所计算的置信区间包括总体均数。
“正常人”的解剖,生理,生化某项指标的波动范围。
总体均数的波动范围
个体值的波动范围
计算
公式
未知n较小:
已知,或未知但n较大:
正态分布:
偏态分布:
PX~P100X
用途
总体均数的区间估计
绝大多数(如95%)观察对象某项指标的分布范围
方差的抽样分布特征
1.样本方差的分布是正偏态分布,样本含量较小时更是如此。
2.随着样本含量的逐渐增大,对称性逐渐改善。
3.理论上可以证明:
若随机变量x服从正态分布,则其相应的样本方差S2的分布服从自由度为n-1的卡方分布。
4.标准差的标准误
总体方差s2的100(1-a)%置信区间:
(
,
)
由抽样引起的样本率(p)和总体率(π)的差异称为率的抽样误差(samplingerrorofrate),用率的标准误(standarderrorofrate)度量。
如果总体率π未知,用样本率p估计
I型错误(弃真):
拒绝实际正确的H0,I型错误的概率记为α。
(1-a)即置信度:
重复抽样时,样本区间包含总体参数(m)的百分数。
II型错误(纳伪):
不拒绝实际不正确的H0,II型错误的概率记为β。
(1-β)即把握度(或检验效能):
两总体确有差别,被检出有差别的能力
单个总体均数的假设检验
1.总体方差已知,采用Z检验
2.总体方差未知,采用t检验:
自由度n-1
第七节总体率的假设检验
例数较少时,采用二项分布的概率公式计算
当nπ≥5,且n(1-π)≥5(n大,π不接近0,1)时近似正态分布,可计算Z统计量
π0为已知总体均数
检验方法的选择:
假设检验的基本步骤
一.建立检验假设,确定检验水准
二.选择检验方法和计算统计量
三.确定概率P值和作出统计推断:
P值是在H0成立前提下,比样本统计量(Z、t、F值等)更极端的概率。
四、根据统计推断结果,结合相应的专业知识,给出一个专业的结论。
两总体均数差异性检验
大样本(两组例数均>50例):
z近似,t更精确
配对设计资料均数的比较
1.异源配对:
将受试对象按某些混杂因素(如性别、年龄、窝别等)配成对子