医学统计学总结Word下载.doc
《医学统计学总结Word下载.doc》由会员分享,可在线阅读,更多相关《医学统计学总结Word下载.doc(20页珍藏版)》请在冰豆网上搜索。
指被研究指标的影响因素相同。
变异(variation):
同质基础上的各观察单位间的差异。
变量(variable):
收集资料过程中,根据研究目的确定同质观察单位,再对每个观察单位的某项特征进行测量或观察,这种特征称为变量
变量值:
变量的观察结果或测量值。
变量类型
变量值表现
实例
资料类型
数值变量
离散型
定量测量值,有计量单位
产前检查次数
计量资料
连续型
身高
分类变量
无序
二分类
对立的两类属性
性别(男女)
计数资料
多分类
不相容的多类属性
血型(A,B,O,AB)
有序
类间有程度差异的属性
受教育程度(小学,中学,高中,大学…)
等级资料
5,总体(population)根据研究目的所确定的同质研究对象中所有观察单位某变量值的集合。
总体具有的基本特征是:
同质性
样本(sample)从总体中随机抽取部分观察单位,其变量值的集合构成样本。
样本必须具有代表性。
代表性是指样本来自同质总体,足够的样本含量和随机抽样的前提。
统计量(statistics)描述样本变量值特征的指标(样本率,样本均数,样本标准差)。
参数(parameter)描述总体变量值特征的指标(总体率,标准差,总体均数)。
抽样误差(samplingerror):
由于个体差异的存在,即使在同一整体中随机抽取若干样本,各样本的统计量往往不等,统计量与参数也会有所不同。
这种因抽样研究引起的差异称抽样误差。
随机事件(randomevent)对随机试验的各种可能结果的集合。
概率(probability)描述随机事件发生的可能性大些哦的一个度量。
小概率事件若随机事件A的概率P(A)≤α,习惯上,α=0.05时,就称A为小概率事件。
其统计学意义是小概率事件在一次随机试验中认为不会发生。
抽样误差
1,抽样误差(samplingerror)由抽样而造成的样本统计量与总体参数之间的差异或各样本统计量之间的差异。
在医学统计学中,常把由抽样造成的样本均数与总体均数间的差异称为均数的抽样误差;
由抽样造成的样本率与总体率之间的差异称为率的抽样误差。
2,样本均数的标准差(简称标准误,standarderror)反映均数的抽样误差大小的指标。
大,抽样误差大;
反之,小,抽样误差小。
(3.1)
实际工作中往往未知的,可用样本标准差s作的估计值,计算标准误的估计值。
(3.2)
3,标准误的用途:
a,衡量样本均数的可靠性;
b,估计总体均数的置信区间;
3,用于均数的假设检验。
4,标准误的估计值的用途:
a,描述抽样误差的大小;
b,总体参数的估计;
c,用来进行假设检验。
5,率的抽样误差:
由抽样造成的样本率与总体率的差异称为率的抽样误差。
衡量率的抽样误差大小的指标是率的标准误。
越小,率的抽样误差越小;
越大,率的抽样误差越大。
(3.3)
其中为总体率。
实际工作中,由于往往是未知的,可用样本率p作的估计值,计算率的标准误的估计值。
(3.4)。
标准差(s)
标准误
计算公式s=
(1)表示观察值的变异程度
(1)估计均数的抽样误差的大小
(2)计算变异系数CV=100%
(2)估计总体均数的可信区间
(,)
(3)确定医学参考值范围
(3)进行假设检验
(4)计算标准误
简述标准差、标准误的区别与联系?
区别:
(1)含义不同:
标准差S表示观察值的变异程度,描述个体变量值(x)之间的变异度大小,S越大,变量值(x)越分散;
反之变量值越集中,均数的代表性越强。
标准误估计均数的抽样误差的大小,是描述样本均数之间的变异度大小,标准误越大,样本均数与总体均数间差异越大,抽样误差越大;
反之,样本均数越接近总体均数,抽样误差越小。
(2)与n的关系不同:
n增大时,S趋于σ(恒定),标准误减少并趋于0(不存在抽样误差)。
(3)用途不同:
标准差表示x的变异度大小、计算变异系数、确定医学参考值范围、计算标准误等,标准误用于估计总体均数可信区间和假设检验。
联系:
二者均为变异度指标,样本均数的标准差即为标准误,标准差与标准误成正比。
标准差:
标准误:
二.分布
正态分布
1,正态分布的函数
其中为总体均数,为总体标准差,为圆周率,为自然对数的底,且仅为变量。
以为横轴,以为纵轴,当均数和标准差已知时即可绘出正态分布曲线。
为应用方便,将式中进行变量变换,使原来的正态分布变为的标准正态分布,亦称分布。
被称为标准正态变量或标准正态离差,将代入上述公式即得标准正态分布的密度函数。
(2.17)
(2.18)
2,正态分布的特征
(1)正态曲线(normalcurve)在横轴上方均数处最高。
(2)正态分布以均数为中心,左右对称。
(3)正态分布有2个参数(parameter),即均数(位置)和标准差(形状)。
当固定不变时,越大,曲线沿横轴越向右移动;
反之,越小,则曲线沿横轴越向左移动。
当固定不变时,越大,曲线越平阔;
越小,曲线越尖峭。
通常用N(,)表示均数为、方差为的正态分布。
用(0,1)表示标准正态分布。
(4)正态分布在1处各有一个拐点。
(5)正态曲线下面积的分布有一定规律。
3,常用的两个区间:
1.96及2.58的区间面积分别占总面积的95%及99%。
4,正态分布的应用
1),制定医学参考值范围
a,正态分布法适用于正态或近似正态分布的资料双侧界值:
;
单侧上界:
,或单侧下界:
。
b,对数正态分布法适用于对数正态分布资料双侧界值:
;
单侧上界:
,或单侧下界
c,百分位数法常用于偏态分布资料及资料中一端或两端无确切数值的资料。
双侧界值:
和;
2)正态分布是多种统计方法的理论基础如t分布,F分布,分布都是在正态分布的基础上推导出来的,分布也是以正态分布为基础的。
另外t分布,二项分布,poisson分布的极限为正态分布,一定条件下可按正态分布原理处理。
t分布
1,t分布:
(3.5)
t分布的特征为:
1.以0为中心,左右对称的单峰分布。
2.t分布曲线形态变化与自由度的大小有关。
自由度越小,则t值越分散,曲线越低平;
自由度逐渐增大时,则t分布逐渐逼近正态分布(标准正态分布)。
当=时,t分布为u分布。
t界值表附图中非阴影部分面积的概率为:
2,总体均数的估计:
用样本指标估计总体参数称为参数估计,是统计推断的一个重要方面。
总体均数的估计有2种方法。
一是直接用统计量估计总体参数,称为点值估计。
由于抽样误差的存在,此法很难估计准确。
二是区间估计(intervalestimation)法。
区间估计是按一定的概率100(1-)%估计总体均数所在的范围,亦称可信区间(confidenceinterval,CI)。
常取的可信度为95%和99%,即95%可信区间和99%可信区间。
计算方法有3种:
(1)未知且n小按t分布原理用式(3.6)计算可信区间。
由于将代入,得
则总体均数的100(1-)%可信区间的通式为:
(3.6)或写成(,)。
(2)未知,但n足够大时(n>
100)t分布逼近u分布,按正态分布原理,用式(3.7)估计可信区间。
()(3.7)
(3)已知按正态分布原理,用式(3.8)估计可信区间。
()(3.8)
标准正态分布(u分布)与t分布有何异同?
答:
相同点:
t分布和标准正态分布(u分布)都是以0为中心的正态分布。
标准正态分布是t分布的特例(自由度是无限大时)。
不同点:
t分布为抽样分布,u分布为理论分布;
t分布比标准正态分布的峰值低,且尾部翘得更高;
t分布受自由度大小的影响,随着自由度的增大,逐渐趋近于标准正态分布;
t分布有无数条曲线,而u分布只有唯一一条曲线。
二项分布
1,二项分布(binomialdistribution)是对只具有2种互斥结果的离散型随机事件的规律性进行描述的一种概率分布。
二项分布概率公式:
(3.9)
式中n为独立的贝努力试验次数,为成功的概率,(1-)为失败的概率,X为在n次贝努力试验中出现“成功”的次数,表示在n次试验中出现X的各种组合数,在此称为二项系数(binomialcoefficient)。
2,二项分布的应用条件:
(1)各观察单位只能具有相互对立的一种结果,如阳性或阴性,生存或死亡。
(2)已知发生某一结果(阳性)的概率为,其对立结果的概率为1-,实际工作中要求是从大量观察中获得比较稳定的数值。
(3)n次试验在相同条件下进行,且各个观察单位的观察结果相互独立。
3,二项分布的性质:
A,二项分布的均数和标准差在二项分布的资料中,
当和n已知时,它的均数及其标准差如下:
=n(3.11)
(3.12)
若均数和标准差不用绝对数表示,而是用率表示时,即对式(3.11)(3.12)分别除以n,得:
(3.13)
(3.14)
是样本率的标准误的理论值,当未知时,常用样本率p作为的估计值,则:
(3.15)
B,二项分布的累计概率二项分布的累计概率(cumulativeprobability)常用的有左侧累计和右侧累计2种方法。
从阳性率为的总体中随机抽取n个个体,则
(1)最多有k例阳性的概率
(3.16)
(2)