医学统计复习提纲Word文档格式.docx

上传人:b****5 文档编号:21440821 上传时间:2023-01-30 格式:DOCX 页数:14 大小:35.14KB
下载 相关 举报
医学统计复习提纲Word文档格式.docx_第1页
第1页 / 共14页
医学统计复习提纲Word文档格式.docx_第2页
第2页 / 共14页
医学统计复习提纲Word文档格式.docx_第3页
第3页 / 共14页
医学统计复习提纲Word文档格式.docx_第4页
第4页 / 共14页
医学统计复习提纲Word文档格式.docx_第5页
第5页 / 共14页
点击查看更多>>
下载资源
资源描述

医学统计复习提纲Word文档格式.docx

《医学统计复习提纲Word文档格式.docx》由会员分享,可在线阅读,更多相关《医学统计复习提纲Word文档格式.docx(14页珍藏版)》请在冰豆网上搜索。

医学统计复习提纲Word文档格式.docx

如按血压测量值大小将血压分为低血压、正常、高血压,从而按分类变量处理。

四、基本概念

1、总体:

根据研究目的确定的同质观察单位的全体。

有限总体?

无限总体?

2、样本:

从总体中随机抽取部分观察单位实测值的集合。

3、同质:

是指具有某些相同因素的个体,而这些因素会对研究指标产生影响(如同一地区、同一年份、同一性别等)。

4、变异是指在同质的基础上各观察值之间的差异。

个体差异来源于一些未加控制或无法控制,甚至不明因素所致的随机误差。

5、变量(variable):

亦称研究因素或指标,是观察单位的某项属性或特征,由研究目的所确定。

例如体重、白细胞计数、血红蛋白、性别,等。

6、变量值(valueofvariable)亦称观察值(observedvalue)和资料(data):

是变量的观察结果。

7、参数:

用于描述总体特征的指标,由总体观察值计算而来。

8、统计量:

用于描述样本特征的指标,由样本观察值计算而来。

定量资料的统计描述

一、频数、频数分布、频数表

1、频数:

将原始资料进行分组,每一组的事件数即称为该组频数。

如原始资料为分类资料,则按性质类别进行分组;

如原始资料为计量资料,则按变量值区间来分组。

2、频数分布:

原始资料落在各数据组的分布情况

3、频数表:

将各数据组及其相应的事件数用表格的形式列出来。

4、频数表的用途

(1)揭示资料的分布特征和分布类型

(2)便于进一步计算和分析

(3)便于发现某些特大或特小的可疑值

5、频数表的制作步骤

(1)求极差

(2)定组数、组距及各组段的上、下限(n≈30,分5~6组;

n>100,分10组左右)。

确定第一组下限时应考虑:

便于分组、计算;

第一组应包括最小值,最后一组应包括最大值。

(3)归组

6、计量资料频数分布的两个特征:

集中趋势?

离散趋势?

7、频数分布的类型:

对称分布?

偏态分布?

二、集中趋势的描述

1、算术均数(简称均数):

适用于对称分布,特别是正态分布。

2、几何均数:

等比资料如抗体滴度;

对数正态分布资料。

3、中位数:

偏态分布资料;

分布不明资料;

开口资料。

三、离散程度的描述

1、极差:

样本含量相差较大时,不宜用极差比较分布的离散程度。

2、四分位数间距:

P75-P25,描述偏态分布资料的离散趋势,常与中位数结合使用。

3、方差:

多用于假设检验中。

4、标准差:

描述正态或近似正态分布资料的离散趋势,常与均数结合使用。

它主要用于:

(1)说明观察值变异程度的大小,两组观察值均数相近,单位相同时,S越大变异程度越大。

(2)与均数一起描述正态分布资料的特征

(3)计算变异系数

(4)计算标准误

定性资料的统计描述

1.常用的三类相对数及使用的注意事项

 

统计表与统计图

1.绘制统计表的原则

2.常用的统计图的用途

常用概率分布

一、二项分布的条件、特征及和泊松分布、正态分布的关系。

二、泊松分布的特征。

三、正态分布的概念和特征

1、正态分布的概念:

它是以均数为中心的对称的钟型分布

2、正态分布的两个参数:

均数(集中趋势位置)和标准差(离散程度)

3、正态曲线下面积分布规律:

-1σ到+1σ68.27%;

-1.96σ到+1.96σ95.00%;

-2.58σ到+2.58σ99.00%

二、标准正态分布

为便于描述和应用,将服从正态分布的随机变量作数据变换。

设u=(X-μ)/σ,则u的均数等于0,标准差等于1,即将μ的位置移到原点,横轴尺度以σ为单位,这样将正态分布变换为标准正态分布。

u值又称为标准正态离差。

三、正态分布的主要应用

1、估计频数分布

习题1.1(4)估计该地30~49岁健康男子血清胆固醇小于4.50mmol/L的概率

u=(4.50-4.7351)/0.8816=-0.27,概率为0.3936,即39.4%

2、制定参考值范围

指标过大和过小均异常定双侧;

仅过小异常定单侧下限(如肺活量);

仅过大异常定单侧上限(如尿铅含量)

正态分布法用于服从正态分布的指标;

百分位数法用于不服从正态分布的指标。

参数估计基础

一、均数的抽样误差与标准误

1、抽样误差:

由个体变异产生,抽样造成的样本统计量与总体参数的差异。

2、中心极限定理:

从正态总体中随机抽取例数为n的样本,样本均数也服从正态分布;

即使从偏态总体中抽样,当n足够大(如n>

50),样本均数也近似正态分布。

(了解)

3、标准误:

反映样本均数间的离散程度,样本均数与总体均数的差异,说明均数抽样误差的大小。

标准误越小,表示抽样误差越小,则统计量越稳定,与参数越接近。

注意跟标准差的区别

二、t分布

1、概念:

当总体标准差未知时,可作正态变量

的t转换:

2、t分布与标准正态分布的联系:

t分布只有1个参数:

自由度(=n-1)。

逐渐增大时,t分布逐渐逼近标准正态分布。

当=∝时,t分布就完全成为标准正态分布了。

3、t界值表的使用:

对于相同的自由度,值愈小,t,值愈大;

对于相同的值,自由度愈大,t,值愈小。

三、总体均数的估计

参数估计:

指用样本指标值(统计量)估计总体指标值(参数)。

1、点(值)估计:

用样本均数估计总体均数。

但未考虑抽样误差。

2、区间估计:

按预先给定的概率(1-α)确定包含未知总体均数的可能范围。

可信度(1-)和可信限(可信区间的两个端点值)的概念?

总体均数的1-可信区间为:

95%可信区间(confidenceinterval)的含义:

有95%的可能认为计算出的可信区间包含了总体参数。

可信区间的可信度和精密度:

99%(范围宽,可信度高,但精密度差)和95%可信区间的比较。

注意和参考值范围区分。

假设检验

1、假设检验的步骤

(1)建立检验假设(H0,H1)和确定检验水准()

(2)选定检验方法和计算检验统计量

(3)确定P值和作出统计学推断

统计结论:

(两种药物疗效)的差别有(或无)统计学意义。

专业结论:

可认为…不同;

尚不能认为…不同;

甲药疗效优于乙药,尚不能认为两药疗效有差别,等。

2、假设检验的基本原理

要检验两样本均数的差异是由于抽样误差引起,还是由于总体均数不同所致,运用反证法。

首先建立检验假设,假设样本来自同一总体,然后在假设的基础上计算统计量,根据统计量的大小来判断假设成立的概率有多大,当假设成立的概率较大时就不拒绝该假设,当假设成立的概率较小时就拒绝该假设。

3、t检验的用途,适用什么类型的资料

1)单样本t检验(One-samplettest)。

2)配对t检验(Paired-samplesttest)

配对设计主要有以下情形

两个同质受试对象分别接受两种不同的处理

同一受试对象分别接受两种不同的处理

同一受试对象处理前后

应用条件:

要求“差数”服从正态分布

3)两样本t检验(Independent-samplesttest)。

要求两个正态总体方差相等,特别是在样本含量较小时(如n1和n2均小于50)。

4、Ⅰ型错误和Ⅱ型错误

Ⅰ型错误(α):

拒绝了实际上是成立的H0

Ⅱ型错误(β):

不拒绝了实际上是不成立的H0

α的β关系:

α小,β大;

α大,β小;

同时减少,只有增加n

1-β:

检验效能,指两总体确有差别,按β水准能发现它们有差别的能力。

5、假设检验时应注意的问题(P越小,是否代表差异越大;

P和α的区别)

6、可信区间与假设检验的区别和联系(了解)

1)可信区间亦可回答假设检验的问题:

如可信区间包含了H0,则……?

2)可信区间比假设检验可提供更多的信息

3)可信区间只能在检验水准α的前提下进行计算(即只能知道P值是否小于α,如0.05),而假设检验能够获得确切的概率P值。

方差分析

一、完全随机设计方差分析

完全随机设计方差分析的总变异分几部分?

F值是与的比值?

如各样本均数来自同一总体,则F值理论上等于。

若各样本均数不是来自同一总体,则变异会增大,F值将明显于1。

二、随机区组方差分析

1、随机区组方差分析的总变异分为几部分?

由于从总变异中分离出变异,减少了个体差异对研究结果的影响,一般而言,较成组设计更容易检验出处理组间的差别,提高了检验效率。

2、区组效应是否具有统计学意义是重要的,它表明了区组的划分是否成功。

如区组效应有统计学意义,可提高检验效率;

如区组效应无统计学意义,则并不能提高检验效率,甚至有可能降低检验效率。

因此,并非任何场合划分区组都好。

若没有足够理由显示不同区组间差别确有统计学意义,则宁可不分

三、方差分析对数据的基本假设

1、任何两个观察值之间均不相关。

2、每一水平下的观察值Xij分别服从总体均数为μi的正态分布。

3、各总体的方差相等。

四、两两比较及其SAS实现

2检验

1、2检验用于解决哪些问题?

2、四格表资料2检验的应用条件?

(1)基本公式:

应用条件为n≥40,T≥5。

(2)校正公式:

应用条件为n≥40,1≤T<

5。

(3)确切概率法:

应用条件为n<

40,或T<

1。

3、配对四格表资料的2检验:

掌握计算方法

4.行×

列表2检验时的注意事项(了解)

(1)当有1/5及以上格子的理论频数T<

5,或有1个格子T<

1时,应该与相邻组合并(但要合理),或增加样本例数。

(2)结论为拒绝H0,是认为各总体率不等或不全相等(其中至少有两个总体率不等)。

(3)若结局变量为单向有序行列表,当等级数大于3时,一般用秩和检验分析更为适宜。

秩和检验

1、参数统计与非参数统计

参数统计:

通常要求样本来自的总体分布型是已知的(如正态分布),在这种假设的基础上,对总体参数进行估计和检验。

非参数统计:

不依赖总体分布类型,也不对总体参数进行推断的假设检验。

2、非参数统计的假设检验(编秩次的方法要掌握)

(1)配对设计差值的符号秩和检验

H0:

差值总体中位数Md=0

H1:

Md≠0

(2)成组设计两样本比较的秩和检验

两总体分布相同

两总体分布不相同

(3)多个样本比较的秩和检验(以3组为例)

三个总体分布相同

三个总体的位置不同或不全相同

3、非参数统计的优缺点

优点:

不受总体分布的限制,适用范围广。

缺点:

没有充分利用资料提供的信息。

适用参数检验条件的资料,应首选参数检验

4、非参数统计的适用情况

(1)等级资料;

(2)偏态分布;

(3)分布不明;

(4)个别数据偏离过大;

(5)各组方差明显不齐

5、判断资料分布类型的途径

(1)据文献或以往经验;

(2)频数表;

(3)正态性检验

(4)若测定值(都是正值)服从正态分布,则一般来说,标准差s不会大于均值,更不会是均值的若干倍。

两变量关联性分析

1、直线相关的概念:

如不要求由X估计Y,而关心的是两个变量间是否确有直线相关关系,如有直线相关关系,那么相关的方向和程度如何?

资料要求:

X、Y服从双变量正态分布。

2、相关系数的意义:

用r表示。

描述两个变量直线相关的方向和紧密程度。

r的取值范围:

-1≤r≤1。

r>

0为正相关,r<

0为负相关,|r|愈接近1,说明两变量关系愈密切。

总体相关系数用ρ表示

3、相关系数的假设检验:

即使X、Y的总体相关系数ρ为零,但由于抽样误差,其样本相关系数r也不一定为零,因此需作ρ是否为零的假设检验。

r和b的假设检验是等价的。

4、秩相关的应用

5、分类变量关联性:

注意和普通的四格表卡方检验或配对卡方检验在应用上的区别。

后者推断的是率或构成比的差别,前者推断的是两个属性的关联性,所以假设检验不同,推断的结论不同,计算公式也可能不同。

简单回归分析

1、直线回归的概念和应用条件:

研究随机变量和选定变量或两个随机变量的依存关系。

用X表示自变量,Y表示应变量。

Y有随X增加而增大趋势,且散点图呈直线趋势,但并非每个散点都在一直线上。

这与两变量间严格对应的函数关系不同,称为直线回归。

最小二乘法的原理。

做回归分析的步骤过程。

2、直线回归方程的一般表达式?

表达式中各项的统计学意义?

回归系数假设检验的无效假设?

3、SS总、SS回和SS剩的关系和意义

SS总=SS回+SS剩

SS总:

Y的离均差平方和,又称总平方和,说明未考虑X与Y的回归关系时Y的变异。

SS回:

回归平方和,它反映在总平方和中可以用X解释的部分。

SS回越大,说明回归效果越好。

SS剩:

剩余平方和,反映在总平方和中无法用X解释的部分。

7、直线回归与相关的区别

(1)资料要求上:

回归要求因变量Y服从正态分布,自变量X可以选定,也可以服从正态分布;

相关要求两个变量服从双变量正态分布。

(2)应用上:

说明两变量间的依存关系用回归,相关关系用相关。

(3)意义上:

b表示X每增(减)一个单位,Y平均改变b个单位,r说明具有直线关系的两个变量间相关关系的密切程度与相关方向。

9、直线回归与相关的联系

(1)b和r的正负号一致,

(2)假设检验等价(tr=tb)

(3)用回归解释相关,决定系数r2=SS回/SS总。

例如:

r=0.20,n=100时,可按检验水准0.05拒绝H0,接受H1,认为两变量有相关关系。

但r=(0.20)2=0.04,表示回归平方和在总平方和中仅占4%,说明两变量间的相关系数实际意义不大。

10、应用直线回归和相关分析时应注意的问题(了解)

(1)不能把毫无关联的两种现象作相关与回归分析。

(2)散点图有助于判断观察点的分布(直线趋势或曲线趋势?

),还能提示资料又无可疑异常点。

(3)直线回归方程的实用范围一般以自变量的取值范围为限,应避免外延。

(4)要推断两变量间相关的紧密程度,样本含量必须很大,如n>

100。

(5)相关关系不一定是因果关系,也可能是伴随关系。

(6)不服从双变量正态分布的两个随机变量,若要作相关分析,可计算等级相关系数。

实验设计

1、调查研究和实验研究的主要区别何在?

干预性的措施

2、实验设计的三个基本原则?

3、为何要设立对照?

常用对照的种类和适用情况?

4、实验设计的三个基本要素?

5、确定研究对象适宜选入标准时应注意的问题?

6、常用的实验设计方法?

调查设计

1、调查研究的主要特点?

2、常用的调查方法?

3、常用的概率抽样方法的有哪些?

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 求职职场 > 自我管理与提升

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1