医学统计学考试复习资料.docx
《医学统计学考试复习资料.docx》由会员分享,可在线阅读,更多相关《医学统计学考试复习资料.docx(24页珍藏版)》请在冰豆网上搜索。
医学统计学考试复习资料
医学统计学考试复习资料
一、统计学(statistics)---是搜集资料、整理资料、分析资料,并且据此作出决策的一门学科。
医学统计学(medicalstatistics)医学统计学(medicalstatistics)---是以医学理论为指导,运用数理统计学的原理和方法研究医学资料的搜集、整理、分析,并且作出决策。
从而掌握事物内在客观规律的一门学科。
二、医学统计工作可分为四个步骤:
二、医学统计工作可分为四个步骤:
1、统计设计(第一步也是关键一步);2、搜集资料(资料来源:
统计报表,医疗卫生工作记录,专题调查或实验研究);3、整理资料(审核,分组,汇总);4、分析资料(统计描述,统计推断)。
三、频数分布图的步骤,用途:
步骤三、频数分布图的步骤,用途:
步骤:
1、计算全距;2、确定组距;3、划分组段;4、统计频数;5、频率与累计频率。
用途:
①反映频数分布的类型。
②描述频数分布的特征。
③便于发现极端值:
如极大值、或极小值。
④便于进一步进行统计分析。
四、集中趋势与离散趋势的概念、特点及应用条件:
集中趋势:
四、集中趋势与离散趋势的概念、特点及应用条件:
集中趋势:
反映一组数据的平均水平的指标。
(1)算术均数:
应用条件:
①正态分布的数据;②对称分布的数据。
(2)几何均数:
适用条件:
对于变量值呈倍数关系或呈对数正态分布。
(3)中位数:
应用条件:
①偏态分布②分布不明③有极端值④有开口的资料。
特点:
不受极端值影响。
(4)百分位数:
应用条件:
①描述一组资料在某百分位置上的水平;②用于确定正常值范围;③计算四分位数间距。
(5)众数:
一组观察值中出现次数最多的那个数值,可以没有也可以不止一个。
离散趋势:
反映一组数据离散或分散的水平的指标。
(1)极差:
全距=最大值-最小值。
优点:
计算简单方便,应用广范,容易理解。
缺点:
只反映两端数据最大最小值的差别,易受极端值的影响,不能反映组内其他变量离散情况。
(2)四分位数间距:
Q=P75-P25。
优点:
不受极端值影响,比极差R稳定。
缺点:
计算繁琐、不易理解、只反映中间50%的数据的两端的差值(3)方差的特点:
①充分反映了每一个数据与平均数的差别;②S2指标很稳定;③S2应用广泛;④S2计算比较麻烦;⑤S2单位是原单位的平方,在实际应用时不太方便。
(4)标准差:
标准差是方差的开平方。
意义与方差相同。
特点:
标准差的单位与原数据的单位相同。
(5)变异系数:
应用条件:
①用于比较不同单位数据的离散度。
②用于比较均数相差很大时的离散度。
特点:
①无量纲的指标;②反映指标的稳定性;③一般CV不大于20~25%。
五、正态分布的特征:
①集中性:
呈单峰分布,峰位于中央。
②对称性:
以均数为中心,两边对称,两侧逐渐下降。
③决定分布的有两个参数:
决定分布的位置;决定分布的形状。
④正态曲线下的面积有一定的分布规律。
六、假设检验的步骤、注意事项:
步骤:
1.六、假设检验的步骤、注意事项:
步骤:
1.建立检验假设:
(1)一种是无效假设(nullhypothesis),符号为H0;
(2)一种是备择假设(alternativehypothesis),符号为H1。
2.确定检验水准,通常取=0.05。
3.选定检验方法和计算统计量:
如完全随机设计中,两样本均数的比较可用t检验,样本含量较大时(n100),可用u检验。
4.确定概率P值:
│t│t,,则P;│t│t,,则P。
5.作出推断结论:
①当P时,表示在H0成立的条件下,出现等于及大于现有统计量的概率是小概率,因而拒绝H0,结论为按所取检验水准拒绝H0,接受H1,即差异有统计学意义;②当P时,表示在H0成立的条件下,出现等于及大于现有统计量的概率不是小概率,检验水准不拒绝H0,即差异无统计意义。
注意事项:
1、资料要来自严密的抽样研究设计;2、选用假设检验的方法应符合其应用条件;3、正确理解差别有无显著性的统计涵义,正确理解差别有统计学意义及临床上的差别的统计学意义;4、假设检验的推断结论不能绝对化:
假设检验的结论是具有概率性的,无论拒绝H0或不拒绝H0,都有可能发生错误,即第一类错误或第二类错误;5、要根据资料的性质事先确定采用双侧检验或单侧检验。
七、俩种错误概念,区别,联系:
七、俩种错误概念,区别,联系:
假设检验中作出的推断结论可能发生两种错误两种错误:
①拒绝了实际上是成立的H0,这叫Ⅰ型错误(typeⅠerror)或第一类错误,也称为错误。
②不拒绝实际上是不成立的H0,这叫Ⅱ型错误(typeⅡerror)或第二类错误,也称为错误。
联系:
一般增大,则减小;减小,则增大;:
区别:
(1)一般为已知,可取单侧或双侧,如0.05,或0.01。
(2)一般为未知,只取单侧,如取0.1或0.2。
1-(把握度)≮0.75。
八、方差分析:
基本思想八、方差分析:
基本思想:
将多个样本的数据求出总变异,并根据研究目的及设计需要。
将总变异分为若干部分,各部分的变异除以相应自由度即为均方,两个均方之比即求出F值。
根据分子和分母的均方的自由度1和2以及大小,查F临界值表。
若计算的F值大于等于F临界值:
则P,比较的总体均数不全相等。
若计算的F值小于F临界值:
则P>,比较的总体总均相等。
主要用途:
1、进行两个或两个以上样本均数的比较;2、可以同时分析一个、两个或多个因素对试验结果的作用和影响;3、分析多个因素的独立作用及多个因素之间的交互作用;4、进行两个或多个样本的方差齐性检验等。
应用条件:
要求各样本为随机样本,各样本来自正态总体,各样本所代表的总体方差齐性或相等。
①data服从正态分布;②方差齐性。
类型:
1、单因素方差分析(one-wayANOVA):
也称为完全随机设计(completelyrandomdesign)的方差分析、单向或单方式方差分析。
该设计只能分析一个因素下多个水平对试验结果的影响。
特点:
①设计简单,应用广泛;②分析1个因素的作用;③试验效率相对较低。
2、双因素方差分析:
称为随机区组设计(randomizedblockdesign)的方差分析、双向或双方式方差分析。
该设计可以分析两个因素。
一个为处理因素,也称为列因素;一个为区组因素,也称为行因素。
特点:
①可以分析2个因素的独立作用,其中一个为处理因素,另一个为重要的非处理因素(也称区组因素)。
②2个因素没有交互作用,同一个因素的各水平的data的个数相等。
3、三因素方差分析:
也称为拉丁方设计(Latinsquaredesign)的方差分析。
特点:
①同时分析了3个因素的作用,其中一个为处理因素,另2个为重要的非处理因素;②3因素间要相互独立,无交互作用,该设计的试验条件要求较高,试NxxxxSS222)()(==总验前要求进行认真周密的设计。
4、析因设计(factorialdesign)的方差分析:
当两个因素或多个因素之间存在相互影响或交互作用时,可用该设计来进行分析。
特点:
a.可以分析多个处理因素的独立作用及交互作用;b.是一种多因素多水平的全面的组合试验。
c.分析效率高,可节约样本含量;d.当因素的个数及其水平数较多时,试验的组合次数集聚增加,导致试验的工作量很大。
e.复杂的交互作用在实验中很难解释其意义。
f.计算及分析比较复杂。
5、正交试验设计的方差分析:
如果要分析的因素有三个或三个以上,可进行正交试验设计(orthogonalexperimentaldesign)的方差分析。
特点:
可以分析3个及其以上因素的独立作用及交互作用;用最少的试验次数获得更多的信息;计算分析较繁琐,试验效率高。
步骤:
1、计算总变异:
SS总是所有数据的离均差平方和。
公式:
;校正系数:
。
22、计算各部分变异:
(1)单因素方差分析中,可以分出组间变异(SS组间)和组内变异(SS组内)两大部分;
(2)双因素方差分析中,可以分出处理组变异(SS处理),区组变异(SS区组)或称为配伍组变异(SS配伍),误差变异(SS误差)三大部分。
3、计算各部分变异的均方MS:
在方差分析中,方差也称为均方,是各部分的离均差平方和除以其相应的自由度,用MS表示。
基本公式为:
MS=SS/。
4、计算统计量F值:
F值是指两个均方之比。
一般是用较大的均方除NxC2)(=以较小的均方。
故F=MS大/MS小:
F值一般不会小于1。
、5、确定P值,推断结论:
根据分子1,分母22,查F界值表(方差分析用表),得到F值的临界值(criticalvalue),即:
如果FF界值,则P0.05,在=0.05水准上拒绝H0,接受H1。
九、常用相对数:
绝对数九、常用相对数:
绝对数(absolutenumber):
调查或实验研究中测量定性资料得到的实际数据被称为绝对数。
相对数(relativenumber):
两个有联系指标之比。
率(rate)又称频率指标,是某现象实际发生的观察单位数与可能发生该现象的观察单位总数之比,用以说明某现象发生的频率或强度。
计算公式为:
。
医学上习惯使用的指标有:
1.人口统计学指标:
粗死亡率、出生率、自然增长率、婴儿死亡率、新生儿死亡率等,习惯用千分率。
2.恶性肿瘤的死亡率、发病率等。
习惯用:
1/万,1/10万。
3.生存率、病死率:
习惯用%。
构成比(proportion)又称构成指标,说明某一事物内部各组成部分所占的比重或分布。
用途:
常用来表示疾病或死亡的顺位、位次或所占比重。
由于构成比之和为100%,一部分变化,其它部分也发生变化。
。
常用来表示疾病或死亡的顺位、位次或所占比重。
由于构成比之和为100%,一部分变化,其它部分也发生变化。
比比(ratio)又称相对比,是A、B两个有关指标之比,说明A是B的若干倍或百分比,通常用倍数或分数表示。
计算%100=观察单位总数同一事物各组成部分的位数某一组成部分的观察单构成比BA=比K=单位总数可能发生某现象的观察数发生某现象的观察单位率公式为:
(或100%)。
常用指标三种:
1对比指标:
指两个同类事物某种指标(绝对数、两个率或其它同类指标)的比。
2关系指标:
指两个有关的、但非同类事物的数量的比。
3计划完成指标:
说明计划完成的程度,常用实际数达到计划数的百分之几或几倍表示。
十、率的标准化:
不同时间或不同地区的几组率比较时,为了消除资料在年龄、性别或其它有关指标的构成的不同,而选用某一标准人口构成加以校正,称为率的标准化。
十一、动态数列(dynamicseries):
十一、动态数列(dynamicseries):
是一系列按时间顺序排列起来的统计指标,包括绝对数、相对数或平均数,用以说明事物在时间上的变化和发展趋势。
1时间动态数列:
各个指标在时点上的数据;2时期动态数列:
各个指标在一定的时间间隔内陆续发生并积累的数据。
如一年或半年等。
常用动态数列指标:
①绝对增长量;②发展速度与增长速度:
(①定基比;②环比);③平均发展速度和平均增长速度:
平均发展速度=nnaa0,平均增长速度=平均发展速度-1。
十二、常用相对数指标:
1.发病率:
指一定时期内可能发生某病的一定人群中新发生的某病病例数。
发病率=K病的平均人口数一定时期内可能发生某例数某期间新发生的某病病(一般一年为一个时期)2.患病率:
在某调查时点上,受检查人数中患病的人数的比例。
K=该时点上受检人口数病例总数检查时发现的某病治患患病率(我国一般计算2周患病率)3.死亡率:
也称总死亡率。
是指某地某人群中一年时期内死亡的人数占当地平均人口数的比例。
该人群平均的人口数数某人群一年总的死亡人死亡率=10004.婴儿死亡率:
一岁以内的孩子一年中死亡数占同年活产婴儿总数的比例。
同年活产总数数周年不满岁的婴儿死亡婴儿死亡率=1000该指标:
反映国家的经济水平及卫生服务水平。
5.出生率:
1000=某年平均人口数某年活产总数出生率我国总出生率稳定在约17的水平。
6.人口自然增长率=出生率-死亡率。
我国人口自然增长率约为10,按13亿人口计算每年约增长1300万人。
10年大约净增长1.3亿人口。
7.某病病死率=%100同期某病病人数某病死亡人数8.生存率=%100年的某病病例数随访满年的某病病例数活满NN十二、二项分布条件:
贝努里模型应具备下列三个基本条件。
十二、二项分布条件:
贝努里模型应具备下列三个基本条件。
1、试验结果只出现对立事件A或,两者只能出现其中之一。
这种事件也称为互斥事件。
2、试验结果是相互独立,互不影响的。
例如,一个妇女生育男孩或女孩,并不影响另一个妇女生育男孩或女孩等。
3、每次试验中,出现事件A的概率为p,而出现对立事件的概率为1-p。
则有总概率p+(1-p)=1。
注意:
1-p=q。
十三、|常见Poisson分布资料(data):
十三、|常见Poisson分布资料(data):
①产品抽样中极坏品出现的次数;②枪打飞机击中的次数;③患病率较低的非传染病人在人群中的分布;④奶中或饮料中的病菌个数;⑤自来水中细菌个数;⑥空气中的细菌个数,真菌孢子数;⑦自然环境中出现放射的粒子个数;⑧布朗颗粒数;⑨三胞胎的出现次数;⑩正式印刷品中错误字符的出现次数;○11通讯中错误符号的个数;○12人的自然死亡数(约6~7);○13环境污染中,畸型生物的出现个数;○14连体婴儿的出现次数;○15野外单位面积某些昆虫的随机分布;○16单位容积内cell的个数;○17单位容积空气中的灰尘个数;○18平皿中培养的细菌菌落数;○19各种恶性肿瘤发病个数、死亡个数;十四、简述非参数统计的应用条件、方法及特点:
十四、简述非参数统计的应用条件、方法及特点:
(1)非参数检验适用于以下类型的资料:
①等级资料(有序分类资料)。
②偏态分布资料。
③分布不明的资料。
④各组方差明显不齐,且不易变换达到齐性。
⑤组内个别观察值偏离过大的资料。
⑥开口分组资料。
(2)非参数检验特点:
优点:
①适用范围广;②不受总体分布的限制;③可处理等级资料;④用于小样本时,效率高。
缺点:
①如果数据是正态分布,方差齐性,用非参数test,则效率降低,是参数检验的75%左右。
(3)非参检验的方法:
①配对设计资料的秩和检验,主要符号秩检验(Wilcoxon配对法):
用于配对计量data;②两样本比较的秩和检验:
用于两样本比较。
③完全随机设计多样本比较的秩和检验,Kruskal-wallis检验:
也称为H检验。
用于单因素多样本比较。
④多个样本间两两比较的秩检验。
⑤随机区组设计资料的秩和检验,Friedman检验:
也称为M检验。
⑥秩相关(也称为等级相关):
用于非正态数据,进行相关分析。
十五、相关回归:
两事物或现象在数量上的协同变化呈直线趋势时则称为直线相关(linearcorrelation),直线相关(linearcorrelation),又称简单相关(simplecorrelation),简单相关(simplecorrelation),用于分析双变量正态分布资料。
表示两变量相关关系的重要指标就是相关系数。
回归(regression)回归(regression):
反映两变量数量依存的关系,即指由一个变量推算另一个变量的数量关系。
直线回归是回归分析中最基本最简单的一种,故又称简单回归(simpleregression)。
关等级相关(rankcorrelation)亦称为秩相关。
是对数据编排秩次后对秩次计算相关系数。
常用的Spearman等级相关法。
应用条件:
1、当遇到有些资料并不呈正态分布,对于此类资料就不宜用上述所讲的直线相关与回归分析,而常用等级相关处理资料。
2、适用于分布类型不明的资料、偏态分布资料和等级资料的相关分析。
十六、实验设计的基本要素和基本原则:
十六、实验设计的基本要素和基本原则:
⑴基本要素:
①受试对象-:
研究人员所要观察的客体,即处理因素作用的对象;②处理因素:
-研究人员施加于受试对象并能产生一定实验效应的因素;③实验效应:
-处理因素施加于受试对象并经过一段时间,受试对象产生的各种反应及表现。
⑵基本原则:
①随机化的原则:
-指总体中每个个体都有均等的机会被抽取,或被分配到实验组及对照组中去;②对照化的原则:
-是指在实验研究中使受试对象的处理因素和非处理因素的实验效应的差异有一个科学的对比;③重复的原则:
-重复有2层含义:
样本含量的大小和实验重复次数的多少;④均衡的原则:
-指对照组除处理因素与实验组不同外,其他各种条件及因素基本一致。
十七、常用实验设计方法的概念与特点:
十七、常用实验设计方法的概念与特点:
(1)完全随机设计也称单因素设计,是将受试对象随机的分配到各个处理组中进行实验观察。
该设计的特点是:
简单方便,应用广泛,容易进行统计分析;但只能分析一个因素的作用,效率相对较低。
(2)配对设计是将受试对象按一定条件配成对子,分别给予每对中的两个受试对象以不同的处理。
其包括:
1:
1配对,同一标本用两种方法检测配对,自身对照配对;动物或人体的对称部位配对4种类型。
该设计的特点是:
可以节约样本含量,增强组间均衡性,提高试验效率,减轻人力、物力和财力负担。
(3)交叉设计是将A、B两种处理因素先后施于同一批实验对象,随机的使半数对象先接受A,后接受B;而另一半对象先接受B,后接受A。
交叉设计的特点:
①节约样本含量,试验效率高。
②可以均衡因施加处理因素的时间顺序不同对试验效应的影响。
③每个受试对象均可接受A和B两种处理因素。
④需用交叉设计的方差分析方法处理数据,其计算稍嫌繁琐。
⑤俩种处理因素不能相互影响,观察时间不宜过长,处理效应不能持续太久。
⑥不适用于急性病。
⑦宜采用双盲发。
(4)随机区组设计也称双因素设计,它是1:
1配对设计的扩大。
该设计是将受试对象按配对条件先划分成若干个区组或配伍组,再将每一区组中的各受试对象随机分配到各个处理组中去。
该设计的特点是:
①进一步提高了各区组及处理组的均衡性及可比性;②可控制一般设计中的混杂性偏倚;③节约样本含量,增强试验效率;④可同时分析两个处理因素的作用,且两因素应相互独立,无交互作用;⑤每一区组中受试对象的个数即为处理组数,每一处理组中受试对象的个数即为区组数;⑥可用双因素方差分析方法处理数据,计算较为繁琐;⑦应特别注意该设计中受试对象的区组分组方法和处理组分组方法,否则将影响到该设计的均衡性及试验效率。
十八、正交设计的概念、特点、意义及其符号的意义:
正交试验设计十八、正交设计的概念、特点、意义及其符号的意义:
正交试验设计是一种高效的多因素试验的设计方法。
它利用一套规格化的正交表,合理地安排实验,通过对实验结果进行分析,获得有用的信息。
特点:
①可分析三个及三个以上因素的作用及其交互作用。
②用最少的试验次数获得更多的信息。
③可用方差分析处理正交设计的测量数据,但计算十分繁琐。
意义:
正交表格的类型表示符号为Ln(tk)。
其中n表示一套试验所需受试对象的个数,t表示每个因素的水平数,k表示可分析的因素数。
例如,L8(27)的意义为:
一套试验需8个受试对象,每个因素有2个水平,最多可分析7个因素的作用及其交互作用。
十九、析因设计的概念、意义、特点及交互作用的类型:
析因设计十九、析因设计的概念、意义、特点及交互作用的类型:
析因设计是一种多因素的交叉分组设计。
它不仅可检验每个因素各水平间的差异,而且可检验各因素间的交互作用。
意义:
最简单的析因设计2x2,意义是:
试验中有2个因素,每个因素各有2个水平;2x2x2意义是试验中3个因素,每个因素各有2个水平。
特点:
①可分析多个因素多个水平的试验效应,可以分析各因素的独立作用及其各级交互作用;②节省样本含量,试验效率高;③设计时较为复杂,计算较为繁琐。
设实验研究中有A、B、C、D四种因素,其交互作用的类型交互作用的类型如下。
(1)独立作用:
A、B、C、D,是四个因素各自的单独作用。
(2)一级交互作用:
AB,AC,AD,BC,BD,CD,是任意两个因素的共同作用。
(3)二级交互作用:
ABC,ABD,ACD,BCD,是任意三个因素的共同作用。
(4)三级交互作用:
ABCD,是四个因素的共同作用。
二十、调查研究的主要特点:
二十、调查研究的主要特点:
是研究过程中没有人为施加的干预措施,而是客观地观察记录某些现象的现状及其相关特征。
:
分类:
(1)横断面研究;
(2)现状研究;(3)观察性研究。
调查设计的调查类型:
(1)普查亦称全面调查,就是将组成总体的所有观察单位全部加以调查。
(2)抽样调查是指从总体中随机抽取一定数量的观察单位组成样本,然后用样本信息来推断总体特征。
(3)典型调查亦称案例调查,即在对事物作全面分析的基础上,有目的地选定典型的人、典型的单位进行调查。
二一、多元线性回归的分析步骤,多元线性回归模型:
二一、多元线性回归的分析步骤,多元线性回归模型:
多元线性回归分析一般分为两步:
(1)由样本数据求出模型参数的估计值:
b0,b1,,bm;
(2)对回归方程及各自变量作假设检验,并对方程的拟合效果及各