医学统计学重点概述.docx
《医学统计学重点概述.docx》由会员分享,可在线阅读,更多相关《医学统计学重点概述.docx(12页珍藏版)》请在冰豆网上搜索。
医学统计学重点概述
医学统计学重点概述
1一、名词解释1.总体:
就是根据研究目的确定的同质观察单位的全体,确切的说,是
同质的所有观察单位某种变量值的集合2.样本:
就是从总体中随机抽取部分观察单位,其实测值的集合3.系统
误差:
是指数据搜集和测量过程中由于仪器不准确、标准不规范等人为原因,造成观察结果偏大或偏小的一种误差,是由确定原因造成的误差。
4.随机误差:
是由一些非人为的偶然因素,使得结果或大或小,是不确定、
不可预知的一种误差,分为随机测量误差和抽样误差5.抽样误差:
由于随机抽样所引起的样本统计量与总体参数之间的差异以及
样本统计量之间的差别称为抽样误差6.定量资料:
亦称计量资料,是用定量的方法测定观察单位(个体)某项指标数值的大小,所得的资料称定量资料如身高(cm)、体重(kg).脉搏(次/分)、血压(kPa)等7.定性资料:
亦称计数资料或分类资料,是将观察单位按某种属性或类别分组,清点各组的观察单位的个数,所得的资料称定性资料8.等级资
料:
亦称有序分类资料,是将观察单位按属性的等级分组,清点各
组的观察单位数,所得的资料为等级资料9•小概率事件(原理):
统计学上一般把P0.05或P0.01的事件称为小概率事件;小
概率事件在一次试验中几乎不可能发生,利用该原理可对科研资料
进行假设检验10.率:
是某现象实际发生的观察单位数与可能发生该现象的观察单位
总数之比,用以说明某现象发生的频率或强度11.构成比:
说明某一事物内部各组成部分所占的比重或分布,等于某一组
成部分的观察单位数/同一事物各组成部分的观察单位总数100%12.医学参考值范围:
指医学领域中特定的正常人群(即排除了对所研究指标有影响的疾病和相关因素的特定人群)的解剖、生理、生化指标及组织代谢产物含量等数据的大多数个体(一般为95%)的取值范围13.置信区间:
是对这个样本的某个总体参数的区间估计,置信区间展现的是
这个参数的真实值有一定概率落在测量结果的周围的程度,给出的
是被测量参数的测量值的可信程度14.标准误:
是反映均数抽样误差大小的指标,15.P值:
指H0成立,从所规定的总体中随机抽样,所获得等于及大于
(或等于及小于)现有样本计算获得的检验统计量值的概率16.第
I类错误:
拒绝了实际上是成立的H0,用来控制以真作假(漏诊)17.
第H类错误:
不拒绝实际上是不成立的H0,用来控制论假成真(误诊)18.配对设计:
配对设计是将受试对象按配对条件配成对子,每对中的个体接
受不同的处理,配对设计一般以主要的非实验因素作为配比条件,而不以实验因素作为配比条件19.完全随机设计:
又称单因素方差分析,是将受试对象随机分配到不同处理组的单因素设计方法;此设计只考虑一个处理因素,通过该处理因素不同水平组均值的比较,推断该处理因素水平组之间的差异有无统计
学意义20.随机区组设计:
又称双因素方差分析,该设计可以分析两个因素:
一个为处理因素,也称为列因素;一个为区组因素,也称为
行因素nX=221.析因设计:
当两个因素或多个因素之间存在相互影响或交互作用时,可用
该设计来进行分析。
该设计不仅可以分析多个因素的独立作用,也可以分析多个因
素间的交互作用,是一种高效率的方差分析方法22.卡方值:
通过计算实际频数与理论频数的吻合程度来判断所给的处理因素是否有效23.非参数统计:
不依赖于总体分布类型,也不对总体参数进行统计推断的假设检验的方法,原来的数据并不参加运算,而是变成符号、顺序号,然后比较符号、顺序号的位置24.相关系数:
是说明两变量间线性关系的密切程度和相关方向的一个统计指标,样本的相关系数用r表示,总体的相关系数用表示25.回归系数:
在回归方程中表示自变量x对因变量y影响大小的参数,正回归系数表示y随x增大而增大,负回归系数表示y随x增大而减小二、简答题1.简述频数表的绘制方法
(1)找出最大值、最小值和极差:
极差二最大值最小值
(2)确定组距、组段、组数:
频数表一般设8-15个组段,常用极差的1/10取整作组距,第一组段包括最小值,最后一个组段要包括最大值并写出其下限上限(3)列表划记:
把确定的组段序列制成表的形式,得出各组段频数2.简述应用相对数的注意事项
(1)计算相对数时分母一般不宜过小,只有当观察单位足够多时,计算出的相对数才比较稳定,且能正确反映实际情况。
(2)分析时注意构成比和率的区别:
构成比说明事物内部各组成部分所占的比重,即只能说明分布,
不能说明某现象发生的频率或强度。
(3)合计率的计算:
对观察单位不等的几个率,不能直接相加求其平均率,而应用
合计的数据来计算。
(4)比较相对数时应注意资料的可比性:
除了研究因素以外,其他影响因素应尽可能相近或相同比较才有意义。
(5)对样本率、构成比的比较应作假设检验,不能凭表面
数值大小下结论。
3.简述假设检验应用的注意事项
(1)假设检验的前体是要有严密的抽样研究设计:
应尽量从同质总体中随机抽取,尽量保证组间均衡性,以确保
资料具有可比性。
(2)正确选定假设检验方法:
资料性质、分布类型、设计类型、样本大小等不同,以及分析的目的不同,适用的假设检验的方法也不同。
(3)正确理解差异无统计学意义:
H0成立可能性是小概率,也就是说两者差异存在的可能性较大,差异统计学意义也不一定具有临床意义。
(4)结论不能绝对化:
是否拒绝H0取决于研究对象有无本质差异和抽样误差大小,以
及检验水准的高低,而检验水准与实验设计密切相关。
(5)报告结论时应注意:
应列出样本计算的检验统计量值,注明采用的是单侧检验还是
双侧检验,写出P值。
4.简述秩和检验的优缺点及应用
(1)优点:
计算简单便于掌握、应用范围广、收集资料方便
(2)缺点:
损失信息、检验效率低(3)应用:
1分布型未知,②能以严重程度、优劣等级、效果大小和名次先后3等等级资料,③分布极度偏态,④本组内个别变量值偏离过大,远离本组其它变量值,⑤方差不齐时,⑥筛选或只需获得初步结果。
5.简述应用线性相关分析的注意事项
(1)绘散点图了解线性
趋势,样本的相关系数接近零时并不意味着两变量间一定无相关性
(2)线性相关分析要求两个变量都是随机变量,且仅适用于二元
正态分布资料(3)作相关分析时,应该剔除离群值,出现异常点时慎用相关(4)相关要有实际意义,两变量相关并不代表两变量间一定存在内在联系(5)r=0表明无相关或非线性相关(6)分层资料盲目合并易出假象6.简述应用线性回归的注意事项
(1)进
行线性回归分析时,应先绘散点图,提示有直线趋势存在时,可作线性回归分析
(2)进行线性回归分析时,一般要求因变量Y是来自正态总体的随机变量,自变量X可以是正态随机变量,也可
以是精确测量和严密控制的值(3)进行线性回归分析要有实际意
义,不能把毫无关联的两个事物或现象进行进行线性回归分析(4)
进行线性回归分析必须进行假设检验,以推断两变量间的线性关系
是否存在(5)回归直线不能外延,以自变量取值范围为限7.简述线性回归与相关的区别及联系
(1)区别:
①资料不同:
相关分析要求两个变量均为随机变量,并服从双变量正态分布;回归分析只要求因变量Y服从正态分布,而自变量X可以是正态随机变量,也可以是精确测量和严密控制的值。
2统计意义不同:
相关反映两变量之间的相互关系,这种关系是对等的;回归则反映两变量间的依存关系,有自变量因变量之分,因变量随自变量的变化而变化。
3分析目的的不同:
相关分析表明两变量间线性关系的密切程度及相关方向;回归
分析则用函数公式定量表达因变量随自变量变化的关系。
(2)联系:
1变量间关系的方向一致:
对同一资料其相关系数r与回归系数b的正负号一致。
2假设检验等价:
实际分析中常以r的假设检验代替对b的检验③r与b值可相互换算。
4用回归解释相关:
r2称决定系数,r2越接近1,回归效果越好。
三、填空题1.统计学的研究对象是变异2.医学统计学工作的基本步骤是设计、搜集资料、整理资料、分析资料,其中最重要的步骤是科研设计3.等比资料的集中趋势常用的描述方法是几何均
数4.偏态分布的集中趋势常用的描述方法是中位数;偏态分布的离
散趋势常用的描述方法是四分位间距5.单位不同或均数相差较大的
多组资料常用的描述方法是变异系数6.参数是指总体的统计指标;
统计量是指样本的统计指标7.标准正态分布是一种特殊的正态分
布,标准正态分布的=0,2=1,通常用u(或Z)表示服从标准正态分布的变量,记为〜N(0,12)48.正态分布函数中代
表总体均数(位置参数),代表总体标准差(变异度参数)9.正
态分布曲线区间面积为95%的范围是(-1.96,+1.96)10.
正态分布数据的参数估计X1.96S;偏态分布数据的参数估计(P25,P75)11.二项分布近似正态分布的条件是n和n(1-)均大于512.Poisson分布近似正态分布的条件是2013.Poisson分布的两
个特性是均数与方差相等,观察结果有可加性14.t分布自由度越
小,t分布曲线越低平,尾部越高;Z分布与自由度无关15.医
学参考值范围通常表达为X1.96S;置信区间围通常表达为X1.96SX其中范围较宽的是医学参考值范围16.假设检验的基本原理是反证
法思想和小概率事件17.t检验的应用条件有样本例数n较小、样本均是随机样本、符合正态分布、方差齐(两样本)18.t检验P
V0.05拒绝H0有统计学意义;正态性检验PV0.05为非正态分
布,通常运用秩和检验19.做单侧检验时如果运用了双侧检验可以导致第H类错误增大;可以同时减小第I类错误和第H类错误的方法是增加样本含量20.方差分析应用条件有两观察值互相独立、
服从正态分布、方差齐性21.完全随机设计组间变异包含治疗方案+
随机误差;组内变异包括随机误差;SS总=SS组间+SS组内;总=组间+组内22.随机区组设计的两因素方差分析中,总变异SS
总通常可以分为SS处理、SS区组和SS误差,它们的关系是SS总=SS处理+SS区组+SS误差23.行列表2检验,要求不能有理论数(T)小于1,且仃V5的格子数不超过总格子数的1/524.四格表的自由度等于1;四格表的周边合计数不变时,如果某格子的实
际频数有变化,则其理论频数不变25.统计表的结构包括标题、标目、线条、数字、备注26.表示相互独立的各指标的大小用直条图;表示全体中各部分的比重用百分直条图或圆形图;表示连续性
资料的发展变化或一事物随另一事物变迁的情况用线图;比较事物
发展速度用半对数图;表示连续性资料的频数分布用直方图;表示
两事物的相关关系用散点图;表示某现象的数量在地域上的分布用
统计地图。
27.某地调查的863例恶性肿瘤死者,分别由省、市、县、乡医院最后确诊。
现欲说明各级医院确诊比例,宜绘制圆图/构成图(统计图)28.
非参数检验的优点:
计算简单便于掌握、应用范围广、收集资料方便;缺点:
损失信息、检验效率低29.线性相关分析的步骤:
绘制散点图观察两变量的线性趋势计算相关系数相关系数的假设检验30.回归分析的步骤:
绘制散点图求回归方程回归系数的假设检验线性回归方程图31.
实验设计的基本原则:
对照原则、随机化原则、重复原则、盲法原则32.实验设计
的基本要素:
处理因素、受试对象、实验效应33.线性相关系数的取值范围:
-1r1;r假设检验方法:
r界值表法、t检验法534.回归系数的估计原则:
最小二乘法原则四、计算与分析1.表1数据如下,卡方检
验如下。
问:
应该选择哪种方法及哪组数值?
新旧防护服是否对皮肤病患病
率有影响?
表1穿新旧两种防护服工人的皮肤病患病率比较皮肤病炎症防护服种类患病率(%)阳性例数(理论频数)阴性
例数(理论频数)新旧1(3.8)10(7.2)14(11.2)18(20.8)6.735.7
表2卡方检验(SPSS)结果df渐进Sig.(双侧)精确Sig.(双侧)值精确Sig.(单侧).038Pearson卡方连续校正b似然比
Fisher的精确检验线性和线性组合有效案例中的N
(1)由于n40,但有仃v5,所以选用2检验校正公式,即选择结果的第二行数据进行分析
(2)假设检验:
①建立检验假设:
H0:
1=2,即新旧防护服对皮肤病患病率无影响H1:
1,2,即新旧防护服对皮肤病患病率有影响②确定假设检验水
准:
=0.05③计算检验统计量:
根据表2可得2=2.938,=1④确定P值,作出推断结论:
20.05,1=3.84,根据表2可得P=0.087>0.05,按=0.05水
准,不拒绝H0,差异无统计学意义,尚不能认为新旧防护服对皮
肤病患病率有影响。
2.对11份工业污水测定氟离子(mg/L),每份水样同时采用电极法及分光光度法测定,结果见表3。
三人对两种方法测定结果有无差别进行了统计分析,
(1)甲用
独立样本t检验,t=-0.072,P=0.943;
(2)乙则先对每份样品的
差值做正态性检验(P0.05),然后用配对设计的符号秩和检验
(WilcoxonSignedRanksTest),得到z=1.633,P=0.102;(3)
丙用配对设计的t检验,t=0.441,P=0.669。
请问哪个人统计方法运用得当,并对该结果进行恰当分析表3两法测定的氟离子浓度结果(mg/L)样品号电极法分光光度法4.329a2.9385.0564.22843111
1.037.087.025.040.065样品号电极法分光光度法
110.58.8716.414.7221.618.8819.517.2314.913.5912715.5430.227.61018.716.358.49.1119.59.567.7
7
(1)丙的统计方法运用得当6
(2)分析:
该样本属于同一样本的两个部分分别接受两种不同处理,即应
该采用配对样本均数的t检验(3)假设检验:
①建立检验假设:
H0:
d=0,即两种检测方法无差异H1:
d0,即两种检测方法有差异②确定假设检验水准:
=0.05③计算检验统计量:
t=0.441,=10④确定P值,作出推断结论:
P=0.669>0.05,按=0.05水准,不拒绝H0,差异无统计学
意义,尚不能认为两种检测方法有差异3.某研究者测定51名肿
瘤患者蛋白激酶(PKC)水平以及某单核苷酸多态性(SNP)的3种基因型GGGA、AA(详见下表),他欲分析男、女PKC水平间有无差
别,用什么统计分析方法?
又想了解3种基因型PKC水平间有无
差别,用什么统计方法分析(PKC数据经正态性检验服从正态分布)性别基因型PKC性别基因型PKC性别基因型PKC男GA65.8男AA67.6女GA70.4男GA71.4男AA68.4女GA74男GA76.6男AA71.8女GA75.2男GA78.2男AA73.5女GA80.2男GA79.8男AA80.6女GA84.5男GA80.2男AA60.8女GA85.4男GA80.4男GG38.2女GA89.2男GA82.4男GG39.2女AA60.5男GA82.8男GG39.4女AA52.6男GA85.6男AA45.8女AA62.6男GA86.8男GA46.8女AA60.4男GA87.2男GG49.6女AA74.2男GA88.6男AA49.6女GG41.2男AA53.2男AA52.4女GA41.4男AA58.2男AA52.8女GA42.6男AA65.5男GA67.8女GA44.5男AA67.4男AA68.8女AA
52.4
(1)分析男女PKC水平间有无差别应该用两独立样本的t检
验①建立检验假设:
H0:
1=2,即男女PKC水平间无差别H1:
12,即男女PKC水平间有差别②确定假设检验水准:
=0.05③计算检验统计量:
t=0.511,=49④确定P值,作出推断结论:
P=0.612>0.05,按=0.05水准,不拒绝H0,差异无统计学
意义,尚不能认为男女PKC水平间有差别7lndependent
SamplesTest.362.550.51149.6122.370594.64115-6.956141
1.69732.49830.058.6222.370594.75966-7.3491512.09033Equal
variancesassumedEqualvariancesnotassumedPKCFSig.Levene'sTestforEqualityofVariancestdfSig.
(2-tailed)MeanDifferenceStd.ErrorDifferenceLowerUpper95%
ConfidencelntervaloftheDifferencet-testforEqualityof
Means
(2)分析3种基因型PKC水平间有无差别应选用完全随机设计资料的方差分析,并进行3组均数间的两两比较①建立检验假设:
H0:
3种基因型PKC水平总体均数水平相同H1:
3种基因型PKC水平总体均数水平不全相同②确定假设检验
水准:
=0.05③计算检验统计量:
F=16.608④确定P值,作出推断结论:
P=0.000V0.05,按=0.05水准,拒绝H0,差异有统计学意义,所以可以认为3种基因型PKC水平总体均数水平不全相同。
为了进一步了解三组间均值两两比较情况,SNK检验显示1、2组,1、3组和2、3组之间均有统计学意义,可认为3种基因型PKC水平完全不相等。
TestofHomogeneityof
VariancesPKC2.964248.061LeveneStatisticdf1df2Sig.
ANOVAPKC4918.35322459.17616.608.0007107.3441
2025.6974850148.070BetweenGroupsWithinGroupsTotalSumofSquaresdfMeanSquareFSig.
PKCStudent-Newman-Keulsa,b541.5201912561.861973.91
201.0001.0001.000gene132Sig.N123Subsetforalpha=.05Meansforgroupsinhomogeneoussubsetsaredisplayed.a.UsesHarmonicMeanSampleSize=10.430.Thegroupsizesareunequal.Theharmonicmeanofthegroupsizesisused.TypeIerrorlevelsarenotguaranteed.b.84.有28份白喉病人的咽喉涂抹标本,
把每份标本分别接种在甲、乙两种白喉杆菌培养基上,观察两种白喉杆菌生长情况,+号表示生长,-号表示不生长,结果如下表。
问两种白喉杆菌培养基的效果有无差别?
甲种++11(a)
—1(c)合计12
(1)建立检验假设H0:
总体1=2,即两种白喉杆菌培养基的效果相同H1:
总体1,2,即两种白喉杆菌培养基的效果不同
(2)确定假
设检验水准:
=0.05(3)计算检验统计量:
本例b=9,c=1,b+c40,(4)确定P值,作出推断结论:
2=4.90>20.05,1=3.84,PV0.05,按=0.05水准,拒绝H0,
接受H1,差异有统计学意义,可认为甲、乙两种白喉杆菌培养基的效果有差别,甲培养基培养效果优于乙培养基。
乙种合计20828—9(b)7(d)16四、补充知
识点1.频数分布表的用途:
①描述资料的分布特征和分布类型,②便于进一步计算有关指标或进行统计分析,③发现特大、特小的可疑值,④据此绘制频数分布图2.正态分布图形的特征:
①是正态分布的位置参数,描述正态分布的集中趋势位置。
正态分布以x=为对称轴,左右完全对称。
正态分布的均数、中位数、众数相同,均等于;②描述正态分布资料数据分布的离散程度,越大,数据分布越分散,越
小,数据分布越集中。
也称为是正态分布的形状参数,越大,曲线越扁平,反之,
越小,曲线越瘦高3.正态分布的应用:
①估计频数分布,②制定参考值范围,③质量控制,④正态
分布是许多统计方法的理论基础4.t分布图形的特征:
①以0为中心,左右对称的单峰分布,②t分布是一簇曲线,
其形态变化与n(确切地说与自由度)大小有关。
自由度越小,t分布曲线越低平;自由度越大,t分布曲
线越接近标准正态分布(u分布)曲线5.医学参考值范围的制定
6.标准误与标准差90.419)1|19(|22=+=97.方差分析的基本思
想:
就是根据资料的设计类型,即变异的不同来源将全部观察值总
的离均差平方和及自由度分解为两个或多个部分,除随机误差外,
其余每个部分的变异可由某个因素的作用(或某几个因素的交互作用)加以解释,如各组均数的变异SS组间可由处理因素的作用加以解释。
通过各变异来源的均方与误差均方比值的大小,借助F分布作
出统计推断判断各因素对各组均数有无影响。
8.卡方检验公式选择①当n40,且所有格子的T5时,选
用卡方检验基本公式或专用公式②当n40,但有1TV5时,选用卡方检验校正公式或改用四格表资料Fisher③当nV40,或TV1时,须用四格表资料Fisher确切概率法9.配对设计的符号秩和检验方法
(1)假设:
HO:
差值总体中位数Md=O,H1:
MdO,=0.05
(2)求差值(3)编秩次:
依差值的绝对值从小到大编秩次。
编秩次时遇差数等于0,舍去不计,同时样本例数减1;遇绝对值相等差数,符号相同顺次编秩次,符号相反取平均秩次,且符号相反。
(4)求秩和并确定检验统计量:
分别求出正负秩次之和,正秩和以T+表示,负秩和的绝对值