级安徽医科大学医学统计学重点概述.docx
《级安徽医科大学医学统计学重点概述.docx》由会员分享,可在线阅读,更多相关《级安徽医科大学医学统计学重点概述.docx(26页珍藏版)》请在冰豆网上搜索。
级安徽医科大学医学统计学重点概述
一、名词解释
1.总体population:
就是根据研究目确实定的同质观察单位的全体,确切的说,是同质的所有观察单位某种变量值的集合
2.样本sample:
就是从总体中随机抽取局部观察单位,其实测值的集合
3.同质homogeneity:
性质一样的事物称为同质,否那么称为异质
4.系统误差:
是指数据搜集和测量过程中由于仪器不准确、标准不标准等人为原因,造成观察结果偏大或偏小的一种误差,是由确定原因造成的误差。
5.随机误差:
是由一些非人为的偶尔因素,使得结果或大或小,是不确定、不可预知的一种误差,分为随机测量误差和抽样误差
6.抽样误差samplingerror:
由于随机抽样所引起的样本统计量与总体参数之间的差异以及样本统计量之间的差异称为抽样误差
7.定量资料:
是通过度量衡的方法,测定每一单个观察单位某项研究指标的量的大小得到的资料,也称计量变量或数值变量。
8.定性资料:
是将全体观察单位按某种性质或特征分组,然后再分别清点各组观察单位的个数所得到的资料,称定性资料也称计数变量或分类变量。
9.等级资料:
是将观察单位按属性的等级分组,清点各组的观察单位数,所得的资料为等级资料,又称有序分类资料。
10.变异系数:
又称变异程度,简称变异度,记为CV,是相对数,用于比拟单位不同或均数相差较大的多组资料的变异程度。
公式为CV=s/X×100%
11.小概率事件〔原理〕:
假设在一次观察或试验中发生的可能性很小或几乎不可能发生,可以看做很可能不发生,那么称该事件为小概率事件。
12.率rate:
是某现象实际发生的观察单位数与可能发生该现象的观察单位总数之比,用以说明某现象发生的频率或强度
13.构成比:
说明某一事物内部各组成局部所占的比重或分布,等于某一组成局部的观察单位数/同一事物各组成局部的观察单位总数×100%
14.医学参考值范围referencerange:
指医学领域中特定的“正常〞人群〔即排除了对所研究指标有影响的疾病和相关因素的特定人群〕的解剖、生理、生化指标及组织代谢产物含量等数据的大多数个体〔一般为95%〕的取值范围
15.
置信区间:
是对这个样本的某个总体参数的区间估计,置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度,给出的是被测量参数的测量值的可信程度
16.均数为95%的CI值〔置信区间〕:
按一定的概率或可信度〔1-a〕用一个区间来估计总体参数所在的范围,这个范围称作可信度为1-a的可信区间〔CI〕又称置信区间,95%的可信区间中的95%是可信度,即,所求的可信区间包含总体参数的可信程度为95%
17.标准误standarderror:
是反映均数抽样误差大小及样本统计量之间离散程度的指标
18.检验水准sizeoftest:
亦称显著性水准,用α表示,它是预先确定的概率值,即小概率事件的标准,一般情况下α
19.P值:
指H0成立,从所规定的总体中随机抽样,所获得等于及大于〔或等于及小于〕现有样本计算获得的检验统计量值的概率
20.Ⅰ类错误typeⅠerror:
假如实际情况与H0一致,仅仅因为抽样的原因,使得假设检验的结论为回绝本来正确的H0,导致推断结论错误,这样的错误称为Ⅰ类错误。
犯Ⅰ类错误的概率用α来控制〔假阳性/弃真错误〕
21.第Ⅱ类错误typeⅡerror:
假如实际情况与H0不一致,仅仅因为抽样的原因,使得假设检验的结论为不回绝本来错误的H0,导致推断结论错误,这样的错误称为Ⅱ类错误。
犯Ⅱ类错误的概率用β来控制〔假阴性/取尾错误〕
22.检验效能powerofatest:
为1-β,即当两总体确实有差异〔H0不成立〕,按照事先确定的检验水准α,假设检验能发现该差异〔回绝H0〕的才能,1-β也取单尾
23.配对设计:
配对设计是将受试对象按配对条件配成对子,每对中的个体承受不同的处理,配对设计一般以主要的非实验因素作为配比条件,而不以实验因素作为配比条件
24.完全随机设计:
又称成组设计,只有单个研究因素,该因素有多个程度,如在实验中安随机化原那么将受试对象随机分配到一个研究因素的多个程度中去,然后观察实验效能
25.随机区组设计:
又称配伍设计,属于两因素方差分析,用于多个样本均属的比拟
26.析因设计:
当两个因素或多个因素之间存在互相影响或交互作用时,可用该设计来进展分析。
该设计不仅可以分析多个因素的独立作用,也可以分析多个因素间的交互作用,是一种高效率的方差分析方法
27.卡方检验的根本思想:
通过计算实际频数与理论频数的吻合程度来判断所给的处理因素是否有效
28.卡方值:
实际频数与理论频数的吻合程度,其大小即用卡方值来表示。
29.非参数检验:
不依赖于总体分布类型,也不对总体参数进展统计推断的假设检验的方法,称为非参数检验
30.线性相关关系:
假如具有相关关系的随机变量组成的散点图在直角坐标系中呈直线趋势,就称这两个变量存在线性相关关系
31.线性相关方关系:
假如两个随机变量中,一个变量有小到大变化时,另一个变量也相应的由小变大〔或由大变小〕,并且呈直线趋势,就称这两个变量存在直线相关关系〔教师给的定义〕
32.相关系数:
是说明两变量间线性关系的亲密程度和相关方向的一个统计指标,样本的相关系数用r表示,总体的相关系数用ρ表示
33.回归系数:
在回归方程中表示自变量x对因变量y影响大小的参数,正回归系数表示y随x增大而增大,负回归系数表示y随x增大而减小
34.最小二乘法原理:
即各实测点到回归直线法的纵向间隔的平方和最小,是回归方程可以较好的反映各实测点的分布情况
35.双盲:
受试对象和实验者都不知道受试对象分在哪一组
36.调查设计的四种方法:
1〕单纯随机抽样:
保证总体中每一个个体都有同等的时机被抽出来作为样本的抽样方法
2〕系统抽样:
即先将总体的全部个体按与研究现象无关的特定排序编号,依次每隔假设干号码抽取的一个个体组成样本
3〕分层抽样:
先将总体全部个体按某种特征分成假设干层,再从每层内随机抽取一定数量的个体合起来组成样本
4〕整群抽样:
先将总体分成假设干群体,形成一个抽样框,从中随机抽取几个群体组成样本,对抽中群体的全部个体进展调查
二、简答题
1.简述频数表的绘制方法
(1)找出最大值、最小值和极差:
极差=最大值—最小值
(2)确定组距、组段、组数:
频数表一般设8-15个组段,常用极差的1/10取整作组距,第一组段包括最小值,最后一个组段要包括最大值并写出其下限上限
(3)列表划记:
把确定的组段序列制成表的形式,得出各组段频数
2.简述应用相对数的考前须知
(1)计算相对数时分母一般不宜过小。
只有当观察单位足够多时,计算出的相对数才比拟稳定,且能正确反映实际情况。
(2)分析时注意构成比和率的区别。
构成比说明事物内部各组成局部所占的比重,即只能说明分布,不能说明某现象发生的频率或强度。
(3)合计率的计算。
对观察单位不等的几个率,不能直接相加求其平均率,而应用合计的数据来计算。
(4)比拟相对数时应注意资料的可比性。
除了研究因素以外,其他影响因素应尽可能相近或一样比拟才有意义。
(5)对样本率、构成比的比拟应作假设检验,不能凭外表数值大小下结论。
3.确定医学参考值范围的原那么:
(1)制定“正常〞人群的入选标准
(2)确定样本量的大小,在符合入选标准的人群中随机抽样
(3)对样本中的每个个体进展指标测量
(4)确定是否要分组制定参考值范围
(5)根据该指标X的背景意义,确定参考值的范围是双侧还是单侧
(6)根据样本资料的分布情况确定采用正态分布法还是百多分位数法
4.检验假设的根本步骤:
(1)建立检验假设,确定检验水准
(2)选择检验方法,计算统计量
(3)确定P值,做出推断结论
5.简述假设检验应用的考前须知
(1)假设检验的前提是要有严密的抽样研究设计:
应尽量从同质总体中随机抽取,尽量保证组间平衡性,以确保资料具有可比性。
(2)正确选定假设检验方法:
资料性质、分布类型、设计类型、样本大小等不同,以及分析的目的不同,适用的假设检验的方法也不同。
(3)正确理解“差异无统计学意义〞:
H0成立可能性是小概率,也就是说两者差异存在的可能性较大,“差异统计学意义〞也不一定具有临床意义。
(4)结论不能绝对化:
是否回绝H0取决于研究对象有无本质差异和抽样误差大小,以及检验水准的上下,而检验水准与实验设计亲密相关。
(5)报告结论时应注意:
应列出样本计算的检验统计量值,注明采用的是单侧检验还是双侧检验,写出P值。
4.简述假设检验应注意的问题:
(1)选择检验方法必须符合资料的适用条件
(2)单侧检验和双侧检验的选择
(3)正确理解P值得意义
(4)结论不能绝对化
(5)当假设检验的结果为不回绝时,应考虑该检验的检验效能,假如检验效能较低,那么此时的结论可靠性较差
5.方差分析的根本思想:
是根据资料的设计类型和研究目的,将全部观察值总的离散程度和自由度分解为相应的几个局部,除了随机误差外,其余每个局部的变异可由某个因素的作用加以解释,如各组均数间的变异可由处理因素的作用加以解释
6.在进展双向无序行列表卡方检验时发生偏性的处理方法:
P157
(1)增大样本量,当样本量增大时理论频数会增大
(2)根据专业知识对理论频数较小的行或者列进展合并或者删除
(3)改用双向无序行×列表的Fisher确切概率法
〔1〕优点:
①计算简单便于掌握缺点:
①损失信息
②应用范围广②检验效率低
③搜集资料方便
(2)应用:
①分布型未知
②能以严重程度、优劣等级、效果大小和名次先后等等级资料
③分布极度偏态
④本组内个别变量值偏离过大,远离本组其它变量值
⑤方差不齐时
⑥挑选或只需获得初步结果。
8.秩和检验编秩次的方法:
(1)按差值的绝对值大小编秩次,并根据差值的正负给秩次加上正负号
(2)假设差值为0,那么舍去不计,相应的对子数n随之减少
(3)假设差值的绝对值相等,那么取平均秩次
9.在进展双向无序行列表卡方检验时发生偏性的处理方法:
P157
(4)增大样本量,当样本量增大时理论频数会增大
(5)根据专业知识对理论频数较小的行或者列进展合并或者删除
(6)改用双向无序行×列表的Fisher确切概率法
(1)绘散点图理解线性趋势,样本的相关系数接近零时并不意味着两变量间一定无相关性
(2)线性相关分析要求两个变量都是随机变量,且仅适用于二元正态分布资料
(3)作相关分析时,应该剔除离群值,出现异常点时慎用相关
(4)相关要有实际意义,两变量相关并不代表两变量间一定存在内在联络
(5)r=0说明无相关或非线性相关
(6)分层资料盲目合并易出假象
教师的更简洁:
(1)进展相关分析前应先绘制散点图,以提示是否有必要进展线性相关分析
(2)样本的相关系数为0时,并不意味着两变量一定无相关性
(3)一个数值随机变动,而另一个变量的数值却是人为选定的,此时不宜做相关分析〔两变量都应是随机的,均符合正态分布〕
(4)作相关分析时,应该剔除离群值,出现异常点时慎用相关
(5)相关分析要有实际意义,相关未必真有内在联络
(6)分层资料盲目合并易出现假象
11.线性回归分析的适用条件:
线性独立正态方差相等
(1)因变量Y与自变量X呈线性关系
(2)每个个体观察值之间互相独立
(3)因变量Y属于正态随机变量
(4)在一定范围内,不同的X值所对应的随机变量Y的方差相等
(1)进展线性回归分析时,应先绘散点图,提示有直线趋势存在时,可作线性回归分析
(2)进展线性回归分析时,一般要求因变量Y是来自正态总体的随机变量,自变量X可以是正态随机变量,也可以是准确测量和严密控制的值
(3)进展线性回归分析要有实际意义,不能把毫无关联的两个事物或现象进展进展线性回归分析
(4)进展线性回归分析必须进展假设检验,以推断两变量间的线性关系是否存在
(5)回归直线不能外延,以自变量取值范围为限
13.简述线性回归与相关的区别及联络
(1)区别:
①资料要求不同:
相关:
两变量均为随机变量,并服从双变量正态分布
回归:
Y服从正态分布,X为选定变量
②统计意义不同:
相关:
只反映两变量间互相依存
回归:
有一个变量推算另一个变量
回归关系与原度量衡单位有关,相关关系那么无
③分析目的不同:
相关:
两变量间线性关系的亲密程度及相关方向
回归:
用函数公式定量表达因变量随自变量变化的关系
(2)联络:
①变量间关系的方向一致:
对同一资料,其相关系数r与回归系数b
的正负号一致
②假设检验等价:
实际分析中常以r的假设检验代替对b的检验
③r与b值可互相换算
④用回归解释相关:
r2称决定系数,r2越接近1,回归效果越好。
三、填空题
1.统计学的研究对象是变异的数据
2.医学统计学工作的根本步骤是:
设计、搜集资料、整理资料、分析资料,其中最重要的步骤是科研设计
3.SPSS主要有4大窗口:
数据编辑窗口〔DataEditor〕、结果输出窗口〔Viewer〕、程序编辑窗口〔SyntaxEditor〕、图表编辑窗口〔ChartEditor〕
4.SPSS能直接调用的数据文件类型常用的有:
*.sav、*.xls、*.dbf、*.txt、*.dat
5.等比资料的集中趋势常用的描绘方法是几何均数G
6.定量资料的集中趋势:
均数、几何均数、中位数、百分位数
7.定量资料的离散趋势:
全距、四分位数间距、方差、标准差、变异系数
8.偏态分布的集中趋势常用的描绘方法是中位数;偏态分布的离散趋势常用的描绘方法是四分位间距
9.单位不同或均数相差较大的多组资料常用的描绘方法是:
变异系数CV
10.参数是指:
总体的统计指标;统计量是指:
样本的统计指标
11.标准正态分布是一种特殊的正态分布,标准正态分布的:
μ=0,σ2=1,通常用u〔或Z〕表示服从标准正态分布的变量,记为:
u~N〔0,12〕
12.正态分布函数中μ代表:
总体均数〔位置参数〕,σ代表总体标准差〔变异度参数〕
13.正态分布曲线区间面积为95%的范围是:
〔μσ,μσ〕
99%的范围是:
〔μσ,μσ〕
90%的范围是:
〔μσ,μσ〕
14.正态分布数据的参数估计
±;偏态分布数据的参数估计〔P25,P75〕
15.二项分布的条件:
每次试验只有两种结果〔死亡或者存活〕、实验结果之间彼此独立、每次试验结果发生概率固定不变
16.二项分布近似正态分布的条件是:
当n足够大时〔n≥50〕,只要π不太靠近0或1,尤其是nπ和n〔1-π〕均大于5
17.Poisson分布的条件:
每次试验只有两种结果〔死亡或者存活〕、实验结果之间彼此独立、每次试验结果发生概率固定不变+总体发生概率π非常小
18.Poisson分布近似正态分布的条件是:
λ≥20
19.Poisson分布的两个特性是:
均数与方差相等,观察结果有可加性
20.t分布的自由度ν越小,t分布曲线越低平,尾部越高;自由度ν越大,t分布曲线越接近标准正态分布〔u分布〕
Z分布与自由度无关
21.医学参考值范围通常表达为
±;置信区间围通常表达为
±
;其中范围较宽的是医学参考值范围
22.假设检验的根本原理是反证法思想和小概率事件
23.配对样本均数的t检验,配对设计主要由以下几种形式:
①两种同质受试对象分别承受两种不同的处理
②同一受试对象或者同一样本的两个局部分别承受两种不同的处理
③同一受试对象承受某种处理前后
24.t检验的应用条件有:
样本例数n较小、样本均是随机样本、符合正态分布、方差齐〔两样本〕
25.0有统计学意义非正态分布,通常运用秩和检验
26.做单侧检验时假如运用了双侧检验可以导致第Ⅱ类错误增大;可以同时减小第Ⅰ类错误和第Ⅱ类错误的方法是增加样本含量
27.方差分析应用条件有两观察值互相独立、服从正态分布、方差齐性
28.完全随机设计组间变异包含处理效应+随机误差;组内变异包括随机误差;
SS总=SS组间+SS组内;ν总=ν组间+ν组内
29.随机区组设计的两因素方差分析中,总变异可以分解为三个局部,
即处理效应、区组间变异和随机误差
SS总通常可以分为SS处理、SS区组和SS误差,
SS总=SS处理+SS区组+SS误差
v总=v处理+v区组+v误差
30.行
列表χ2检验,要求不能有理论数(T)小于1,且1≤T<5的格子数不超过总格子数的1/5,否那么产生偏倚。
处理方法有三种:
①增大样本含量②对理论频数较小的行或列进展合并或者删除③改用双向无序行×列的Fisher确切概率法
31.四格表的自由度等于1;四格表的周边合计数不变时,假如某格子的实际频数有变化,那么其理论频数不变
32.统计表的制作原那么:
重点突出、层次清楚、简单明了
33.统计表的构造包括标题、标目、线条、数字、备注
34.统计表的种类:
简单表、复合表
35.统计图的构造:
标题、图域、标目、刻度、图例
36.表示互相独立的各指标的大小用直条图〔单式/复式〕;表示全体中各局部的比重用百分条图或圆图〔构成图〕;表示连续性资料的开展变化或一事物随另一事物变迁的情况用线图〔普通线图、半对数线图〕;比拟事物开展速度用半对数图;表示连续性资料的频数分布用直方图;表示两组或多组连续性资料的平均指标和变异指标用箱式图,表示两事物的相关关系用散点图;表示某现象的数量在地域上的分布用统计地图
37.箱式图:
箱子越长,表示资料数据越分散,即变异程度越大;反之变异程度越小。
横线在箱子中点处表示对称分布,否那么为偏态分布
38.普通线图:
横轴、纵轴均为算术尺度
半对数线图:
横轴为算术尺度,纵轴为对数尺度
39.某地调查的863例恶性肿瘤死者,分别由省、市、县、乡医院最后确诊。
现欲说明各级医院确诊比例,宜绘制圆图/构成图(统计图)
40.非参数检验的优点:
计算简单便于掌握、应用范围广、搜集资料方便;
缺点:
损失信息、检验效率低
41.线性相关分析的步骤:
绘制散点图→观察两变量的线性趋势→计算相关系数→相关系数的假设检验
42.回归分析的步骤:
绘制散点图→求回归方程→回归系数的假设检验→线性回归方程图
43.回归系数的估计原那么:
最小二乘法原那么
44.线性相关系数的取值范围:
-1≤r≤1;r假设检验方法:
r界值表法、t检验法
45.相关系数的统计推断方法:
查表法、t检验
配对设计秩和检验的统计推断方法:
查表法、正态近似法
完全随机(成组)设计两样本秩和检验的统计推断方法:
查表法、正态近似法
完全随机(成组)设计多样本秩和检验的统计推断方法:
查表法、χ2正态近似法
46.等级相关秩和检验应用范围:
偏态分布、分布类型未知、等级资料
47.实验设计的根本原那么:
对照原那么、随机化原那么、重复原那么、盲法原那么
48.实验设计的根本要素:
处理因素、受试对象、实验效应
四、计算与分析
1.表1数据如下,卡方检验如下。
问:
应该选择哪种方法及哪组数值?
新旧防护服是否对皮肤病患病率有影响?
表1穿新旧两种防护服工人的皮肤病患病率比拟
防护服种类
皮肤病炎症
患病率(%)
阳性例数(理论频数)阴性例数(理论频数)
新
1(3.8)
14(11.2)
旧
10(7.2)
18(20.8)
表2卡方检验(SPSS)结果
值
df
渐进Sig.(双侧)
准确Sig.(双侧)
准确Sig.(单侧)
Pearson卡方
1
.037
连续校正b
1
.087
似然比
1
.025
Fisher的准确检验
.065
.038
线性和线性组合
1
.040
有效案例中的N
43
(1)由于n≥40,但有1≤T<5,所以选用χ2检验校正公式,即选择结果的第二行数据进展分析
(2)假设检验:
①建立检验假设:
H0:
π1=π2,即新旧防护服对皮肤病患病率无影响
H1:
π1,≠π2,即新旧防护服对皮肤病患病率有影响
②确定假设检验水准:
α
③计算检验统计量:
根据表2可得χ2=2.938,ν=1
④确定P值,作出推断结论:
χ20.05,1=3.84,根据表2可得P=0.087>0.05,按α=0.05水准,不回绝H0,差异无统计学意义,尚不能认为新旧防护服对皮肤病患病率有影响。
2.对11份工业污水测定氟离子(mg/L),每份水样同时采用电极法及分光光度法测定,结果见表3。
三人对两种方法测定结果有无差异进展了统计分析,
(1)甲用独立样本t检验,t=-0.072,P=0.943;
(2)乙那么先对每份样品的差值做正态性检验(P<0.05),然后用配对设计的符号秩和检验(WilcoxonSignedRanksTest),得到z=1.633,P=0.102;(3)丙用配对设计的t检验,t=0.441,P=0.669。
请问哪个人统计方法运用得当,并对该结果进展恰当分析
表3两法测定的氟离子浓度结果(mg/L)
样品号
电极法
分光光度法
样品号
电极法
分光光度法
1
7
2
8
3
9
127
4
10
5
11
6
7
(1)丙的统计方法运用得当
(2)分析:
该样本属于同一样本的两个局部分别承受两种不同处理,即应该采用配对样本均数的t检验
(3)假设检验:
①建立检验假设:
H0:
μd=0,即两种检测方法无差异
H1:
μd≠0,即两种检测方法有差异
②确定假设检验水准:
α
③计算检验统计量:
t=0.441,ν=10
④确定P值,作出推断结论:
P=0.669>0.05,按α=0.05水准,不回绝H0,差异无统计学意义,尚不能认为两种检测方法有差异
3.某研究者测定51名肿瘤患者蛋白激酶(PKC)程度以及某单核苷酸多态性(SNP)的3种基因型GG、GA、AA(详见下表),他欲分析男、女PKC程度间有无差异,用什么统计分析方法?
又想理解3种基因型PKC程度间有无差异,用什么统计方法分析(PKC数据经正态性检验服从正态分布)
性别
基因型
PKC
性别
基因型
PKC
性别
基因型
PKC
男
GA
男
AA
女
GA
男
GA
男
AA
女
GA
74
男
GA
男
AA
女
GA
男
GA
男
AA
女
GA
男
GA
男
AA
女
GA
男
GA
男
AA
女
GA
男
GA
男
GG
女
GA
男
GA
男
GG
女
AA
男
GA
男
GG
女
AA
男
GA
男
AA
女
AA
男
GA
男
GA
女
AA
男
GA
男
GG
女
AA
男
GA
男
AA
女
GG
男
AA
男
AA
女
GA
男
AA
男
AA
女
GA
男
AA
男
GA
女
GA
男
AA
男
AA
女
AA
(1)分析男女PKC程度间有无差异应该用两独立样本的t检验
①建立检验假设:
H0:
μ1=μ2,即男女