临床科研设计详细知识点总结.docx
《临床科研设计详细知识点总结.docx》由会员分享,可在线阅读,更多相关《临床科研设计详细知识点总结.docx(163页珍藏版)》请在冰豆网上搜索。
临床科研设计详细知识点总结
临床科研设计
(1)——临床科研设计绪论
一、临床研究的概念:
二、临床研究方法学的核心
三、临床研究设计对误差的控制
四、医学统计学知识回顾
1.临床医学研究是以人为研究对象,尤其是以患者为研究对象,其最基本的出发点在于阐明疾病的病因、诊断、治疗、预防、自然病程及其预后等方面的重要问题,从而认识疾病的本质,并进行有效防治,达到保障人类健康和促进医学科学进步的目的。
2.临床研究的共同特点:
a.个体差异大,实验条件不易控制
b.临床研究涉及医德与伦理学问题
c.临床研究的内容广泛,涉及的学科众多
3.临床研究的基本程序
Ø科研假说:
选题
Ø证明假说的过程:
设计;观察和实验;资料整理和数据分析;总结
Note:
有什么样的设计,就会对应什么样的数据分析;
需要做什么样的分析,必须提前做好相应的设计;
4.临床研究的基本要素
研究因素;研究对象;效应指标
5.临床研究的基本原则——对照原则;随机、均衡原则;重复原则
6.研究对象分组依据
a.研究因素(队列研究、随机对照试验)
b.效应指标(描述性研究)
c.研究对象(诊断试验、病例对照研究)
7.重复多少是合适的?
①样本量太少,不能得出有统计学的意义的结果。
②样本量太多,资金、工作量、病人来源、周期、伦理等不许可。
权衡的方法——样本量估算
8.临床研究方法学的核心
DME(design、measurement、evaluation)
设计(选题、设计)
测量(观察和实验)
评价(资料整理和数据分析、总结)
9.设计的主要内容:
•1.科研目的和理论假设的成立
•2.确立研究设计方案
•3.研究对象的选择
•4.估算合适的样本量
•5.确定研究的观察指标和观察期限
•6.确定正确的资料分析方法
•7.严格的质量保证措施
1.科研目的和理论假设的成立
a.这个过程也称之为选题和立题的过程。
b.选题的过程涉及到文献检索,查阅领域的学术进展、前人的研究基础。
c.同时要注意收集相关的参数,比如其它类似研究、本研究所用到的对照组措施的疗效资料等,为样本量估算做准备。
2.确立研究设计方案
3.研究对象的选择(诊断标准;纳入标准;排除标准)
一定诊断标准确定研究的目标人群和目标人群总体,按照研究设计所规定的纳入和排除标准募集合格的研究对象样本,以确保研究对象的可靠性。
4.估算合适的样本量
样本量估算的依据
(1)、具有研究指标的总体均数、总体率的估计值;
(2)、第Ⅰ类错误的概率;
(3)、第Ⅱ类错误的概率;
(4)、总体标准差σ;
(5)、容许误差或检验的差值δ。
5.确定研究的观察指标和观察期限
a.根据研究目的确定用于评价的指标,并制定这些指标如何测量、多长时间测量一次等。
b.观察指标及观察期限的确定,必须结合统计分析计划,进行周密考虑。
c.如果在统计分析阶段发现少收集了某些指标或某指标的某个时间点,那一切都晚了。
6.确定正确的资料分析方法
a.根据资料特征选择正确的资料分析方法。
b.这个阶段其实就是统计分析计划阶段。
在思考这一部分内容的时候,要回推到前面几个部分,检查前面几个部分是否给统计分析计划提供了足够的支持。
7.严格的质量保证措施
要有控制各种偏倚和混杂的措施。
10.测量、评价
测量是指研究者使用科学的方法和技术来发现和度量发生在环境中和人体中的某些效应。
使用敏感的、准确的测量方法和技术,对获得真实可靠的资料至关重要。
评价:
研究结果的统计分析和评价
临床意义的评价
研究结果的经济学评价
研究项目的综合评价
11.临床科研中对误差的控制
机遇;偏倚;交互作用
(1)机遇:
由于生物个体间存在差异,即使研究者从总体中随机无偏抽样,并排除了各种偏倚,所得样本与总体的情况也不会完全一致,这种由于抽样的随机性引起的偶然的代表性误差,称为随机误差,抽样误差或者机遇。
即由于非研究因素影响造成的一类不恒定的、随机变化的误差,是不能完全避免而尽量减少的误差。
影响机遇的因素:
•总体单位的标志值的差异程度
•样本单位数的多少
•抽样方法
机遇的控制方法
•增加样本例数。
•选择合适的抽样方法。
常用的概率抽样方法
Ø单纯随机抽样
Ø系统抽样
Ø整群抽样
Ø分层抽样
各种抽样方法的抽样误差规律是:
整群抽样≥随机抽样≥系统抽样≥分层抽样。
实际问题中,常常把两种或几种抽样方法结合起来使用,如分层整群随机抽样等。
单纯随机抽样
是把调查总体的全部观察单位进行编号,再用随机数字表或抽签等方法随机抽取部分观察单位组成样本。
Ø随机抽样是最基本的抽样方法。
优点是计算样本数字特征比较简单,缺点是要对所有观察单位编号,费时费力,实际工作困难。
Ø在抽样设计时,还必须考虑样本容量。
样本例数过少,所得指标不稳定,推断总体的精度差,检验的效能低;样本例数过多,不但造成浪费,而且给质量控制带来困难。
系统抽样
Ø又称为机械抽样或等距抽样,是把总体观察单位按一定顺序分为n个部分,从第一个部分随机抽取第k位次的观察单位,再从其他部分中抽取相同位次的观察单位,由这些观察单位组成样本。
Ø优点是简单易行,容易得到一个按比例分配的样本,抽样误差小于单纯随机抽样。
Ø缺点是:
①系统抽样抽取各个观察单位不是彼此独立,总体的观察单位有周期趋势或单调增减趋势时,抽样方法会出现明显的偏性。
②实际工作中,一般按单纯随机抽样方法估计其抽样误差,由于系统抽样抽取的各个观察单位不是彼此独立,因此,对抽样误差的估计只是近似的。
整群抽样
Ø是把总体N个观察单位分为K个“群”,每个群包含若干观察单位,随机抽取k个“群”,用这些群中的全部观察对象组成样本。
Ø优点是便于组织,节省经费,容易控制调查质量。
Ø缺点是当样本例数一定时,其抽样误差一般大于单纯随机抽样,这是因为样本观察单位并非广泛地散布在总体中。
Ø为降低抽样误差,可采用增加抽取的“群”数,减少“群”内观察单位数的方法进行抽样,即重新划分“群”组,使每个“群”更小。
Ø整群抽样的抽样误差大于单纯随机抽样,需要增加样本量,一般增加50%左右。
分层抽样
Ø又称分类抽样,先按总体人口学特征或影响观察值变异较大的某种特征(如年龄、性别、病情和病程等)分成若干层次,再从每一层内随机抽取一定数量的观察单位,合起来组成样本。
Ø优点是减小抽样误差,不同的层可以采用不同的抽样方法,不同的层可以独立进行分析。
分层增加了层内同质性,观察指标的变异减小,各层的抽样误差减小,样本含量相同时,标准误一般均小于单纯随机抽样、系统抽样和整群抽样的标准误。
Ø缺点是当研究资料各层之间的差距小时,就不需要分层抽样。
一般说,当样本含量足够大时,调查患病率和相关因素,只要单纯随机抽样即可,不一定需要事先分层。
但是调查结束后处理资料时,分层统计分析是必要的,这是为了控制混杂偏倚。
(2)偏倚
偏倚是指在实际观测过程中,由受试对象、研究者、仪器设备、研究方法、非实验因素影响等原因造成的有一定倾向性或规律性的误差,称为系统误差或者偏倚(bias)。
例如,仪器初始状态未调整到零,标准试剂未经校正所致的误差。
其特点为:
观察值有系统性、方向性、周期性的偏离真值,可以通过严格的实验设计和技术措施消除。
偏倚的分类
•选择偏倚
–由于选入的研究对象与未选入的研究对象某些特征上存在差异而引起的误差。
如病人到哪个医院就诊;不同病种有不同的入院频率;
•信息偏倚
–在收集整理信息过程中由于测量暴露与结局的方法有缺陷造成的系统误差
•混杂偏倚
–研究某个因素与某种疾病的关联时,由于某个既与疾病有制约关系,又与所研究的暴露因素有联系的外来因素的影响,掩盖或夸大了所研究的暴露因素与疾病的联系
选择偏倚
•常见选择偏倚
–入院率偏倚
–现患病例-新发病例偏倚
–检出征侯偏倚
–时间效应偏倚
–志愿者偏倚
•选择偏倚的控制
–根据研究病种特点,尽量合理地选择研究对象
–尽可能地从多家(类)医院选择研究对象
入院率偏倚
•也叫Berkson(伯克森)偏倚,当利用医院病人作为研究对象时,由于入院率的不同而导致的偏倚。
不同疾病(或同一疾病的不同亚型)在某一类医院的就诊或住院率各异,其原因是多方面的,如不同医院的技术专长,患者所患疾病的严重程度,患者的经济状况,以及就诊方便与否等等,均可影响入院率,各种疾病的入院率不同导致研究对象某些特征上的系统差异。
•控制:
尽可能采用多中心研究的方法,设置较为严格的纳入、排除标准。
现患病例-新发病例偏倚
•又称奈曼偏倚,如果调查对象选自现患病例,即存活病例,可能得到更多的信息,但是其中很多信息可能只与存活有关,而未必与该病的发病有关,从而高估了某些暴露因素的病因作用;另一种情况是,某病的幸存者改变了生活习惯,从而降低了某个危险因素的水平,或当他们被调查时夸大或缩小了病前生活习惯上的某些特征,导致某一因素与疾病的关联误差。
•控制
–研究时明确规定纳入标准为新发病例或现患病例,标准要统一。
检出征侯偏倚
•也称暴露偏倚,病人常因某些与致病无关的症状而就医,从而提高了早期病例的检出率,致使过高地估计了暴露程度而产生的系统误差。
•控制
–病例包括早、中、晚期
时间效应偏倚(错误分类偏倚)
•对于肿瘤、冠心病等慢性疾病,从开始暴露于危险因素到出现病变往往经历一个较长的时间过程,因此那些暴露后即将发生病变的人、已发生早期病变而不能检出的人、或在调查中已有病变但因缺乏早期检测手段而被错误地认为是非病例的人,都可能被选入对照组,由此而产生了结论的误差。
•控制
–尽量采用敏感的疾病早期检查技术
–开展观察期充分长的纵向调查
志愿者偏倚
•有一部分人特别愿意接受调查或测试,这些人往往比较关心自身健康或自觉某种疾病,而想得到检查机会的人。
他们的特征或经历不能代表目标人群。
由此造成的偏倚称为志愿者偏倚。
•控制
•随机原则
信息偏倚
收集资料过程中的偏倚,又称观察偏倚或测量偏倚,包括:
Ø回忆偏倚
Ø调查偏倚
Ø无应答偏倚
Ø文献偏倚:
文献发表偏倚
回忆偏倚
•回忆偏倚:
是指研究对象在回忆某些因素的暴露史时,由于在准确性和完整性上的差异所导致的系统误差。
回忆偏倚在病例对照研究中最常见。
•倾向性:
被调查者与调查员均可能有倾向性,盲法可以克服
–例如报告偏倚:
亦称作说谎偏倚,研究对象有意地夸大或缩小某些信息而导致的偏倚。
•原因
–与调查时间和事件发生的时间间隔、事件的重要性、被调查者的构成以及询问技术有关。
•控制
–选择不易为人们所忘记的重要指标做调查
重视问卷的提问方式和调查技术。
调查偏倚
•可来源于调查对象和调查者双方。
•原因
–病例与对照的调查环境与条件不同;调查技术、调查质量不高或差错以及仪器设备的问题。
比如:
中医量表。
•控制
–采用客观指征
–认真做好调查技术培训
–采取复查等方法做好质量控制
–检查条件尽量一致
–使用的检查仪器应精良
混杂偏倚
•是指在研究中,由于一个或多个潜在的混杂因素的影响,掩盖或夸大了研究因素与疾病(或事件)之间的联系,从而使两者之间的真正联系被错误地估计。
它的特点是不易识别,不易确定,需认真细致地去解决。
•控制的方法
–匹配法:
混杂因素作为匹配因素
–分层分析法
–多因素分析
混杂因素的特点
•混杂因素必须是所研究疾病的危险因素或保护因素,即与所研究疾病有联系。
•混杂因素必须与所研究的暴露有联系。
•混杂因素不应该是暴露与疾病之间因果链中的一个中间环节。
在以上条件成立的情况下,混杂因素在研究因素各分层间分布不均,即可产生混杂偏倚。
混杂偏倚的测量
•测量某一可疑混杂因素的混杂作用,可以通过比较含有该因素与疾病效应的估计值(如RR、OR),与排除该因素后的效应估计值来实现。
•Logistic回归、M-H分层分析、多元分析模型
混杂偏倚的控制
在设计阶段
•对研究对象进行限制
•配比
•分层抽样
•随机分配或抽样
在分析阶段
•分层分析
•标化的方法
•多因素分析方法
(3)交互作用
•一般认为,当两个或两个以上的因子共同作用于某一事件时,其效应明显不同于该两个或两个以上因子单独作用时的积或和时,称这些因子间存在交互作用。
•交互作用不同于混杂,是研究中需要寻找和进行描述的客观现象,它的存在与研究设计无关。
交互作用的类型
•协同作用
•拮抗作用
交互作用的识别与控制
•分层分析
•多因素分析模型
•采用交互作用指标进行估计,比如析因设计。
•广义相对危险度模型.
12.医学统计学知识回顾
☞统计学描述报告规范
☞统计学推断报告规范
☞统计学关联规则报告规范
☞统计表报告规范
☞统计图报告规范
☞常见的统计学错误
医学资料的分类
◆计量资料:
身高、体重、RBC、PLT
◆分类资料:
Ø两分类:
男、女;有效、无效
Ø无序多分类:
职业(工人、农民、商人)、血型(A、B、O、AB)
Ø有序多分类:
痊愈、显效、有效、无效、-、+、++、+++
统计描述的常用指标
Ø例数(n)
Ø频数、相对数、百分比
Ø均数±标准差(x±s)
Ø几何均数±标准差(G±GSD)
Ø最小值,最大值(min,max)
Ø中位数(M,median)
Ø四分位间距(P25,P75)、百分位数
n——例数
•例数,表示研究对象的数量。
•每一项研究,只要涉及到研究对象,例数是必不可少的、必须报告的统计指标。
频数、相对数、百分比
•频数,表示分类资料各类别的例数。
•百分比,表示分类资料各类别的例数占总例数的百分比。
•当小样本资料时,不适宜计算百分比,而需用相对数来表示。
_x±s——算术均数±标准差
•算术均数是一组呈正态分布的变量值的平均水平,代表集中趋势,标准差代表离散趋势。
•通过均数和标准差的大小关系,可以大致看出是否符合正态分布,进而判断出使用统计方法是否正确。
G±GSD——几何均数±标准差
•几何均数可反映一组经对数转换后呈正态分布的变量值在数量上的平均水平,在医学研究中常适用于免疫指标。
Min,Max
•最小、最大值
•相当于报告数值的区间,如年龄18-70岁。
最小18,最大70。
•有助于发现离群值,或异常值。
M——中位数
QL~QU(Q1~Q3)——四分位间距
•中位数是将n个变量从小到大排序,位置居中的那个数,适用于偏态和一端或两端无确切值的资料。
•与之相适应的统计图为箱式图
P——伴随概率
•P<0.05,p<0.01,P>0.05
•I类误差α发生的概率。
•差异性检验时,p<0.05表示差异有统计学意义。
•正态性检验、方差齐性检验时,p>0.05表示符合正态分布、方差齐。
P的报告规范
•根据统计学意义有三种情况:
P<0.05,p<0.01,P>0.05。
•根据杂志的习惯,有的要求报告具体p值,有的只要求大致值。
•报告具体p值时,一般保留3位小数。
统计推断中检验值的报告
•t检验(t)
•方差分析(F)
•x2检验(x2)
•两组非参数检验(Z)
◆这些检验值与p值一起报告,通过p值与0.05的关系来回答统计学意义。
t——t检验的统计量
•一般用于资料符合正态或者近似正态分布,单组、两组或配对资料的比较。
F——方差分析的统计量
•一般用于资料符合正态分布,多组资料的比较,以及多因素的组间比较:
x2——x2检验的统计量
•主要用于两分类或无序多分类资料的组间比较。
Z——两组非参数检验的统计量
•两组或两对资料秩和检验的统计量
•资料不符合正态分布
•有序多分类资料
RR——相对危险度
•相对危险度(relativerisk,RR):
亦称危险度比,是暴露组的危险度(测量指标是累积发病率)与对照组的危险度之比。
暴露组与对照组的发病密度之比称为率比(rateratio)。
危险度比与率比都是反映暴露于发病(死亡)关联强度的指标。
OR——比值比、优势比
•比值比(Oddsratio,OR):
又名机会比,优势比,交叉乘积比cross-productratio,相对比值relativeodds,两个比值的比。
•
•
r(rs)——相关系数
相关系数表示两变量间相互关系的密切程度和方向。
•皮尔森相关:
当两变量资料均符合正态或近似正态分布时采用,相关系数用r表示。
•spearman相关:
当两变量资料不符合正态分布,或者是等级资料时采用,相关系数用rs表示。
相关关系密切程度的判断
一般说来,当样本量较大(n>100),并对r进行假设检验,有统计学意义时(即),
r绝对值越大,说明两个变量之间关联程度越强。
Kappa——一致性系数
评价两种诊断方法一致性的系数,称为Kappa系数。
ØKappa值的意义
•<0.02差
•0.02~轻微
•0.20~尚可
•0.40~中等
•0.60~好
•0.80-1.00几乎完全一致
I2——异质性指数
•Meta分析异质性检验中,表示异质性在总体变异中所占比重大小的指标。
•I2>50%,说明存在比较明显的异质性,meta分析时须采用随机效应模型,否则采用固定效应模型。
统计表
Ø在科研或临床工作中,将统计分析的事物及指标用表格的形式列出称为统计表。
Ø广义上的统计表包括原始资料调查表、整理资料表、统计资料计算用表及表达结果的统计表。
狭义上的统计表特指表达统计结果的报告表。
1、统计表的意义
Ø统计表用简明的表格形式,有条理地罗列数据和统计量,方便阅读、比较和计算。
Ø在统计描述过程中,统计表展示统计数据的结构、分布和主要特征,便于在进一步分析中选择和计算统计量。
Ø在学术报告和论文中常用统计表代替冗长的文字叙述,表达主要研究结果、数据、指标和统计量,方便读者作比较和掌握主要研究结果。
2.统计表的基本格式
Ø统计表的基本格式为三条线(顶线、标目线、底线)、三部分(标题、标目、数字),具有如此基本格式的表格通常简称为“三线”表格。
3.统计表的基本结构包括:
①表号②标题③标目④线条⑤数字⑥备注
4.统计表的种类:
可分为简单表和组合表。
(1)简单表(simpletable):
只按一个标志(或特征)分组。
(2)组合表(combinativetable):
又称复合表,是按两个或两个以上的标志或特征结合分组。
5.制表的原则
Ø
(1)简单明了:
指文字、数字和线条都尽量从简,使人一目了然。
每张表都要有自明性,即表格应有相对的独立性,单看表即可了解表格的内容与意义。
Ø
(2)层次清楚:
指表的内容要按照逻辑顺序合理安排,主语、谓语划分清楚。
6.制表的基本要求
(1)表号:
亦称表序,位于顶线上方、标题的左侧,与标题之间空2个字符,以阿拉伯数字表示。
(2)标题:
简明扼要地说明表的内容,必要时注明时间和地点,写在表的上端。
不能因为上下文中有所述及而过于简略甚至把标题省略,也要避免标题过于繁琐及标题不确切。
(3)标目:
分为纵标目与横标目。
横标目表示相应的行的内容,纵标目表示相应一列(或数列)的内容。
横标目是统计表的主语,指被观察的对象,通常列在表的左侧。
纵标目是统计表的谓语,说明主语的各项指标,通常列在表的右侧。
一般要求主语和谓语连贯起来能成为一句完整通顺的话。
标目要求文字简明,层次清楚,一张表内不要安排过多的标目。
Ø当表示指标的标目指标有不止一类时应标注出指标符号,有单位的标目应注明单位。
(4)线条:
不宜过多,除顶线、底线及纵标目下面与合计行上面的横线外,其余线条一般均省去,表的左上角不应有斜线。
顶线、底线应加粗(1.5磅),标目线采用默认粗细(0.5磅),组合表可在标目线上出现小标目线。
(5)数字:
表内数字一律用阿拉伯数字,同一指标的小数位数应一致,位次对齐。
表内不宜留有空格,暂缺或未记录可用“…”表示,无数字可用“-”表示,数字若是0则填写0。
要注意同一类数据的小数点位保持一致。
(6)备注:
一般不列入表内,必要时可用“*”号标出,写在表的下面。
统计图报告规范
☞统计图是用点的位置、线段的升降、直条的长短或面积的大小等表达统计资料的一种形式。
☞它在揭示各种现象间的数量差别和相互关系、说明研究对象内部构成和动态变化、表达地区分布等方面,具有简明清晰、形象直观、易为人理解等优点,必要时可与统计表同时应用。
☞常用的统计图有条图、线图、百分条图、圆图和直方图等,使用SPSS、Graphpad等工具软件可以方便地绘制出各种统计图。
制图的基本要求
Ø1.标题标题应简明扼要地说明资料的内容、地点和时间,写在图的下方,并标出图的顺序号码。
Ø2.坐标需要坐标的,以纵轴和横轴表示纵、横标目,为美观考虑,纵轴与横轴的比例一般约为4:
6,并注明单位。
Ø3.尺度横轴尺度自左而右,纵轴尺度自下而上,数量由小到大,必须等距或有一定的规律(如用对数尺度),并注明数值和单位。
一般纵轴尺度必须从零开始(对数图、散点图除外)。
Ø4.图例比较不同的事物时,应用不同线条或颜色表示不同事物,并附图例说明。
作图软件的应用
•SPSS、EXCEL、Graphpad等。
•软件初步生成图形后,还需要进一步进行加工,围绕坐标、标题等要素进行美化和规范化处理。
条形图
Ø一般用于显示正态分布(或近似正态)单变量组间或不同变量之间均数的关系。
Ø条柱的高度代表均数的大小,帽的高度代表标准差的大小。
箱图
Ø一般用于显示非正态分布单变量组间或不同变量之间均数的关系。
Ø一个箱式图同时标记了最小值、最大值、中位数和四分位间距。
误差条形图
Ø一般用于显示正态分布(或近似正态)单变量组间或不同变量之间均数的关系。
Ø误差条形图标记了均数及其95%可信区间。
散点图
Ø一般用于比较两个计量指标的一致性。
Ø用横、纵两个坐标分别代表两个相互关联的计量指标,观察其变异性。
Ø比如:
两次重复测量的稳定性;两种测量方法的一致性等。
生存曲线图
Ø生存资料的结局包含有终点事件和时间两个方面的信息;终点事件一般为两分类。
Ø由于失访等原因使一些研究对象的生存时间难判断,导致部分生存时间数据不完整。
Ø为了表示具有二维特征的,可能不完整的结局,需要用生存曲线图来表示。
ROC曲线图
•受试者工作特征曲线(ReceiverOperatorCharacteristiccurve,简称ROC曲线)
•表示一个特定的诊断方法对区别特定的患者组与非患者组样本的检测性能。
•表示不同诊断水平的真阳性率对假阳性率的函数关系。
常见的统计学错误
•一、错用随机
•二、错用均数±标准差
•三、错用独立样本t检验
•四、错用配对t检验
•五、错用卡方检验
•六、错用回归分析
一、错用“随机”
•随机是指采用随机的方式,使每个受试对象均有同等的机会被抽取或分配到实验组和对照组。
•包括“随机抽样”和“随机分组”两类。
•随机抽样主要用于调查性研究,如发病率调查、危险因素调查等。
•随机分组主要用于试验性研究,如干预措施的有效性和安全性评价。
错用1:
在不可能随机的情况下,滥用“随机分组”
•随机分组适用于前瞻性试验性研究,而非对回顾性资料的分析。
队列研究、病例对照研究虽然也有对照,但对照的形成不是根据随机原则确定的。
错用2:
明显的假随机分组
•随机分组的研究,组间数量呈规律的比例关系,如1:
1,2:
1,3:
1等。
因脱落等原因可能会造成例数的不严格比例关系,但文章要有明确交代。
二、错用“均数