临床研究概述第一章.docx

资源描述

临床研究概述第一章.docx

《临床研究概述第一章.docx》由会员分享，可在线阅读，更多相关《临床研究概述第一章.docx（10页珍藏版）》请在冰豆网上搜索。

临床研究概述第一章.docx

临床研究概述第一章

1.临床研究概述：

着陆点

章节内容

临床研究的分类

研究可以做什么，什么不能做

结局的测量

结论

许多临床医生称他们不能准确的阅读医学文献。

为解决这个难题，我们为临床医生和研究者提供了一本初级读本。

临床研究根据研究者是否分配暴露因素分为两大类：

实验性和观察性。

实验性研究也可再分为两类：

随机和非随机研究。

观察性研究可以是分析性或者描述性的。

分析性研究的特点是有一个比较（对照）组，而描述性研究则没有。

在分析性研究中，队列研究追踪人群的时间方向是从暴露到结局。

病例-对照研究与之相反是从结局回溯到暴露。

横断面研究像一次快速射击，同时检测暴露和结局。

描述性研究，如病例报道则没有对照组。

在这类研究中，研究者不能检测两者的因果关系，这是一个常常被遗忘或忽略的事实。

对因果关系的衡量，如相对危险度或比值比是常用的二分结局（如患病和健康）表达结果的方法。

这些参数的可信区间提示了结果的精确性。

有了可信区间的因果关联测定显示了作用的强度、方向和可能的范围以及机会发生的概率。

与此相反，p值仅表示机会的大小。

以p值为0.05检验无效假设是没有医学基础的，不应该鼓励。

今天的临床医生处境尴尬。

对时间需求的日益增加使他们没有机会与文献的发表同步前进，并批判性阅读。

几项研究表明，当前诊疗的知识与从医学院毕业后的时间成反比[1,2]。

在很多司法体系中，参加特定数量的医学继续教育课程是保持执业执照的强制性要求。

然而，这些课程对促进患者医疗是失败的[3,4]，从而强调了通过阅读自我学习的重要性。

但是，许多执业医师称他们没有能力批判性的阅读文献[5]。

科学无知是医学教育主要的问题[6]。

我们针对忙碌的医师和活跃的研究人员撰写了这一系列关于研究方法的短篇，这种需要在临床医师中是突出的，由此会产生更有批判性和思考全面的研究者和更好的执业医师。

在这整本书中，医师和研究者的需要是相同的，这种重叠的需要在随机对照试验的讨论中最为明显。

对准确评价随机研究的读者来说，他们应该理解从方法学研究中得到的实施试验的相关指南，希望我们的文章与临床医师讨论中所提及的问题能帮助从事随机对照试验的研究者做的更好。

我们用8章来写随机对照试验。

这种不对称的安排是有意识的；随机对照试验是临床研究的金标准。

“柳叶刀”发表了大量的随机对照试验。

随机对照试验能帮助消除偏倚，研究能够识别试验减少偏倚的重要方法学元素[7,8]。

最后，因为研究的重要性，临床医师更可能根据这些结果而不是观察性研究来采取行动；因此，研究者应该确保研究正确完成并准确报道。

我们在这里对研究设计进行简要叙述，并讨论一些常用方法。

临床研究的分类

和生物学分类类似，可以用一种简单的层次来归类大多数的研究（表1.1）[9]。

但这样做，一定要知道研究的设计。

同生物学一样，解剖决定生理。

研究的解剖结构决定了什么能做，什么不能做。

读者面临的一个困难是作者有时并不报道研究类型或者提供足够的细节来明确研究的类型。

与之相关的问题是作者有时把研究的类型写错了。

例如称呼不是随机对照试验的研究为随机试验[10]，或者把不是同时发生的队列研究称为病例-对照研究[11-13]。

“病例对照的”这个形容词也有时用来（不正确的）指有对照组的任何研究。

生物学有动物王国和植物王国。

同样，临床研究也有两个大的领域：

实验性和观察性研究。

图1.1显示通过指明调查者分配暴露因素（如治疗）或者观察常见的临床实践这些情况能够迅速定位研究的领域[14-18]。

对实验性研究来说，需要分辨暴露是真的随机隐藏（对于分配是隐藏的）或者其他分配计划，如交替分配[19]。

后者的例子是对于产妇进行电子胎儿监测试验对照以月份交替（一个月放开检查，另一个月限制检查）[20]。

表1.1临床证据的分级：

美国预防服务工作组（USPreventiveTaskForce）评估系统

证据质量

I级证据

来自至少一个设计良好的随机对照临床试验中获得的证据；

II-1级证据

来自设计良好的非随机对照试验中获得的证据；

II-2级证据

来自设计良好的队列研究或病例对照研究（最好是多中心研究）的证据；

II-3级证据

来自多个时间序列的带有或不带有干预的研究得出的证据。

重要的非对照试验（例如19世纪40年代青霉素的引入）的结果有时也可作为这一等级的证据；

III级证据

来自临床经验、描述性研究或专家委员会报告的权威意见。

推荐强度

A级推荐

良好的科学证据支持该干预行为。

B级推荐

尚可的证据支持该干预行为。

C级推荐

没有足够的依据推荐或反对该干预行为，但在其他场合可能会推荐。

D级推荐

尚可的科学证据反对该干预行为。

E级推荐

良好的证据反对该干预行为。

对文献中大量存在的[21]观察性研究来说，下一步是确定研究有没有比较或者说对照组。

如果有，研究就称为分析性的。

如果没有，就是描述性研究（见图1.1）。

如果研究是分析性的，需要明确研究的时间方向。

如果研究同时确定暴露和结局，学术上称为横断面研究。

例如，检测心肌梗死男性收治入院时的血清胆固醇和他们的隔壁邻居的血清胆固醇。

这种类型的研究同时提供了人群的瞬时疾病和健康情况。

图1.1临床研究分类的法则

如果研究从一项暴露开始（如口服避孕药），然后随访女性数年来评价其结局（如卵巢癌），它肯定是队列研究。

队列研究可以是同时的，也可以是不同时的。

与其相反的是，如果分析研究从结局（如卵巢癌）开始，回过去寻找暴露因素，如是否应用避孕药，那研究就是病例-对照研究。

没有对照组的研究称为描述性研究。

在其研究等级中，最下端是个案报告[22]。

当报道的患者超过一个时，就成为病例系列报告[23]。

研究可以做什么，什么不能做

研究设计能够回答这个问题吗？

描述性研究位于研究等级的最下端，常常是进入一个医学新领域时首先进行的研究。

调查者进行描述性研究来阐述发病率、自然病程和可能的决定因素[14,16,17]。

这些结果显示多少人在一定时间患该病或发生某种状态，描述疾病和患病者的特征，并产生关于疾病的假设。

这些假设可以通过更严格的研究来评价，如分析性研究或随机对照试验。

较早时关于军团病[24]和中毒性休克综合征[25]的报道就是描述性研究的一个例子。

一个重要的告诫（经常被遗忘或故意忽略）是描述性研究没有对照组，不能用来评估因果关系。

只有对照研究（分析性和实验性研究）能够评估可能的因果关系。

横断面研究：

一次快速出击

横断面研究有时又称为频率调查或患病研究[26]，用来检测特定时间疾病的存在与否和一项暴露因素存在与否。

这样，焦点是患病，而不是发病。

因为结局和暴露在同一时间被确定，这两个的时间关系可能不清楚。

如假设横断面研究发现有关节炎的女性比没有关节炎的女性肥胖更常见。

是增加的体重负担导致关节炎还是有关节炎的女性不知不觉的不活动然后出现肥胖呢？

这种问题在横断面研究中是无法回答的。

队列研究：

时间上向前看

队列研究是一个有逻辑性的过程：

从暴露到结局（见图1.2）。

因此，这种类型的研究比病例-对照研究更容易理解。

调查者确定一组暴露于感兴趣的因素的人群和一组或多组不暴露的人群，然后及时随访暴露组和不暴露组来确定结局。

如果暴露人群比不暴露人群有较高的发生率，那么暴露因素与该结局的高危险相关。

队列研究有其优缺点，因为暴露因素在一开始就确定，可以假设暴露因素比结局早发生，就不必像病例-对照研究中考虑回忆偏倚。

队列研究可以计算真正的发病率、相对危险度和归因危险度。

但对于罕见事件或需要很多年才发病的疾病，这种类型的研究需要很长时间才有结果，因此费用非常高。

但是，几个著名的大型的队列研究[27-30]持续的产生重要信息。

病例-对照研究：

回头看的思考

病例-对照研究是追溯性研究。

临床医生不是直觉的这样思考，因此病例-对照研究常常被误解。

这种类型的研究从结局例如疾病开始着手，从时间上向后看，寻找引起该结局的暴露因素。

像图1.2所示，研究者定义一组有一种结局（如卵巢癌）的人群和一组没有该结局的人群（对照），然后通过调查表、面谈或者其他方式确定两组人群某一危险因素的暴露情况（如口服避孕药、促排卵药物）。

如果暴露因素在病例中的发生高于对照组，暴露因素与该结局的危险上升有关。

队列研究

暴露结局

病例-对照研究

暴露结局

横断面研究

暴露

结局

时间

图1.2三种研究设计的时间方向示意图

病例-对照研究对罕见的或需要长时间发生的结局特别有用，例如心血管疾病和癌症。

这些研究花费的时间、精力和财力常常比队列研究少。

病例-对照研究的致命弱点是选择合适的对照组比较困难。

除了研究的结局外，对照应该是在其他所有重要的方面都与病例类似。

不合适的对照破坏了很多病例-对照研究，并产生错误的结果。

而且，回忆偏倚（病例比对照对暴露因素的回忆更好）始终是依靠记忆的研究的难题。

因为病例-对照研究缺乏分母，调查者不能计算发病率、相对危险度以及归因危险度。

相反，可以用比值比评价其相关性。

当结局是不常见的时候（如绝大多数癌症），比值比可以很好的代表真正的相对危险度。

食物造成的疾病的爆发是病例-对照研究的典型。

在游船上，处于危险的整体是知道的，呕吐腹泻的患者和没有生病的人都会被问及食物因素。

如果生病的人中吃某一种食物的比例高于未生病的人，这种食物就可疑了。

在这种情况下，船上德国番茄色拉与耐药的志贺氏菌感染的严重爆发就联系起来了[31]。

非随机试验：

排位倒数第二的设计？

有些实验性研究不是随机将参加者分到暴露组中的（如治疗或预防策略研究）。

和真正的随机技术不同的是，研究者常常用不够标准的方法（如交替设计）[20]。

美国预防服务工作组[9]和加拿大定期体检工作组[32]指定这种研究设计为Ⅱ-1类，指出这种设计不如随机试验有科学强度，但比其他分析性研究好（见表1.1）。

在研究者将参加者分配到各治疗组中后，非随机试验就像队列研究一样实施和分析。

暴露和未暴露的人随访一段时间以确定结局发生的频率。

非随机试验的优点包括同时存在的对照组和两组确认结局的一致性。

但是，可能存在选择偏倚。

随机对照试验：

金标准

随机对照试验是临床研究中避免选择偏倚和混杂因素的唯一方法。

这种设计与基础科研中的对照实验相近，除了将参加者随机分配到暴露组中这一重要区别以外（见图1.2），在有些方面类似于队列研究。

随机对照试验的标志是参加者分配到暴露因素中纯粹是机遇。

随机对照试验降低了确定结局的偏倚的可能性。

只要正确完成，随机分配可以杜绝选择偏倚。

试验有对于结局的统一的诊断标准，而且常常对参与者使用盲法，这样，减少了信息偏倚。

这种研究设计独一无二的优势是消除混杂偏倚，包括已知的和未知的。

而且，这种试验统计学上效率高。

如果正确的设计和完成，随机对照试验有可能避免偏倚，这样对检验轻微的和中等的作用特别有用。

在观察性研究中，偏倚能够轻易的产生小的和中等程度的差异[33]。

随机对照试验也有缺点。

外部有效性就是其中之一。

如果正确的实施，随机对照试验有内部有效性（它按计划进行了检测），但可能没有外部有效性。

这一术语表示结果可以推广到更大区域的程度。

和观察性研究不同的是，随机对照试验那样只纳入通过筛查程序的志愿者。

志愿参加试验的人与其他人有差异，比如，他们的健康状况可能比较好[34]。

另一个限制是随机对照试验中有些情况下是不适用的，因为故意暴露于危险状态（如毒素、细菌或其它有害因素）是不道德的。

和队列研究一样，随机对照试验费用相当贵，大型的试验的花费确实可以达到上千万美元。

结局的测量

令人困惑的术语

确定结局并进行量化是研究的一项内容。

然而，模棱两可的术语学对研究者和读者来说常常把事情搞复杂了。

例如，“率”这个术语（如产妇死亡率）几十年来在教科书和杂志文章中常常被误用。

而且，率也常常与比例和比互换[14]。

图1.3显示了一种简单的常见术语的分类方法。

比值

被除数包括除数吗？

否

是

被除数包括时间吗？

是

否

测量方法：

率比例比值

例子：

发病率患病率产妇死亡比值

图1.3鉴别率、比例和比值的方法

比是一个数目除以另一个数目得到的值[26]。

这两个数目可以相关也可以不相干。

这一特点（分子和分母的相关性）将比分为两种：

分母包含分子以及分母不包含分子。

率考量的是人群中事件的频率。

像图1.3所示的那样，率的分子（发生结局的人数）必须包含在分母（有发生结局这一危险的人数）中。

尽管所有的比也有分子和分母，率有两个以资区别的特征：

时间和乘数。

率标示出结局发生的时间以及常以10为基础的乘数，这样来产生整个数目。

例如，发病率表示在特定的时间段中处于危险的人群中新发病例的数目（比如11个病例/100，000人年）。

比例常用作率的同义词，但前者不含有时间成分。

比例和率一样必须分母含有分子[26]。

因为分子和分母的单位相同，他们相除后得到没有维数的数值，一个没有单位的数目。

例如患病比例（每100个处于危险的人中27个患枯草热）。

这一数值表示处于危险的人群中有多少人在特定的时间中处于某种状态（这里是27%）。

因为没有记录某段时间的新发病例，把患病率看作比例而不是率更合适。

尽管所有的率和比例都是比值，反过来则不对。

有些比值的分子没有包含在分母中。

可能最著名的例子是产妇死亡率。

它的定义是死于妊娠相关的病因的妇女为分子，安全生产的母亲（常常用100，000）为分母。

然而，不是所有的分子都包含在分母中（比如，死于异位妊娠的妇女不可能被包含在安全出生的母亲中）。

这样，这一常用的使用不当的词语实际上是一个“比”，不是“率”，这一事实近来才受到重视。

关联的衡量：

风险性问题

相对危险度（也称为危险比）[26]是一个有用的比值：

暴露组中发生结局的频率除以非暴露组中结局的频率。

如果结局在两组中的频率是相同的，比值为1.0，表示暴露与结局没有关联。

与之对照的是，如果结局在暴露组中更频繁，比值就大于1.0，提示暴露与危险性增加相关。

相反，如果疾病频率在暴露组中低相对危险度就会小于1.0，提示一种保护性作用。

比值比又称为差额比率或者相对比值[26]，在不同的环境中有不同的意思，这是病例-对照研究中常用的衡量关联的方法。

它显示在病例组中暴露的可能性除以对照组中暴露的可能性。

如果病例组和对照组暴露的可能性相等，比值比为1.0，提示没有意义。

如果病例组暴露的可能性高于对照组，比值就高于1.0，提示暴露与危险性增高有关。

与之类似的是，比值比低于1.0提示保护性作用。

横断面研究、队列研究和随机对照研究中也可以计算比值比。

这里，疾病比值比是暴露组中发生疾病的可能性除以非暴露组中发生疾病的可能性。

在这种情况下，如果在荟萃分析中汇集研究的时候，比值比就有一些吸引人的统计学特点，但当结局发生的比例大于5-10%的时候，比值比不能代表相对危险度（例如，发病率高的时候这一术语没有什么临床关联和意义）[35]。

可信区间反映了研究结果的精确性，提供了一个参数如比例、相对危险度或者比值比的数值范围，表示了含有来自于整个人群的研究样本的真实值的可能性。

尽管95%可信区间是最常用的，其他的如90%可信区间也可以见到（也有人主张采用90%可信区间）[36]。

可信区间越大，结果的精确性越差，反之亦然。

对相对危险度和比值比来说，当95%可信区间不包括1.0时，在常用的0.05水平差别有显著性。

但是，将可信区间的这一特性作为假设检验的内推方法是不合适的。

结论

了解应用了哪种研究设计是思考阅读研究的前提。

临床研究可以分为实验性和观察性研究，实验性研究再进一步分为有无比较组的研究。

只有含有比较组的研究才能评价可能的因果关系，这是一个常被忘记或忽略的事实。

二分结果应该用带有可信区间的关联方法来报道，武断的用0.05的p值来检验无效假设是没有医学基础的，也不应该鼓励。

展开阅读全文