GRADE指南导论GRADE证据概要表和结果总结表.docx

资源描述

GRADE指南导论GRADE证据概要表和结果总结表.docx

《GRADE指南导论GRADE证据概要表和结果总结表.docx》由会员分享，可在线阅读，更多相关《GRADE指南导论GRADE证据概要表和结果总结表.docx（9页珍藏版）》请在冰豆网上搜索。

GRADE指南导论GRADE证据概要表和结果总结表.docx

GRADE指南导论GRADE证据概要表和结果总结表

•论著方法学研究2011,11（4）:

437445中国循证医学杂志～GRADE指南：

Ⅰ.导论——GRADE证据概要表和结果总结表△GRADEGuidelines:

1.IntroductiontoGRADEEvidenceProfiles△andSummaryofFindingsTablesGordonGuyatt，AndrewD.Oxman，ElieAkl，ReginaKunz，GunnVist，JanBrozek，SusanNorris，YngveFalck-Ytter，PaulGlasziou，HansdeBeer，RomanJaeschke，DavidRind，JoergMeerpohl，PhilippDahm，HolgerJ.Schünemann，代表GRADE工作组*摘要本文是GRADE（GradingofRecommendationsAssessment，Development，andEvaluation）系列文章的导论。

该系列文章为使用GRADE系统提供指导，介绍如何将该系统用于系统评价、卫生技术评估（HTAs）及临床实践指南中备选方案的证据质量评价和推荐强度评级。

GRADE方法始于提出一个明晰的问题，包括对所有重要结果的详细说明。

证据被收集和汇总后，GRADE提供了明确的标准来评价其质量，包括研究设计、偏倚风险、不精确性、不一致性、间接性及效应量大小。

根据支撑证据质量及备选方案带来的预期和非预期结果间的平衡情况，推荐强度以强/弱（或表述为“有条件的”/“任意的”）作为特征。

GRADE建议用简洁、透明、信息量丰富的结果总结表来汇总证据（以显示证据质量及每一重要结果的相对效应量和绝对效应量），和（或）以证据概要表形式额外提供证据质量评价理由的详细信息。

本系列的后续文章涉及如何采用GRADE方法明确构建问题、评价证据质量及形成推荐意见。

关键词GRADE；系统评价；临床实践指南；卫生技术评估；证据质量；推荐强度荐意见的GRADE过程，并展示GRADE证据总结要点的最终结果：

证据概要表（evidenceprofile，EP）和•GRADE为卫生保健的系统评价及推荐意见提结果总结表（thesummaryoffindingstable，SoFsta-供了一种总结证据并呈现结果的透明化结构化ble）。

此外，我们还将给出对GRADE局限性的看法，方法，包括证据质量。

提出我们关于本系列文章的计划。

•GRADE为指南制定者提供了综合透明的框架2什么是GRADE?

来实施形成推荐意见的各相关步骤。

•不论证据质量好坏，使用GRADE方法都恰当GRADE为系统评价和指南提供了一个证据质且有帮助。

量评价的体系，同时为指南中的推荐强度评级提供•尽管GRADE系统以一种系统透明的方式判断了一种系统方法。

该体系是为用以检测备选管理策证据质量及推荐强度，但仍不排除对不可避免略或干预措施的系统评价和指南而设计，而这些备的主观判断的需要。

选策略或干预措施可能没有任何干预，也可能有当前最佳管理方案。

开发GRADE时，我们考虑了广1引言泛的临床问题，包括诊断、筛检、预防及治疗。

本系列文章的大多数例子均为临床实例，但同样可用于作为介绍用于证据质量评价及推荐强度评级的GRADE（GradingofRecommendationsAssessment，公共卫生和卫生体系方面的问题。

GRADE远非仅是一种评级系统，它为卫生保Development，andEvaluation）方法系列文章的第健领域的系统评价和指南总结证据，并呈现其结果一篇，我们将简要概述什么是GRADE以及形成推及实施形成推荐意见的各个步骤，提供了一种透△原文见JClinEpidemiol.2011,64（4）:

383-943明的结构化方法。

GRADE详细说明了用一种方法*GRADE系统由GRADE工作组开发。

所列作者撰写并修订了该文来构建问题，选择感兴趣的结局指标并评定其重要章。

在JournalofClinicalEpidemiology的网站上有该系列文章所有贡性，评价证据，并将证据与对患者和社会两者的价献者的名录。

MethodologyChinJEvid-basedMed2011,11（4）:

437-445值观和偏好的考虑相结合，以形成最终推荐意见，其中，无阴影的框是系统评价和指南制定通用的步还为临床医生和患者在临床实践中使用推荐意见，骤，有阴影的框专门针对指南。

先从定义问题开始，以及为决策者制定卫生政策时应用该系统提供指包括人群、备选方案（干预措施，可以是试验性的导。

或作为对照的，也可以是标准治疗方案）及患者的。

对于指南，还需通常，对指南的定义是“系统制定出来的文本，所有重要结局（此例中是4种）[12]将结局分为关键性的（图中的两项结局）或重要但用以支持执业者及患者在特定临床环境下对某卫生。

本系列文章将全面不是关键性的（2项结局）两类。

系统检索纳入相关保健问题作出恰当的决策”[1]描述制定指南及其它类似指导性文件时所采用的研究（本图展示纳入了5项这样的研究）。

GRADE综合方法。

系统评价或指南作者利用一系列合格的单个研GRADE方法的最佳应用有赖于就备选方案对究的数据得出每一患者重要结局的一个最佳效应患者所有重要结局的影响进行系统评价。

将来，随估计值及该估计值的不确定性指标（通常为可信区着专业学会（如美国医师学会）、国家指南制定与卫间，CI）。

生技术评估机构（如英国国家卫生与临床卓越研究5GRADE步骤——证据质量评级所）、出版商（如BMJ）、出版物（如UpToDate）及国GRADE方法中，随机对照试验（RCTs）开始被际组织（如世界卫生组织、Cochrane协作网）集成资定为支持干预效果估计的高质量证据，观察性研究源，高质量证据总结将变得越来越可及。

因此，生产定为低质量证据，五种因素可导致证据质量下降，当地所需推荐意见的指南制定专家组仅依靠有限资三种因素则可提升证据质量（图2）。

最终，每一结。

源，也可用GRADE方法制定出高质量的指南[2]局相应的证据质量归属于从高到极低的四类之一。

3本系列文章的目的卫生保健问题（PICO）GRADE系列文章对以下三类人群最有用：

一系统评价是系统评价作者，二是卫生技术评估小组，三是指南制定者。

对系统评价和指南，GRADE建议评价研究研究1研究2研究3研究4研究5其证据质量的方法有所不同。

根据指派给他们的任务，卫生技术评估小组可决定采用哪种方法更切合结果结果1结果2结果3结果4其目的。

重要结果关键结果不论相关证据质量高低，GRADE方法均能适形成对每个结果的效应估计用。

因此，所有致力于系统评价和卫生技术评估的人员或指南制定小组成员，都会发现本系列文章有对每个结果进行证据质量分级，横贯各研究益。

系统评价和指南用户及批评者想要更深入地领RCT起始于高级别，观察性研究起始于低级别会所用证据及推荐意见，同样会发现本系列文章的升高级别：

降低级别：

.研究局限.效应量大用处。

.不精确.剂量反应.结果不一致.混杂因素使效应降到最低本系列文章将在系统评价和指南制定的全过程.间接证据中提供“怎样做”的指导，并利用实例解释相关概.可能的发表偏倚念。

我们不会从宽泛的GRADE概述开始，而是假每个结果最终以高、中、低或极低分级定读者们都已熟悉这些基本知识。

对这些基本知识证据总体质量评级。

不熟悉的读者，可从阅读该方法的简要概述着手[3]（关键结果中的最低质量）希望对GRADE整体有更详细了解的读者，可先细。

最读之前发表的有关GRADE方法的所有文章[4-9]决定推荐的方向（支持/反对）及分级强度（强/弱），考虑：

*后，本系列文章的补充资料包括GRADE计算机软.证据质量及所附的帮助文件，该文件件（GRADEpro）[10][11].利弊结果的平衡.价值观与偏好有助于证据概要表和结果总结表的制作。

决定是否需修订方向或强度，考虑：

.资源使用4GRADE步骤——定义问题、收集证据图1形成推荐的GRADE过程原理图*也称为“有条件的”或“任意的”；RCT：

随机对照试验制定推荐意见的GRADE步骤示意图见图1。

•论著方法学研究2011,11（4）:

437445中国循证医学杂志～系统评价和指南作者用这种方法来评价所有研系统评价和严格基于证据报告的卫生技术评估究的每个结局指标的证据质量（即证据群的质量），的最后一步是证据总结，即对每一结局的质量分级但并不意味着将每个研究作为单个单位进行评价。

及效应量估计。

就指南制定者及为决策者提供建议相反，GRADE“以结果为中心”对每一结果作出评的卫生技术评估报告而言，证据总结是通向推荐意价，而单个研究的不同结果间及证据群的不同结果见的关键一步。

GRADE工作组已开发出一套专门方法来呈现间的质量确实不同或可能不同。

可得证据的质量、与质量评级有关的判断及备选方如测量中风发生率和全死因死亡率的一系列非案对所关注结局的影响。

现在我们将总结这些方盲随机对照试验，中风结局很可能因偏倚风险而会法，并称这些方法为GRADE证据概要表和结果总降低评级——对中风的判断更易发生偏倚，而全死结表。

我们采用“倒叙”的方法来组织本系列文章：

因死亡率则不会。

同样，随访丢失病人极少的死亡结先介绍证据总结过程的结论，再详细描述得出最终果及丢失很多的生存质量结果很可能导致对后一结结论之前所需的每一个步骤。

局作出质量更低的判断。

在某一研究内或不同研究间，间接性问题可能会导致对某一结果的质量评价8证据概要表与结果总结表有何区别？

降低而对其他结果的评价不变，如当骨折率用替代证据概要表（见表1）除有结果总结表的内容外结局指标（如骨密度）测量而副作用是直接测量时。

还包含了详细的质量评价，即除有对每个结局的结6GRADE步骤——分级推荐果总结外，还包含了对决定证据质量的每个因素的接下来，指南制定者（而非系统评价员）综合所清晰评价（见图2）。

结果总结表（见表2）包含了对有信息做出最终判定，得出哪些结局是关键性的，每个结局的证据质量评价，但没有该评价所依托的哪些结局是重要（而非关键性）的，然后做出证据详细评判信息。

总体质量级别的最终决策。

证据概要表和结果总结表分别服务于不同的撰写指南（而非系统评价）的作者还要考虑推目的并为不同使用对象而设。

证据概要表提供了系荐的方向及强度。

期待和不期待结果间的平衡及患统评价或指南作者所作判断的每个记录。

它为系统者价值观与偏好等因素决定推荐的方向，再将所有评价作者、结果总结表制作者及那些质疑评价质量这些因素与证据质量相结合来决定推荐的强度。

将的人而准备，有助于结果总结表制作者确保其所作备选方案的资源利用情况纳入考虑后，原来的推荐出的判断系统透明，同时允许其他人来检查那些判方向及强度可能被修正。

断。

指南制定委员会成员应使用证据概要表来确保他们对那些作为质量评价基础的判断达成一致意7GRADE步骤的最后一步见，并建立起记录于结果总结表中的相关判断。

研究设计证据质量降低，假如升高，假如•••效应量大随机试验高偏倚风险–1+1严重大–2+2非常严重非常大•••中不一致性剂量反应–1+1严重梯度证据–2非常严重•所有可能的混杂因素•观察性研究低•+1间接性降低所展示的效应–1严重–2+1非常严重当研究结果显示无效时意味着是一种假•不精确性效应–1严重•极低–2非常严重•发表偏倚–1可能–2非常可能图2质量评价标准CJEBM©2011中国循证医学杂志编辑部•439•

MethodologyChinJEvid-basedMed2011,11（4）:

437-445表1抗生素治疗儿童急性中耳炎的GRADE证据概要表质量评价结果总结病例数绝对危险研究数量及局限性不精发表相对危险度不一致性间接性质量95%CI设计确性偏倚（）危险度差对照组安慰剂组抗生素组*95%CI（）危险度241/605223/624240.90.781.04367/1 000++++无严重无严重无严重不无严重未发现无统计学小时疼痛：

（，）5RCT不精确意义局限一致性间接性高个性303/1 366228/1 4250.720.620.83257/1 00027++++无严重低于无严重无严重不无严重未发现（，）～天疼痛：

72/1 00010RCT不精确局限一致性间接性高个9844性）（，1168/460153/4670.890.751.07350/1 000+++无严重无统计学听力（从个无严重无严重不有严重未发现（，）不精确意义月异常鼓室局限一致性间接性中性图这一替代（因结果4结果推断）：

的间接RCT个性）396/39896/4100.970.761.24234/1 000+++有严重无严重不无严重未发现（，）无统计学听力（从个无严重局限间接性一致性不精确意义中月异常鼓室（因结果性图这一替代3的间接结果推断）：

RCT性）个83/711110/6901.381.091.76113/1 000+++呕吐、腹泻无严重无严重严重不一无严重未发现（，）高于543/1 000个或皮疹：

局限间接性致（因绝不精确中8610RCT对效应不性）（，一致）*对照组率基于各研究对照组的危险中位数；RCT：

随机对照试验；CI：

可信区间；RR：

危险比。

表2抗生素治疗儿童急性中耳炎的结果总结表抗生素与安慰剂比较治疗儿童急性中耳炎病人或人群：

急性中耳炎患儿背景：

高、中收入国家干预：

抗生素对照：

安慰剂危险估计值（95%CI）相对效应受试者人数证据质量*结局指标备注对照危险干预危险GRADE［RR（95%CI）］（研究数）（）（安慰剂）（抗生素）（每千人）（每千人）367330（286-382）24小时疼痛0.9（0.781.04）1229（5）++++–，高257185（159-213）2～7天疼痛0.72（0.620.83）2791（10）++++–，高350311（262-375）0.89（0.751.07）927（4）+++–听力（从1个月异常鼓室，#图这一替代结果推断）中234227（178-290）0.97（0.761.24）808（3）+++听力（从3个月异常鼓室，#图这一替代结果推断）中113156（123-199）1.38（1.091.76）1401（5）+++呕吐、腹泻或皮疹，理想情况下，来自相同年龄及药△中物剂量的中耳炎试验（未获得）的证据可能提高证据质量CI：

可信区间，RR：

危险比*对照危险基于各研究对照组的危险中位数。

干预危险（及其95%CI）基于对照组中的对照危险及干预的相对效应（及其95%CI）；#因结果来自替代指标，为间接结果△通常，GRADE标准会因相对效应的不一致性（此例中不存在）而降低证据级别，而此处的不一致是因绝对效应区间变动过大（介于1%～56%之间）。

下列因素解释了为何决定降低评级：

抗生素间存在的可能变异以及绝大多数不良事件来源于某单个试验。

考虑来源于探讨儿童使用抗生素的其他试验（未开展）的间接证据将可能进一步为该问题提供信息。

结果总结表针对的对象更广，包括系统评价及息的简明总结，对指南而言，则提供了推荐意见所指南的终端用户。

它为决策者提供了其所需关键信基于关键信息的总结。

•论著方法学研究2011,11（4）:

437445中国循证医学杂志～据概要表和结果总结表的制作过程更容易。

境地所突显的两个主题将重复地贯穿于本系列文章[10]中。

首先，对评价证据时所需的很多结论性判断而9一个推荐意见可能需要不止一个系统评价言，合格评价员之间意见不一致很常见。

GRADE图1说明了必须针对每一患者重要结局进行证允许争论存在，决策者可以就相关问题作出自己的据总结——最理想地，这种总结应来源于制作最判断。

规范的系统评价。

每对方案的比较都应将所有结局第二，GRADE要求系统评价作者和指南制定呈现于一个证据概要表或结果总结表里。

与某卫生者考虑用若干分级来评价证据质量，且基于每一分保健问题相关的所有研究很可能不能提供关于每一级，下降或上调证据等级（见图2）。

但若严格按照结果的证据。

如图1显示，第一个研究为第一和第这种方法实施则会忽略了这样的事实，即质量实际二个结果提供了证据，第二个研究为前三个结果提上是连续的，且各分级局限性的叠加最终将促使降供了证据等。

确实，为某一结果提供证据及为另一低质量评级。

最后，GRADE要求那些决定将质量级结果提供证据的不同研究间可能不会有重叠。

如，别降低一级的作者指出最能影响其决定的某一原因RCT可能提供效益方面的证据，观察性研究则可能分类（本案例中即为绝对效应的不一致性），同时记提供罕见、严重不良反应方面的证据。

录好（见上一段落及表1、表2的注释）所有可能导由于大多数已有系统评价未能充分探讨所有相致降低质量评级的因素。

关结果（如很多仅限于RCT），GRADE过程可能需这些陈述及证据概要表（见表1）与结果总结表要基于不止一个系统评价。

理想地，今后的系统评2）阐释了另一要点：

尽管我们推荐基于预试、（见表价将对某一相关问题的所有重要结果进行广泛的证的这种标准格式，对不同对用户测试及评价[13-16]据总结。

象，其他格式可能更合适。

确实，本文中我们所提供的证据概要表和结果总结表中，栏目顺序和绝对10某单个系统评价可能需要不止一个结果风险表述有所不同。

总结表我们将在随后的文章中继续介绍这些表格不同系统评价往往不止于着眼于一对比较，可能需格式的实例。

对证据概要表和结果总结表，需要权在两个完全不同的人群间评估某一干预，或评估不衡一贯性原则与变通性之间的关系。

一贯性可使其止一种干预的效果。

这类系统评价可能需要不止一使用更容易，而变通性可针对特定读者或证据的某个结果总结表。

如一个流感疫苗的系统评价，它可能些特性，如省略一些质量评价条目列，或以不同方在不同人群中评价预防接种效果（如社区居民和机式展示结果。

此外，关注连续性变量及那些探讨诊构养老的老年患者），或评价不同种类疫苗的效果。

断性问题的证据概要表和结果总结表可能要求不同的格式。

最后，迄今为止实施的用户测试有限，进11证据概要表的例子一步的测试可能得出不同的结果。

表1给出了一个高、中收入国家中耳炎患儿使总之，我们建议一些条目应该包括在所有的证用抗生素利弊的GRADE证据概要表的实例。

该表据总结里。

如所有证据概要表应有一行来描述每一中最难作出的是关于抗生素不良反应证据质量的评患者重要结局。

典型地，每行应包含下列各栏：

研判。

从相对性指标来看，各试验显示的不良反应增究个数与研究对象数、研究设计（随机试验或观察加相当一致，但各试验不良反应率却相差甚远（从性研究）、决定证据质量的相关因素（见图2）、对该1%到56%）。

而从这些试验以外的证据看，我们知结局的总体质量评价（高、中、低或极低）及对干预道不同药物的不良反应有差异（阿莫西林比青霉素相对和绝对效应的估计。

的不良反应多）。

此外，使不良反应率增加的大多12结果总结表（SoFs表）的例子数事件均来自某单个试验，且其在所有纳入试验中偏倚风险最高。

研究者发现，理想状态下他们可从表2展示的是结果总结表，该表以我们基于预那些所使用药物剂量及患者年龄都相似的非中耳炎试、用户测试及评价而推荐的格式制作。

结[10,12,13]试验中总结不良反应。

最后，基于绝对效应不一致果总结表和证据概要表中术语的解释见附录。

的情况，研究者决定将质量等级从高（开始将其定除省略了质量评价的细节描述而增加了评论为高级是因为证据来自随机试验）降到中等级别。

一栏外，SoFs表所呈现的信息与完整的证据概要表研究者在评价不良反应证据质量时面临的两难所提供的相同。

MethodologyChinJEvid-basedMed2011,11（4）:

437-445性——最重要者放第一栏，次重要者随后。

除栏目对此类推荐的一些解释可能导致低效甚或适得其反顺序不同外，SoFs表（见表2）还描述了干预组和对的行为。

只有当推荐意见具体且可行时指南专家委照组的绝对风险，且提供了干预组率的可信区间，员会才应发布。

而证据概要表（表1）则描述了率差及其可信区间。

可能有用但不需评级的推荐通常属于下面的一此外，对绝对风险差异无统计学意义的结果（如由类：

其有利影响非常明显地大于其不利影响以致找替代结果鼓室图检查推断的听力），证据概要表仅不到直接证据，因为没有人会愚蠢到去开展针对此标注了其结果无统计学意义，而SoFs表则提供了类隐含临床问题的研究。

通常，这类推荐由大量间干预事件率的可信区间。

接证据支持，但要梳理清这一间接证据的性质将是SoFs表所建议的格式体现了简洁性（让广大读有挑战性且费时费力的。

认识此类问题的方法之一者尽可能容易地理解相关信息）与完整性（使信息是，如明晰地作出另一种推荐则看起来会很奇怪或及蕴含的判断尽可能透明）的平衡。

使用这种格式可笑。

时，仍须判断需呈现哪些信息（如哪些结局和哪一程序意识可能已牢固地植根于标准临床实践级风险）及如何表达这些信息（如如何表述连续性中，实际上公正地看，利弊结果间的平衡仍存在合结果）。

如我们曾指出的，虽然我们鼓励使用这种理的质疑，但指南专家委员会仍倾向于将其看作是或类似格式，准备SoFs表的人应考虑他们的目标良好实践推荐。

这类推荐应经历正式的证据质量评读者和蕴含证据的特征来决定采用哪种最佳格式。

价及推荐强度评级。

无用的良好实践推荐、有用的GRADEpro软件的升级版将为证据概要表和SoFs良好实践推荐，及那些可能与良好实践推荐相混淆。

表的制作增加一些附加选项来体现这一灵活性但需要证据质量评价和推荐强度评级的推荐的实例[10]见表3。

13GRADE修订版第三，如图3所示，指南制定需多个步骤，在一些组织已经在使用GRADE修订版。

我们不这些步骤之前及之后GRADE系统均适用。

对系统推荐这类修订版本，因为GRADE各步骤间环环相评价作者和指南制定者而言，重要的是明白指南制扣，修订会让一些使用者混淆证据总结与指南。

此定全过程中哪些地方应加入GRADE，及到其他地外，这些修订会影响临床医生、决策者和患者熟悉。

我们将在随后的方寻找其他步骤的相关指南[17,18]GRADE单个系统的目标。

文章中，就如何将GRADE系统最佳地应用于那些其他步骤之间提供我们的观点。

14GRADE的局限性第四，迄今，绝大多数有关GRADE的经验都欲使用GRADE者应考虑该系统的5个重要局是预防及治疗性干预的评价，讨论的是临床问题而限。

首先，如前所述，GRADE是为解决有关备选管非公共卫生和卫生体系方面的问题。

欲将GRADE理策略、干预措施或政策法规的问题而开发，不是应用到诊断性试验、公共卫生或卫生体系方面的问为风险或预后问题而设计，尽管风险或预后相关证。

我们将在随后的题将会遇到一些特殊的挑战[8,19]据可能与干预措施效应量大小的估计有关，或可能文章中论及这些挑战，尤其是与诊断性试验有关为连接替代结果与患者重要结果提供间接证据。

者。

深知GRADE方法的完善及不确定性领域问题其次，试图将GRADE用于定义不清楚的一类的处理仍留有

展开阅读全文