英国医学杂志之论文写作.docx
《英国医学杂志之论文写作.docx》由会员分享,可在线阅读,更多相关《英国医学杂志之论文写作.docx(49页珍藏版)》请在冰豆网上搜索。
英国医学杂志之论文写作
英国医学杂志中文版
BMJCHINESEEDITION
(之论文写作)
科学论文的讨论需要结构化
与结构式摘要相似
Thecaseforstructuringthediscussionofscientificpapers
Muchthesameasthatforstructuringabstracts
MichaelDochertyProfessorofrheumatology
CityHospital,NottinghamNG51PB
RichardSmithEditor,BMJ
在写作中,结构安排最难,写小说、剧本、诗歌、政府报告或科学论文,莫不如此。
如果结构恰到好处,其它就容易多了;而且,无论哪一种精巧的语言都掩饰不了结构上的缺陷。
结构的重要性在于读者不会迷失方向。
读者该知道从何起,到何处,再去何方。
好结构使读者得益,知道从何处获取特殊信息,并能吸纳全部重要信息。
医学刊物的读者对论文的IMRaD结构(引言、方法、结果和讨论;Introduction,Methods,ResultsandDiscussion)1相当稔熟,自觉或不自觉地都知道每部分的作用。
同样,读者也已熟悉结构式摘要,它所含的信息比非结构式摘要多2,3。
有些刊物要求特殊论文使用特殊结构,如报告随机试验(randomisedtrials)的论文使用CONSORT结构4。
现在我们提议,科学论文的讨论部分也要结构化,因为它经常是论文最薄弱之处,仔细地解释而成为喋喋不休5。
老式论文往往缺少新的数据资料(可能包括病例报告),讨论却洋洋洒洒。
讨论的作用似乎是让读者相信,作者对数据的阐述及推测的正确。
这不是对证据的公正检验。
时代变了,人们更重视方法和结果,因为方法愈加复杂,更具科学价值。
但是,我们仍然发现许多论文的讨论似乎是在“推销”自已。
Lancet主编RichardHorton和一些人士曾撰文谈及作者如何在论文的讨论中玩弄辞藻6,7。
有些作者的讨论文字拉杂,无小标题;重一般,轻特殊;叙述臃肿,扬长藏拙,结果择要,反复唠叨,夸大发现的重要性和普遍性,导致偏差。
不顾收集的证据,得出不恰当的结论。
建议科学论文讨论部分使用的结构
.陈述主要发现
.本研究的长处和短处
.同其它研究比较的长处和短处;特别要讨论结果中的差别
.研究的意义:
可能的机制和临床医生或决策者的使用前景
.未解答的问题及今后的研究方向
讨论一开始要重新说明主要发现,用一个句子表示较为理想。
接着全面说明本研究的长处和短处,两者不可偏废。
实际上,编辑和读者最注意研究的短处,这是所有医学研究不可避免的。
编辑和读者一旦发现研究的短处,而作者未加讨论,他们对文章的信任会发生动摇,心生疑窦:
是否还有他们和作者都未发现的其它弱点呢?
其次,将该研究与以前的工作联系起来,不炫耀自己的工作比以前的工作如何好,而是比较其优劣。
与其它研究进行对照,切忌将自己的缺陷掩盖起来。
重要的是应该讨论为什么会得出不同于别人的结论,作者可以放开去推测;但是如果弄不清自己的研究结果为什么与别人的结果有差别,就不便作这种推测,也不该断言自已的研究结果正确,而别人的错误。
接着应该讨论自己的研究“表明”什么,如何解释自己的研究发现,以及对临床医生或决策者有什么意义?
此刻,作者的境地是危险的,多数编辑和读者能够理解作者的谨慎,不逾实证界限。
由读者自己去判断研究的意义:
他们是会做到的。
作者甚至可以指出研究结果证明不了什么,防止读者得出过度、不实的结论。
最后,应点明哪些问题尚未解答,以及要继续做的工作。
显然,编辑和读者不喜欢夸大的作法。
事实上,作者对论文的这一部分常常写得乱糟糟的。
虽然无法阻止作者写一篇充满推测的文章,但切不可因推测而毁了证据。
讨论部分有时也许需要别的小标题,但我们以为,现在提出的结构适合大多数研究论文。
尽管统一结构有难度,甚至受限制8,我们相信这种结构会降低总的文字长度,防止不恰当的推测和重复,减少报道偏差,提高报道的总体质量。
这种设想是完全经得起检验的。
我们欢迎BMJ的作者和读者发表观点,如果反映好,我们将使用结构式讨论。
如何阅读医学论文
(一)
把握你的方向——判断论文的实质
Howtoreadapaper
Gettingyourbearings(decidingwhatthepaperisabout)
TrishaGreenhalgh
对“垃圾”论文的认识
当学生们了解到某些(甚至可能是大多数)发表的论文应当扔进垃圾箱,肯定不能用于指导临床实践时1,他们通常感到很惊讶。
本文第一个框图内列出了论文被有审稿程序的杂志退稿的某些常见原因。
目前医学杂志上发表的论文大多数都或多或少按标准的IMRAD格式撰写:
即前言(作者为什么决定进行这项研究)、方法(作者如何进行这项研究,怎样分析所得到的结果)、结果(作者发现了什么)及讨论(得到的结果有什么意义)。
如果你要判断一篇论文是否值得阅读,你应该审查这篇论文方法学部分的科研设计,而不是审查该研究假设的重要性、研究结果的可能影响或讨论的深入程度。
严格评价
许多循证医学的教科书2-6和JAMA杂志上发表的Sackett及其同事撰写的医学文献使用指南7-21,都详细介绍过对科研方法的质量进行评价(严格评价)的方法。
如果你是一名有经验的杂志读者,这些作者提供的结构式审查单绝大部分具有自明性。
如果你不是这样,则请试着回答下列基本的问题。
本文要点
医学杂志发表的许多论文在方法学方面有潜在的严重缺陷
当判断某篇论文是否有效并与临床实践有关时,首先确定该论文阐述了什么临床问题
阐述有关药物治疗或其它医疗干预措施问题时,应该采用双盲随机对照临床试验
阐述有关预后问题时,需要纵断面的队列研究;阐述有关病因方面的问题时,需要
队列研究或病例-对照研究
病例报告尽管在方法学方面不够严格,但可以很快完成,并可以提醒医生注意药物的不良反应
问题1:
为什么进行这项研究,作者阐述了什么临床问题?
一篇科研论文的前言部分应当简明扼要地说明这项研究的背景。
例如,“Grommet插入术对儿童是一种常用的操作,因而有人认为并非所有的手术在临床上都有必要”。
在这个说明之后应该接着对已发表的文献做一简要的回顾。
论文为什么被拒绝发表
。
研究没有阐述重要的科学课题
。
研究不是原始性的(其他人已经作了同样或类似的研究)
。
研究并没有真正检验作者所提出的假设
。
应该进行另一种类型的研究
。
执行困难(例如,筛选研究对象),使得作者改变原先的研究方案
。
样本量太少
。
研究没有设对照组或对照不充分
。
统计学分析方法错误或不恰当
。
作者从研究资料中得出的结论不正确
。
有明显的利益冲突(作者之一或赞助者可能通过发表这篇文章获得经济利益),
并且没有充分的证据证明没有偏倚
。
论文写作水平太差,不能被理解
作者应在文章的前言中明确说明要进行检验的假设,否则应该在方法学部分明确说明。
如果假设是以否定的方式表示的,如“在最大剂量的碘酰脲治疗中加入二甲双胍不能提高对Ⅱ型糖尿病的控制”,则被称为无效假设。
当一项研究的作者开始进行研究时,他们很少真的相信他们的无效假设。
作为普通人,他们通常开始去揭示所研究的两个方面之间的差异。
但科学家采用的方式是,“让我们假设没有差异,然后努力去否定这个理论”。
如果你遵循KarlPopper的教导,这种假设-推导的方法(建立无效假设,然后进行检验)是科研方法的最基本的要素22。
问题2:
进行的是什么类型的研究?
首先,确定这篇论文是描述一项原始研究,还是一项第二手(或综合性)研究。
原始研究报道第一手的研究资料,而第二手研究是对第一手研究进行汇总并从中得出结论。
医学杂志所发表的绝大多数研究为原始研究,通常可分别归入以下3类:
。
实验:
在实验中,实验措施是在模拟和控制的环境中在动物或志愿者身上进行;
。
临床试验:
在临床试验中,首先对一组病人给予干预措施,例如药物治疗,然后对这组病人进行随访,观察他们发生了什么情况;
。
调查:
在调查中,研究人员在一组病人、医务工作者或其他某些人群样本中进行某些检测。
本文第2个方框显示了用于描述研究设计的一些常用术语。
第二手研究包括:
。
综述,可以分为:
(非系统性)综述:
总结原始研究;
系统性综述:
按一种预先确定的严格的方法对原始研究进行总结;
汇总分析:
对一个以上的研究的数据资料进行综合。
。
指南:
从原始研究中得出临床医生应如何操作的结论。
。
决策分析:
应用原始研究的结果建立概率的树状结构,供医务工作者和病人对临床治疗作选择24-26。
。
经济分析:
应用原始研究的结果确定某一项治疗措施对资源的应用是否合理。
用于描述临床研究设计特征的术语
组间平行比较——每一组接受一种不同的治疗,两组同时开始进行研究;所得结果用两组比较进行分析
配对比较——接受不同治疗的研究对象被进行配对以平衡潜在的混杂因子,如年龄和性别;所得结果用研究对象配对之间的差异进行分析
研究对象自身比较——在治疗前和治疗后对研究对象进行检查,所得结果用研究对象自身的变化进行分析
单盲——研究对象不知道他们接受了哪种治疗
双盲——研究对象不知道他们接受了哪种治疗,研究者也不知道
交叉——每一个研究对象都接受干预和对照治疗(顺序采用随机方法),其间经常用无治疗的空白期分隔
安慰剂对照——对照组研究对象接受安慰剂(无效药片),安慰剂在外观和味道上应该与有效药片一样。
安慰(假)手术也可用于外科临床试验
因子设计——这种研究可以允许按照预定结果对一种以上各自独立的变量的作用(无论是分离的还是联合的)进行研究。
例如,2×2因子设计可以检验安慰剂、单独阿司匹林、单独链激酶或阿司匹林加链激酶在急性心脏病发作中的作用23
问题3:
科研设计是否适合于这项研究?
对这个问题最佳的阐述方法是考虑这项研究涉及到哪个大概的科研领域。
绝大多数研究都是有关下面方框中的一个或多个大概的领域。
大概的科研领域
。
治疗:
检验药物治疗、外科手术、其它医疗服务方式或其它干预措施的效果。
首选的研究设计是随机对照临床试验
。
诊断:
证实某一新的诊断性实验是否有效(我们能否相信它),是否可靠(我们是否每次都能得到相同的结果)。
首选的研究设计是横断面调查。
在横断面调查中,研究对象要接受新的检验方法和金标准方法的检查
。
筛选:
证实能够用于大规模人群检验并在症状发生前期检查出疾病的检查方法的价值。
首选的研究设计是横断面调查
。
预后:
确定早期发现的患有某种疾病的病人可能发生什么情况。
首选的研究设计是纵断面队列研究
。
病因:
确定某种假定有害的物质,如环境污染,是否与疾病的发生有关。
首选的研究设计是队列研究或病例-对照研究,取决于这种疾病的罕见程度,但是,病例报告也能提供关键的信息
随机对照临床试验
在随机对照临床试验中,参加者是按照一种程序(类似于投掷硬币)被随机分配到干预组(如药物)或另一组(如安慰剂治疗或另一种不同的药物)。
两组都被随访一个特定的时期,并按开始时所确定的研究结果(死亡、心脏病发作、血清胆固醇水平等)进行分析。
一般而言,除了治疗措施外,两组都是相同的。
因此,从理论上说,研究结果的任何差异都归因于治疗措施。
有一些比较治疗组和对照组的临床试验并非随机试验。
随机分配在这些试验中或许是不可能、不现实的或是不道德的——例如,比较婴儿在家中出生和医院中出生的结果。
更常见的是,缺乏经验的研究者比较一组(如病房A中的病人)和另一组(如病房B中的病人)。
应用这样的设计,根本不可能在统计学的水平上对两组间进行合理的比较。
回答诸如下列问题应该用随机对照临床试验:
。
对某一特定的疾病,所研究的这种药物是否比安慰剂或另一种药物效果好?
。
对某一特定的疾病,宣传页是否比口头建议能更好地帮助病人对治疗方法作出明智的选择。
但应该记住,随机试验有一些缺点(见框图)27。
还应该记住,随机试验的结果在适用性方面有所限制,这是因为排除标准(确定哪些病人不应该进入研究的原则)的偏倚;纳入标准的偏倚(从不能代表这种疾病的某一人群中选择研究对象);拒绝给予某些组群的病人知情同意的机会以便纳入该研究28;仅仅分析预先确定的“客观”的终点结果,而可能排除了干预措施质量的重要方面;以及发表偏倚(选择性发表阳性结果的研究论文)29。
目前,医学杂志报道随机对照临床试验有一个推荐格式30,如果你在撰写这方面的论文,应该尽力遵循它的要求。
随机对照临床试验设计
优点
。
允许在一个精确选定的病人组群中(如50~60岁的绝经妇女),对某一单独的变量(如药物治疗与安慰剂的效果对比)进行严格的评价
。
前瞻性设计(资料来自开始研究以后发生的病例)
。
应用假设-推导进行推理(寻求否定,而非证实本身的假设)
。
通过比较基线指标相同的两组来消除潜在的偏倚(但请参见下文)
。
允许做汇总分析(在后期对许多相似的临床试验的数字结果联合分析)
缺点
昂贵并且耗时,因此,在实践中:
。
许多随机对照临床试验,或者从未作过,或者研究的病人太少,或者进行的研究时间太短
。
绝大多数随机对照临床试验是由大研究机构(大学或政府主办)或药厂提供资助,最终由这些单位来确定研究日程
。
经常使用替代的终点指标而非临床测量结果,可导致“潜在的偏倚”,尤其是:
。
随机化不理想(见上述)
。
没有对所有合格的病人进行随机化分配(临床医生在临床试验中只让那些他们认为可能对干预措施反应好的病人参加)
。
未由资料评价人员将病人的随机化状况进行盲法分析
队列研究
在队列研究中,根据暴露于某种特定物质(如一种疫苗、一种药物或一种环境毒素)的不同,选择两组(或更多组)人群,然后随访,观察每一组有多少人发生了某一种特定的疾病或其它后果。
在队列研究中随访的时间通常以年(有时10年)来计算,因为许多疾病,尤其是癌症发病需要这样长的时间。
值得注意的是,随机对照临床试验通常是从已经患有某种疾病的病人开始研究,但绝大多数队列研究是从研究对象开始,这些研究对象可能发病,也可能不发病。
有一种特殊类型的队列研究可用于确定疾病的预后(患有疾病的人可能发生什么后果)。
一组已经被诊断为患有某种疾病的早期病人,或在筛选检查中有阳性结果的病人被收集起来(起始队列),然后反复进行随访,以观察不同结果的发病率(每年发生的新病例)和病程。
世界上最著名的队列研究是由AustinBradfordHill爵士、RichardDoll爵士及后来的RichardPeto进行的。
这项研究为最初的两位作者赢得了爵位。
他们随访了40000名英国医生,将他们分为4个队列(非吸烟者、轻度吸烟者、中度吸烟者及重度吸烟者),应用全病因死亡率(任何死亡)和特异病因死亡率(某一种疾病导致的死亡)作为观察结果。
在1964年发表的10年初步报告中,显示吸烟者无论肺癌死亡率还是全病因死亡率都大幅度增加,并且有“剂量-反应”相关关系(吸烟越多,患肺癌的机率越大)。
他们走过了很长的一段路31,最终证实吸烟和健康损害的联系是病因性的,而非偶然性的。
这项重要研究的20年和40年的结果(对那些1951年收集并且没有死亡的研究对象的随访率达到惊人的94%),不仅表明了吸烟的危害性,也表明了从一个执行良好的队列研究中所获得的证据的重要作用32,33。
回答下列临床问题应该用队列研究:
。
高血压随着时间的推移会变好吗?
。
早产儿在以后的生长发育和学习成绩方面会发生什么情况?
病例-对照研究
在病例-对照研究中,患有某种特定疾病的病人被识别并与对照组(患有某些其它疾病的病人、总人口、邻居或亲属)进行“配对”。
然后收集过去暴露于某种疾病的可能致病因子的资料(例如,通过查找这些人的病例记录,或让他们回忆过去的病史)。
同队列研究一样,病例-对照研究通常研究疾病的病因(什么导致了疾病),而非疾病的治疗。
病例-对照研究在证据等级中排位比较靠下(见下文),但这种设计对罕见疾病的研究经常是唯一的选择。
在病例-对照研究中,主要的困难和潜在的偏倚是准确判定谁是“病例”,因为只要将一个研究对象错误分配,就可以严重影响结果。
另外,这种设计不能表明因果关系——病例-对照研究中A与B有关系并不能证明A引起了B。
回答下列临床问题应该用病例-对照研究:
。
俯卧睡眠姿势增加小床死亡(婴儿突然死亡综合征)的危险性吗?
。
百日咳疫苗导致脑损害吗?
。
高架电缆能引起白血病吗?
横断面调查
我们可能都被要求过参加某一项调查,甚至只是有人问我们最喜欢哪种牌子的牙膏。
流行病学家进行的调查与此做法相同:
对某一有代表性的研究对象样本(或病人)进行访问,通过检查或研究以获得对某一特定临床问题的答案。
在横断面研究中,资料是在一个单一的时间内收集的,但可以回顾性地追溯过去的经历,如研究以前的病例记录以调查过去5年中病人的血压被记录过多少次。
横断面调查应该用于回答下列临床问题:
。
3岁儿童的“正常”身高是多少?
。
精神科护士对严重抑郁症患者使用电惊厥疗法有多大信心?
。
有半数糖尿病病人没有被诊断出来,是真的吗?
病例报告
病例报告是以故事的方式描述单独一个病人的病史:
“B夫人是一位54岁的秘书,她于1995年6月开始胸部疼痛…”。
病例报告经常综合到一起形成病例系列。
在病例系列中,一个以上患有某种疾病的病人的病史被加以描述,以阐述这种疾病在某个方面的表现、疾病的治疗,或目前更常见的,阐述对治疗的不良反应。
尽管传统认为这种类型的研究提供的证据是“快速而含混”的,但病例报告可以传递大量的在临床试验或调查中可能丢失的信息34,35。
值得纪念的病例报告范例
一位医生在他的医院里观察到两个新生儿缺少肢体(海豹肢畸形)。
这两位母亲在妊 娠早期都服用过一种新的药物(反应停)。
这位医生希望尽快地提醒所有同行注意这种药物引起损害的可能性。
证据的等级
当对临床干预措施作决策时,根据不同类型的原始研究所具有的相对权重进行标准记数法(“证据的等级”),可将这些研究排成下列顺序36:
(1)系统综述和汇总分析
(2)有明确结果的随机对照临床试验(可信性区间与临床显著性效果的阈值不重叠)
(3)不具有明确结果的随机对照临床试验(估计有临床显著性效果,但可信性区间与临床显著性效果的阈值重叠)
(4)队列研究
(5)病例-对照研究
(6)横断面调查
(7)病例报告
如何阅读医学论文
(二)
报告诊断或筛选试验的论文
Howtoreadapaper
Papersthatreportdiagnosticorscreeningtests
TrishaGreenhalgh
被告席上的10个人
如果你对确诊试验的概念较为陌生,下面这个例子可能会对你有帮助。
有10个人在等待谋杀罪的审判,其中3人真正犯了谋杀罪,其他7人则清白无辜。
陪审团在听完每个人的案情后判其中6人犯有谋杀罪。
而实际上在被判罪的人中只有2人是真正的罪犯,其余4人属于误判,有1个罪犯漏网了。
如上信息可以一种被称作2×2列联表的表格表示(表1)。
表中横行表示“事情真相”(即是否真正犯罪),纵列表示陪审团的判决(反映或不反映事情真相)。
这些典型的数字反映出该陪审团具有如下特征:
该陪审团能正确地辨别出2/3的罪犯;
能正确地识别出3/7的无辜者;
若该陪审团判定某人有罪,则其为真正罪犯的可能是1/3;
若该陪审团判定某人无罪,则其为真正无罪的可能是3/4;
每10个犯罪嫌疑人中该陪审团能判对一半。
这5个特征值分别表明了该陪审团判决的敏感度、特异度、阳性预测值、阴性预测值和审判准确度。
下文即考虑将此5个特征值应用于诊断(或筛选)试验,与一个“真实”诊断或称金标准作比较。
第6个特征值——似然比,则将在本文最后介绍。
本文要点
新的试验应在合适的研究对象群中通过与已确立的金标准进行比较而得到证实
诊断试验极少有100%的准确性(会发生假阳性和假阴性)
一项试验若能检测出多数目标病症患者(高敏感度)并能排除多数非患病者(高特异度),
而且阳性试验结果通常能指示病症的存在(高阳性预测值),则该试验就被证实是有
效的
似然比——患者试验结果阳性相比于非患者试验结果阳性的可能有多大——或许是
对一项试验有用程度的最佳测评方法
证实试验与金标准
我们的窗户清洁工告诉我说他最近总是感到口渴,并就此已要求一位全科医师为他作糖尿病检查,这种病在他们家族中已有不少患者。
该诊所的护士请他取尿标本并浸入一个试剂条。
试剂条保持绿色,表明他的尿中不含糖。
护士说,这表明他未患糖尿病。
证实研究中通过与金标准比较可以统计出诊断试验特征值
试验特征值
别名
涉及问题
公式(表2)
敏感度
真阳性率(真患病)
这项试验在正确挑出患者方面有多好?
a/(a+c)
特异度
真阴性率(健康)
这项试验在正确排除未患病者方面有多好?
d/(b+d)
阳性预测值
阳性试验的事后概率
若某人检验为阳性,则患病的概率有多大?
a/(a+b)
阴性预测值
阴性试验的事后概率
若某人检验为阴性,则未患病的概率有多大?
d/(c+d)
准确度
-
所有试验得出正确结果的比例有多大?
(真阳
性和真阴性占所有结果的比例)
(a+d)/(a+b+c+d)
阳性试验似然比
-
在患者中试验阳性比在非患者中试验阳性的
可能大多少?
敏感度/(1-特异度)
阴性试验似然比
-
在非患者中试验阴性比在患者中试验阴性的
可能大多少?
(1-敏感度)/特异度
表1 以2×2列联表显示10人被控谋杀的审判结果
陪审团的判决
真正的犯罪状况
谋杀者
非谋杀者
有罪
判决正确(2人)
判决错误(4人)
无罪
判决错误(1人)
判决正确(3人)
我对这一结果的必然含义感到疑惑,因为这如同说一个被判有罪的人必然是凶手一样。
世界卫生组织将糖尿病定义为空腹血糖大于8mmol/L,或口服100g葡萄糖后2小时血糖大于11mmol/L。
如患者有症状,血糖值一次超过上述标准即可诊断;如无症状,则两次超过方可诊断1。
这些严格的标准可称为糖尿病诊断的金标准(虽然语言纯正论者已对此概念提出异议2)。
试剂条试验比起完善的糖耐量试验来,在实用性上有其独特的优点。
但为客观地评价试剂条试验在糖尿病诊断中的作用,我们需要选出一个人群样本(比如100人)并且对每个人做两种试验:
尿糖试验(筛选试验)和标准糖耐量试验(金标准)。
我们就可以看到每个人的筛选试验结果是否与金标准结果相匹配(表2)。
这就是众所周知的证实研究。
Andersson等曾研究过尿糖试验用于诊断糖尿病的有效性3,我在表3中引用了他们的数据(表示为1000个被测样本中的比例)。
从尿试剂条试验诊断糖尿病的主要特征值的统计(如框图)中,可看出为什么不能同意窗户清洁工表2 以2×2列联表表示诊断或筛选试验的证实研究结果未患有糖尿病的诊断。
尿糖阳性试验的敏感度只有22%,这意味着该试验漏掉了将近4/5的糖尿病患者。
在有典型病征和家族史的情况下,该窗户清洁工患糖尿病的底线机率(试验前的似然性)相当高,但在一次尿糖阴性诊断之后,此机率降低到原来的4/5左右(阴性似然比0