药物临床试验的生物统计学指导原则.docx
《药物临床试验的生物统计学指导原则.docx》由会员分享,可在线阅读,更多相关《药物临床试验的生物统计学指导原则.docx(30页珍藏版)》请在冰豆网上搜索。
药物临床试验的生物统计学指导原则
附件
药物临床试验的生物统计学指导原则
一、概述
新药经临床前研究后,其有效性和安全性由人体临床试验进行最终验证。
临床试验是根据研究目的,通过足够数量的目标受试者(样本)来研究药物对疾病进程、预后以及安全性等方面的影响。
临床试验除了遵循《药物临床试验质量管理规范》(GCP)以外,还必须事先应用统计学原理对试验相关的因素作出合理、有效的安排,最大限度地控制混杂与偏倚,减少试验误差,提高试验质量,并对试验结果进行科学的分析和合理的解释,在保证试验结果科学、可信的同时,尽可能做到高效、快速、经济。
因此,统计学是临床试验设计、实施和分析的有力工具,在药物的临床研发过程中发挥不可或缺的重要作用。
本指导原则以临床试验的基本要求和统计学原理为核心,阐述统计学在临床试验中的作用和地位,以及在试验设计阶段、试验实施阶段和结果分析阶段的统计学考虑,旨在为药品注册申请人和临床试验的研究者针对临床研发中如何进行设计、实施、分析和评价提供技术指导,以保证药物临床试验的科学、严谨和规范。
本指导原则适用于以注册为目的的药物(化学药物、生物制品、中药民族药和天然药物)的确证性临床试验,对探索性临床试验以及上市后临床试验也同样具有指导意义。
二、临床试验的总体考虑
(1)临床研发规划药物临床试验的主要目标是评价和确定受试药物的风险/获
益比,同时也要确定可能从该药获益的特定适应症人群及适宜的用法与用量。
为此,需要设计一系列的临床试验,而每一个临床试验都有其特定的目的,其设计、执行和拟采用的分析方法等细节均应在试验方案中予以明确。
所以每个研究药物都应首先考虑其临床研发的总体规划。
仓I」新药物的临床研发一般由I期临床试验开始,进入□期概念验证试验(Proof-Of-Concept,POC)和剂量探索(Dose
Finding)试验,然后是川期确证试验,每期试验由于研究目的的不同,可能包含着多个试验项目。
临床研发规划就是这些试验研究的总体规划。
在新药申请时,应当清晰地描述该药临床研发规划的主要内容,以及每个临床试验在其中的地位和作用。
在解释和评价受试药物的总体证据时,通常需要把几个试验的数据进行综合分析。
因此,同一临床研发规划中,不同临床试验的多个方面应该尽量采用相同的标准,如医学编码词典、主要指标的定义和测量时间点、对于方案违背的处理方式等等。
在药物的临床研发规划中应预先阐明是否需要对涉及共同医学问题的多个试验进行荟萃分析(Meta-Analysis),并明确它们的设计共同点及关键统计问题。
(二)探索性试验和确证性试验
临床试验的早期,需要进行一系列的探索性试验,这些试验也应有清晰和明确的目标。
探索性试验有时需要更为灵活可变的方法进行设计并对数据进行分析,以便根据逐渐积累的结果对后期的确证性试验设计提供相应的依据。
虽然探索性试验对有效性的确证有参考价值,但不能作为证明有效性的关键性证据。
临床试验的后期,需要经过确证性试验为评价药物的有效性和安全性提供有力证据。
确证性试验是一种事先提出假设并对其进行统计检验的试验,以说明所开发的药物对临床是有益的,一般为随机对照的临床试验。
因此,对涉及药物有效性和安全性的每一个关键性的问题都需要通过确证性试验予以充分的回答。
在确证性试验中,最关键的假设应根据试验主要目的产生。
主要假设应于试验开始前在试验方案中预先设定并于试验结束后严格按照预先设定的分析计划完成假设检验。
除此之外,在试验方案中还应阐明试验设计方法、统计分析方法及相关理由。
确证性试验对于试验方案和标准操作程序(SOP)的严格遵从是非
常重要的。
如果在试验过程中对方案有不可避免的修订,应给予说明并记载。
对方案修订可能对结果产生的影响应予以评估。
确证性试验还应对试验药物的疗效进行准确的估计。
对于药物疗效的说明除了需要证明关键假设的统计学意义之外,还需要评估试验药物疗效具有临床意义。
(三)观察指标观察指标是指能反映临床试验中药物有效性和安全性的观察项目。
统计学中常将观察指标称为变量。
观察指标分为定量指标和定性指标。
观察指标必须在研究方案中有明确的定义和可靠的依据,不允许随意修改。
对于观察指标,在研究的设计阶段,首先需要根据研究目的,严格定义与区分主要指标和次要指标,其次是根据主要指标的性质(定量或定性)和特征(一个或多个、单一指标或复合指标、临床获益或替代指标、客观/主观指标或全局评价指标等),调整研究的统计设计策略,以达到研究的预期目的。
1.主要指标和次要指标
主要指标又称主要终点,是与试验主要研究目的有本质联系的,能确切反映药物有效性或安全性的观察指标。
主要指标应根据试验目的选择易于量化、客观性强、重复性高,并在相关研究领域已有公认标准的指标。
一般情况下,主要指标仅为一个,用于评价药物的疗效或安全性。
若一个主要指标不足以说明药物效应时,可采用两个或多个主要指标。
方案中应详细描述所关注的主要指标的设计参数及其假设、总I类错误率和□类错误率的控制策略。
主要指标将用
于临床试验的样本量估计,多个主要指标的情况下,将制定对总I类错误概率的控制策略并保证研究有足够的把握度。
主要指标,包括其详细定义、测量方法(若存在多种测量方法时,应该选择临床相关性强、重要性高、客观并切实可行的测量方法)、统计分析模型等,都必须在试验设计阶段充分考虑,并在试验方案中明确规定。
方案中主要指标在试验进行过程中不得修改,若须做修改则应在充分论证的基础上谨慎行事,并在揭盲前完成,不允许揭盲后对主要指标进行任何修改。
次要指标是与次要研究目的相关的效应指标,或与试验主要目的相关的支持性指标。
在试验方案中,也需明确次要指标的定义,并对这些指标在解释试验结果时的作用以及相对重要性加以说明。
一个临床试验,可以设计多个次要指标,但不宜过多,足以达到试验目的即可。
2.复合指标当难以确定单一的主要指标时,可按预先确定的计算方法,将多个指标组合构成一个复合指标。
临床上采用的量表(如神经、精神类、生活质量量表等)就是一种复合指标。
将多个指标组综合成单一复合指标的方法需在试验方案中详细说明。
主要指标为复合指标时,可以对复合指标中有临床意义的单个指标进行单独的分析。
当采用量表进行疗效评价(如精神类药物、中药、民族药),应该采用国际或领域内公认的量表。
采用国外量表作为主要疗效指标时,由于可能存在语言、文化、生活习俗、宗教信仰等多方面的差异,需提供跨文化调适、翻译对等性的研究结果;采用自制量表时,需提供效度、信度和反应度(对疾病严重程度及其变化的区分程度)的研究结果。
没有对效度、信度和反应度进行过研究,或者效度、信度和反应度都很低的量表不建议作为临床试验的主要疗效指标。
3.全局评价指标全局评价指标是将客观指标和研究者对受试者疗效的总印象有机结合的综合指标,它通常是等级指标,其判断等级的依据和理由应在试验方案中明确。
全局评价指标可以评价某个治疗的总体有效性或安全性,带有一定的主观成份,因此,其中的客观指标常被作为重要的指标进行单独分析。
以全局评价指标为主要指标时,应该在方案中考虑:
该全局评价指标与主要研究目的临床相关性、信度和效度、等级评价标准和单项缺失时的估计方法。
不建议将“综合疗效和安全性”的全局评价指标作为临床试验的主要指标,因为这样会掩盖药物之间在疗效和安全性方面的重要差异,从而导致决策失误。
4.替代指标
替代指标是指在直接评价临床获益不可行时,用于间接反映临床获益的观察指标。
例如降压药物的临床获益,常被认为是降低或延迟“终点事件”(心脑血管事件)的发生,但若要评价“终点事件”发生率,需要长时间的观察。
在实际中,降压药的临床试验,采用替代指标“血压降低值/血压达标”来评价药物的疗效,因为临床研究和流行病学业已证实:
将“血压”控制在正常范围内,可以降低“终点事件”的发生。
一个指标能否成为临床获益的替代指标,需要考察:
1)指
标与临床获益的关联性和生物学合理性;2)在流行病学研究中
该指标对临床结局的预测价值;3)临床试验的证据显示药物对该指标的影响程度与药物对临床结局的影响程度一致。
选择替代指标为主要指标,可以缩短临床试验期限,但也存在一定的风险,尤其是“新”替代指标。
药物在替代指标上的优良表现并不一定代表药物对受试者具有长期的临床获益,药物在替代指标上的不良表现也不一定表示没有临床获益。
例如,在抗
肿瘤药物早期临床试验中,“无进展生存时间”等指标被作为“总生存时间”的替代指标被广泛使用,但其与总生存时间的关联性在不同的肿瘤临床试验中程度不一,因此仍需强调川期临床
研究中,采用临床终点的重要性。
5.定性指标
在某些临床试验中,有时需要将定量指标根据一定的标准转换为等级指标、或将等级指标转化为定性指标,如:
用药后血压降低到“140/90mmHg”以下、糖化血红蛋白降低到7.0%以下的受试者比例(达标率)。
定量或等级指标转换定性指标的标准,应该具有临床意义、为相关领域公认、并在试验方案中明确规定。
由于将定量指标转换为定性指标会损失部分信息导致检验效能的降低,在样本量计算时需加以考虑。
如方案定义主要指标为定量指标转化的定性指标时,则研究结论应主要依据该定性指标,而不是其所源于的定量指标。
(四)偏倚的控制偏倚又称偏性,是临床试验在设计、执行、测量、分析过程中产生的、可干扰疗效和安全性评价的系统误差。
在临床试验中,偏倚包括各种类型的对研究方案的违背与偏离。
由于偏倚会影响疗效、安全性评价结果,甚至影响临床试验结论的正确性,因此在临床试验的全过程中均须控制偏倚的发生。
随机化和盲法是控制偏倚的重要措施。
1.随机化
随机化是临床试验的基本原则,也是疗效和安全性评价的统计学方法的基础。
临床试验中随机化原则是指临床试验中每位受试者均有同等的机会被分配到试验组或对照组中的实施过程或措施,随机化过程不受研究者和/或受试者主观意愿的影响。
随机化的目的是使各种影响因素(包括已知和未知的因素)在处理组间的分布趋于相似。
随机化与盲法相结合,可有效避免处理分组的可预测性,控制对受试者分组的选择偏倚。
临床试验的随机化的方法,一般采用区组随机化法和/或分层随机化法。
如果受试者的入组时间较长,区组随机化是临床试验所必须的,这样有助于减少季节、疾病流行等客观因素对疗效评价的影响,也可减少因方案修订(如入选标准的修订)所造成的组间受试者的差异。
区组的大小要适当,太大易造成组间不均衡,太小则易造成同一区组内受试者分组的可猜测性。
研究者及其相关人员,应该对区组长度保持盲态,这在开放的临床试验中尤为重要。
也可设定2个或多个区组长度,或采用中央随机化系统以尽可能减少分组的可预测性。
如果药物的效应会受到一些预后因素(如受试者的病理诊断、年龄、性别、疾病的严重程度、生物标记物等)的影响时,可采用分层随机化,以保持层内的组间均衡性。
当需要考虑多个分层因素,如肿瘤类临床试验,需考虑年龄、病理类型、基线水平等因素,采用分层随机化,可能导致试验无法进行,此时可采用“动态随机”使被控制的预后因素组间有良好的均衡性。
在动态随机化中,已入组的受试者特征将影响下一个受试者的分组,系统将根据各层面上的组间均衡性决定受试者的随机化组别。
尽管“动态随机”可以实现多分层因素下的随机化,但不建议设计过多的分层因素,因为过多的分层因素可能造成其他因素在处理组间的不均衡,建议分层因素一般不宜超过3个。
临床试验中通常采用区组随机化的方法,如采用动态随机化,被控制的因素应包括在主要指标分析模型中,用以控制混杂因素对主要指标评价的影响。
特别指出的是在川期临床试验中,应避免使用基
于主要指标观察结果的动态随机化。
随机化的方法和过程包括随机分配表的产生方法、随机分配遮蔽的措施、随机分配执行的人员分工等,应在试验方案中阐明,但使人容易猜测分组的随机化的细节(如区组长度等)不应包含在试验方案中。
在临床试验中,随机分配表应该是一份独立的文件,以记录受试者的处理(或处理顺序)安排。
随机分配表应具有重现性,即可以根据种子数、分层因素、区组长度重新产生相同的随机分配表。
试验用药物将根据随机分配表进行编码,在临床操作中,要求研究者严格按照入组受试者的随机分配结果及药物编码分配药物,任何偏离,都应该如实记录,以待数据分析前进行评估。
值得注意的是动态随机化中的随机表仅仅起到遮蔽作用,真正的随机分配表是由动态随机化系统根据已入组的受试者信息采用最小随机化原理产生的,因此随机化系统中的随机分配表应作为独立文件在申报资料中提交。
2.盲法
临床试验的偏倚可能来自于临床试验的各个阶段、各方面人员。
由于对随机化分组信息的知晓,研究者可能选择性入组受试者,受试者可能受到主观因素的影响,可能产生疗效与安全性的评价偏倚或选择性确定分析人群等。
盲法是控制临床试验中因“知晓随机化分组信息”而产生的偏倚的重要措施之一,目的是达到临床试验中的各方人员对随机化处理分组的不可预测性。
根据设盲程度的不同,盲法分为双盲、单盲和非盲(开放)。
在双盲临床试验中,受试者、研究者(对受试者进行筛选的人员、终点评价人员以及对方案依从性评价人员)、与临床有关的申办方人员对处理分组均应处于盲态;单盲临床试验中,仅受试者或研究者一方对处理分组处于盲态;开放性临床试验中,所有人员都可能知道处理分组信息。
临床试验的设盲程度,应综合考虑药物的应用领域、评价指标和可行性,应尽可能采用双盲试验。
当双盲难度大、可行性较差,可考虑单盲临床试验,甚至开放性研究。
一般情况下,神经、精神类药物的临床试验采用量表评价效应、用于缓解症状(过敏性鼻炎、疼痛等)的药物或以“受试者自我评价”等主观指标为主要指标的临床试验、以安慰剂为对照的临床试验,均应采用“双盲”;在一些以临床终点(如死亡)为主要评价指标的临床试验中(抗肿瘤药物),也可以接受开放性研究。
双盲的临床试验,要求试验药和对照药(包括安慰剂)在外观(剂型、形状、颜色、气味)上的一致性;如果试验药与对照药在用药方式有差异,还需要做到试验组与对照组在药物使用上的一致性。
若要达到双盲的目的,可采用双模拟技术。
在使用双模拟技术的临床试验中,受试者的用药次数与用药量将会增加,可能导致用药依从性的降低。
若双盲实施起来有相当的困难或根本不可行时(例如,手术治疗与药物治疗的对比研究;不同药物在剂型、外观或用法上存在很大的差异;因中药组方不同导致气味上的差异等),可以采用单盲或开放性临床试验,其理由必须在方案中详细说明,而且尤为重要的是这种信息的知晓不得影响受试者分配入组的随机性,方案中还须有控制偏倚的具体措施,例如采用客观的主要指标,或采用中央随机化系统管理受试者的入组,或参与疗效与安全性评价的研究者在试验过程中尽量处于盲态等。
无论是双盲、单盲临床试验,盲态的执行(随机化分配表的产生、保存以及释放)应该有标准操作程序进行规范,且在方案中明确规定破盲人员的范围。
即使是开放性临床试验,研究相关人员也应尽可能保持盲态。
方案中应该规定随机分配表的释放条件与流程。
随机分配表释放的基本条件为:
已完成数据库的锁定和分析人群及统计分析计划的确定工作。
三、试验设计的基本考虑
(一)试验设计的基本类型
1.平行组设计平行组设计是最常用的临床试验设计类型,可为试验药设置一个或多个对照组,试验药也可设多个剂量组。
对照组可分为阳性或阴性对照。
阳性对照一般采用按所选适应症的当前公认的有效药物,阴性对照一般采用安慰剂,但必须符合伦理学要求。
试验药设一个或多个剂量组完全取决于试验的目的。
2.交叉设计
交叉设计是按事先设计好的试验次序,在各个时期对受试者逐一实施各种处理,以比较各处理间的差异。
交叉设计是将自身比较和组间比较设计思路综合应用的一种设计方法,它可以较好地控制个体间的差异,以减少受试者人数。
最简单的交叉设计是2种药物2个阶段的形式,又称2X2交叉设计,对每个受试者安排两个试验阶段,分别接受A、B两种试验用药物,而第一阶段接受何种试验用药物是随机确定的,第二阶段必须接受与第一阶段不同的另一种试验用药物。
因此,每个受试者接受的药物可能是先A后B(AB顺序),也可能是先B后A
(BA顺序),故这种试验又简记为AB/BA交叉试验。
两阶段交叉试验中,每个受试者需经历如下几个试验过程,即准备阶段、第一试验阶段、洗脱期和第二试验阶段。
每个试验阶段的用药对后一阶段的延滞作用称为延滞效应。
前个试验阶段后需安排足够长的洗脱期或有效的洗脱手段,以消除其延滞效应。
采用交叉设计时应考虑延滞效应对试验数据分析评价的影响。
2X2交叉设计难以区分延滞效应与时期-药物的交互作用。
如需进一步分析和评价延滞效应,则可考虑采用2个处理多个阶段的交叉设计(例如:
ABBA4/BAAB交叉设计)。
多种药物多个阶段的交叉设计也是经常用到的,例如:
3X3交叉设计,即3种处理(A、B、C)、3个阶段、6种顺序
(ABC/BCA/CAB/ACB/CBA/BAC)的交叉设计。
由于每个受试者接受了所有处理组的治疗,提供了多个处理
的效应,因此交叉试验中应尽量避免受试者的失访。
3.析因设计
析因设计是通过试验用药物剂量的不同组合,对两个或多个试验用药物同时进行评价,不仅可检验每个试验用药物各剂量间的差异,而且可以检验各试验用药物间是否存在交互作用,或探索两种药物不同剂量的适当组合,常用于复方研究。
析因设计时需考虑两种药物高剂量组合可能带来的毒副反应。
如果试验的样本量是基于检验主效应的目的而计算的,关于交互作用的假设检验,其检验效能往往是不足的。
(二)多中心试验多中心试验系指由一个单位的主要研究者总负责,多个单位的研究者参与,按同一个试验方案同时进行的临床试验。
多中心试验可以在较短的时间内入选所需的病例数,且入选的病例范围广,临床试验的结果更具代表性。
但影响因素亦随之更趋复杂。
多中心试验必须遵循同一个试验方案在统一的组织领导下完成整个试验。
各中心试验组和对照组病例数的比例应与总样本的比例大致相同。
多中心试验要求试验前对人员统一培训,试验过程要有良好的质控措施。
当主要指标易受主观影响时,需进行统一培训并进行一致性评估。
当主要指标在各中心的实验室的检验结果有较大差异或参考值范围不同时,应采取相应的措施进行校正或标化以保证其可比性,如采用中心实验室检验等。
如预期多中心间检验结果有较大差异,应在临床试验方案中预先规定可能采用的差异性的检验及校正方法。
在多中心临床试验中,可按中心分层随机;当中心数较多且每个中心的病例数较少时,可不按中心分层。
国际多中心试验可视为一种特殊形式的多中心试验,在不同国家或地区所观察的试验结果可能作为相应国家或地区药品注册申请的重要依据。
在这种特殊的需求下,国家或地区间的临床实践差异有可能对临床结果的解读产生较大的影响。
在临床试验设计时应提前对这种差异进行预估,并在临床试验方案中对将采用的分析不同国家地区结果差异性/一致性的统计方法做预先规定。
常用的一致性的评价方法有(但不限于)以国家或地区为预设亚组的亚组分析,或采用适当的统计分析模型等。
当单独以某特定国家或地区试验数据作为主要注册申请依据时,应说明样本量能够合理的支持相对应的安全性及有效性的评价。
(三)比较的类型临床试验中比较的类型,按统计学中的假设检验可分为优效性检验、等效性检验和非劣效性检验。
在临床试验方案中,需要明确试验的目的和比较的类型。
优效性检验的目的是显示试验药的治疗效果优于对照药,包括:
试验药是否优于安慰剂;试验药是否优于阳性对照药;或剂量间效应的比较。
等效性检验的目的是确证两种或多种治疗的效果差别大小在临床上并无重要意义,即试验药与阳性对照药在疗效上相当。
而非劣效性检验目的是确证试验药的疗效如果在临床上低于阳性对照药,其差异也是在临床可接受范围内。
在显示后两种目的试验设计中,阳性对照药的选择要慎重。
所选阳性对照药需是已广泛应用的、对相应适应症的疗效和用量已被证实,使用它可以有把握地期望在目前试验中表现出相似的
效果;阳性对照药原有的用法与用量不得任意改动。
阳性药物选择时应考虑以下两个方面:
1.阳性对照有效性的既有证据阳性对照效应来源于文献报道的有良好试验设计的试验结果,这些历史试验已明确显示本次非劣效试验中采用的阳性对照或与其类似的药物优于安慰剂,且随时间迁移,阳性对照的疗效基本维持稳定。
根据这些试验结果可以可靠地估计出阳性对照的效应大小。
阳性对照的效应量是非劣效试验的关键设计参数(用以确定非劣效界值),既不能用历史研究中最好的疗效作为其效应量的估计,也不能仅用荟萃分析的点估计作为效应量的估计,效应量估计时要充分考虑历史研究间的变异。
2.阳性对照药物效应的稳定性阳性对照效应的估计来源于历史研究,虽然考虑了历史研究间的变异,但仍有历史局限性,受到很多因素诸如当时的受试人群、合并用药、疗效指标的定义与判定、阳性对照的剂量、耐药性以及统计分析方法等的影响。
因此,采用非劣效试验设计时要尽可能地确保本次临床试验在以上提及的诸多因素方面与历史研究一致。
另外非劣效/等效性设计,良好的偏倚控制和质量控制是此类设计的关键。
因此,在试验设计和实施阶段都应该提高试验质量要求,只有高质量的临床试验才能保证非劣效/等效临
床试验的检定灵敏度。
进行等效性检验或非劣效性检验时,需预先确定一个等效界
值(上限和下限)或非劣效界值(上限或下限),这个界值应不超过临床上能接受的最大差别范围,并且应当小于阳性对照药与安慰剂的优效性试验所观察到的差异。
非劣效界值确定一般采用两步法,M1是阳性对照扣去了安慰剂效应的绝对疗效的保守估计,一般借助荟萃分析法并考虑历史试验间的变异后确定;M2
是非劣效界值,其确定要结合临床具体情况,在考虑保留阳性对照疗效的适当比例f后,由统计专家和临床医学专家共同确定。
在等效界值的确定中,可以用类似的方法确定下限和上限。
从技术层面讲,等效性检验双侧置信区间等同于两个同时进行的单侧假设检验,而非劣效检验是单侧检验。
非劣效/等效检验统计推
断一般采用置信区间法。
值得注意的是两组之间差别无统计学意义并不能得出两组等效或非劣的结论。
(四)样本量临床试验中所需的样本量应具有足够大的统计学检验把握度,以确保对所提出的问题给予一个可靠的回答,同时也应综合考虑监管部门对样本量的最低要求。
样本的大小通常以试验的主要疗效指标来确定,如果需要同时考虑主要疗效指标外的其他指标时(如安全性指标或重要的次要指标),应明确说明其合理性。
一般来说,在样本量的确定中应该说明以下相关因素,包括设计的