统计分析计划(statistical analysis plan,SAP)能够增加临床研究的可信度、透明度和减少统计分析过程的偏倚。SAP报告指南在开发时,主要针对后期(late phase)临床研究,即Ⅱ期和Ⅲ期的随机对照试验。目前,针对早期(early phase)临床研究,即I期临床研究和Ⅱ期非随机对照试验的SAP扩展版报告指南,主要从试验目的、设计、贝叶斯统计、数据模拟、样本量和ICH E9(R1)的应用6个角度在原报告指南基础上进行了扩展。扩展版报告指南能够使早期临床试验的SAP规范化,提高早期临床研究的透明性、可重复性,从而提高早期临床研究的质量,对后期临床研究亦起到关键作用。
统计分析过程是临床研究的重要组成部分,其统计结果对最终的研究结论有着直接的影响。非透明的统计分析过程可能会出现大量的事后分析(post-hoc analysis),并由此做出偏倚风险较高的临床结论。例如,揭盲后仍修改统计分析方法、不完整报告全部统计方法导致统计过程无法复现等。因此,统计分析方法的透明化报告在临床研究中越来越得到研究者的重视。统计分析计划(statistical analysis plan,SAP)可以对临床研究的统计分析方法进行事先约束,全面地对临床研究的统计分析过程和内容进行描述,有利于增加临床研究的可信度、透明度,其统计结果以及结论也有更强的说服力。2017年12月,针对后期(late phase)临床研究的SAP报告指南(下文简称《指南》)在JAMA发布[1]。2019年,对《指南》的解读文章发表[2],该文章对《指南》进行了翻译并进行解读,说明了发表SAP的重要性。2022年1月,该指南的开发团队针对早期(early phase)临床研究,即I期临床试验和Ⅱ期的非随机对照试验,在BMJ发布了SAP早期临床试验扩展版报告指南(下文简称《扩展版指南》)[3]。本研究分析了在《指南》发表后SAP的发表现状,对《扩展版指南》的发布缘起以及主要修订内容进行介绍和解读,并讨论了《扩展版指南》对早期临床研究的借鉴意义。
1 SAP的发表现状及《指南》扩展动因
2017年12月《指南》的制订,对SAP的发表有着促进作用,增强了临床试验统计分析的透明度。在PubMed上以“statistical analysis plan”进行标题检索,截至2023年12月31日,检索到含有SAP的文献共345篇,发文量年度趋势见图1。

从SAP发文量的年度趋势图可看出,在2017年《指南》发布前SAP的发表数量以相对较为缓慢速度增长,在《指南》发布后其每年发表数量迅速提升,提示《指南》的发布,使得SAP的透明化报告得到了越来越多的重视。而SAP的发表使得试验透明化,在将来进行数据分析、撰写研究报告时可以与过去发表的SAP进行对照,减少选择性报告、偏离研究方案等情况的发生。
2017版《指南》适用于后期随机临床试验,包含Ⅱ期随机临床试验以及Ⅲ期随机临床试验。鉴于药物的开发途径,通过了早期临床试验的药物才有机会参加后期临床试验。早期临床试验的应用比后期临床试验的应用更为普遍。一项发表在JAMA的研究对2000—2019年发表在ClinicalTrials.gov的临床试验进行分析,发现Ⅰ~Ⅱ期临床试验数量上总体高于Ⅲ~Ⅳ期临床试验[4]。
早期临床试验的结果对后期临床试验有着决定作用。首先,早期临床试验是新药从临床前动物实验过渡到人体研究的重要阶段,起到承上启下的关键作用,设计和实施关系到药物研发的成败。其次,后期临床试验是基于早期临床试验准确而稳健的结论之上开展的,如药物剂量和给药间隔的选择。如果早期临床试验的设计、分析上存在缺陷,会对后续试验产生影响,Ⅲ期临床试验也不能很好地展示干预措施是否有益。因此,早期临床试验也应当在严格的高标准下进行。
早期临床试验与后期临床试验在试验目的方面有所不同。例如,在I期临床试验中,确定试验药物的在人体的最大耐受剂量是主要目标之一,通过剂量递增试验来探究剂量与药效(或毒性)的关系是常用的设计。这种研究具有高风险性,在研究方案中应当事先设定预期的最大耐受剂量,并说明设定依据。此外,药动学研究也需要评价不同剂量的药物与人体吸收药物的关系,与后期临床试验不同,需要提前设计好起始剂量、最高剂量、剂量水平数量和剂量梯度等[5]。
由于I期临床试验是创新药首次用于人体,是初步的临床药理学及人体安全性评价试验,可以根据临床耐受性试验阶段和临床药动学试验阶段分步设计,也可以不同阶段交叉融合进行复合型研究方案设计。这一点和后期临床试验有着明显区别,因此,2022年的《扩展版指南》在原《指南》SAP的报告内容上进行了扩展,适用于早期临床试验,包含I期临床试验以及Ⅱ期非随机临床试验。
此外,由国际人用药品注册技术协调会(International Council for Harmonisation of Technical Requirements for Pharmaceuticals for Human Use,ICH)的专家工作组制订的统计原则指南(ICH-E9)主要用于新药研发后期阶段的临床试验,其大多数都是用于确认疗效的试验,但也表示ICH-E9对早期临床试验的SAP与后期临床试验有着相同要求[6]。一项研究提出,在早期临床试验中使用基于模型的设计更有优势,也建议更多地使用基于模型的设计[7]。使用这种设计会引入额外的统计参数,对SAP的质量有着更高的需求。针对临床早期试验对《指南》进行扩展,是遵循了ICH-E9早期临床试验也应有SAP的要求,并考虑到了与后期临床试验的差异,使得《扩展版指南》覆盖范围更加广泛,更加通用。
2 制订过程及条目变化概要
2018年4月,在英国临床研究合作(UK Clinical Research Collaboration)注册的临床试验单位(Clinical Trials Unit,CTU)网络的统计师业务小组会议上对《指南》进行了讨论,认为有必要针对早期临床试验进行扩展。经过对现有SAP指南的全面检索,对临床试验资助者及监管者的调查,对CTU的调查以及严格评价、专家评审会议后,进行了《扩展版指南》的试点,最后形成《扩展版指南》的最终版,于2022年1月发表在BMJ[3]。
《指南》含有55个条目,经过本次修改,30个条目保持不变,为了更好地贴合早期临床试验,对25个条目进行了修改,增加了11个新条目。新增及有较大改动的条目包括:① 针对早期临床试验的设计方法差异,增加关于统计设计方法细节的报告,以及模型选择的细节(如果适用)。② 由于ICH-E9(R1)[8]的广泛应用,对“结果(outcome)”的定义进行更新,纳入了估计目标的定义,与ICH-E9(R1)概述的原则保持一致。③ 纳入了含有操作特征(operating characteristics)的数据模拟报告,对不同情况下模型的运行状况进行评估。④ 纳入了新设计方法所使用的模型代码。⑤ 在使用剂量递增试验的设计时,纳入剂量转变路径(dose transition pathways)。⑥ 修改措辞,使用语在频率论和贝叶斯方法间更加中立,以反映一些早期临床试验设计,特别是在I期试验中使用贝叶斯方法的情况。
3 条目变化的具体阐述
《扩展版指南》中条目的变化可以主要分为几大原因,主要包括试验目的、设计、贝叶斯统计、数据模拟、样本量和ICH-E9(R1)的应用等。《扩展版指南》的条目见附件表1。
3.1 试验目的
试验目的反映了试验要回答的科学问题。与后期临床试验更关注疗效相比,早期临床试验有着更多的目标,如应当明确最终的试验结论是否基于毒性、疗效、药代动力学、药效动力学或上述因素的某种组合。在设计联合评估毒性和功效时,还需要规定如果得出不同的结论,应以哪一个为优先目的。因此条目8添加了要明确研究“关键”目的,要明确主要目的和次要目的,以贴合早期临床试验的多目标性。
3.2 试验设计
由于I期临床试验需要确定新药的毒性和安全剂量范围,常使用剂量递增试验来检验人体药物耐受性。在剂量递增试验中研究者需要确定最大推荐起始剂量,即基于安全性考虑推荐使用的最大剂量,预期中这个剂量不会产生毒性反应[5],试验将从这个剂量开始。之后剂量递增的决策可以基于两种不同的设计进行,一种是基于规则的设计,如传统3+3设计、快速滴定设计,这种设计要求按照一定的规则提前制定剂量队列,以及制定做出剂量上升、下降的规则,后续在试验实施时,严格按照规则进行。另一种是基于模型的设计,如连续重评估法(continual reassessment method,CRM),这是一种贝叶斯框架的适应性方法,在研究前制定好剂量-毒性关系假设统计模型,在试验中将先完成试验的患者数据纳入模型中进行模型更新,由此计算得出下一个试验剂量。此外,还有一种模型辅助(model-assisted)设计,将模型设计与规则设计结合使用。
在早期临床试验中,研究者需要在SAP中报告试验阶段和设计方法,如Ⅱ期单臂试验或剂量递增试验,因为根据不同的试验阶段和试验设计,研究者需要报告的内容有所不同,见条目9a。此处条目的变化主要集中在剂量递增试验部分,研究者需要报告起始剂量水平的来源,针对不同的设计,研究者需要对剂量队列、剂量变化的规则、过量用药的划分、期中分析的剂量决定、模型参数、公式及更新时间等信息进行说明,这些在条目9b、9c、9d、9e、13a、20中有所体现。在分析方法中,基于模型设计需要预先指定替代模型以及公式和数学说明(27d说明)。
剂量递增试验中,有时会有复杂的剂量递增/下降机制,或是使用新的设计方法,此时使用剂量转变途径(dose transition pathways)可以有效辅助决策。应当使用表格或树状/图说明不同剂量限制性毒性(dose limiting toxicity,DLT)下的剂量转变途径,见条目34。
3.3 贝叶斯方法
早期临床试验中有许多研究是基于贝叶斯方法下进行的,如剂量递增试验中的CRM法。贝叶斯方法与通常的频率统计的假设检验法有所不同,假设检验是针对样本进行假设以及统计推断,以拒绝零假设的方式来反证备择假设的正确(即一般根据P<0.05进行判断);而贝叶斯方法需要先确定模型先验分布(prior distribution),得到样本信息后计算先验分布得到当前样本的概率似然函数,最后再综合考虑先验分布和似然函数,得出模型的后验分布(posterior distribution),即根据新数据对模型进行调整。因此,SAP也需要说明研究是在频率统计的假设检验还是贝叶斯框架下进行的,见条目12。
贝叶斯方法由于没有进行假设检验,也不需指定检验显著性水准,结果的呈现也不存在P值。为了加入对贝叶斯方法的考虑,《扩展版指南》中将原标题“可信区间与P值”更改为“不确定标识(indications of uncertainty)”,条目16也对解释部分进行更改,以体现P值的报告是可选的。根据研究者使用的方法,也要选择报告置信区间(confidence interval,CI)还是贝叶斯可信区间(credible interval,CrI)。
3.4 统计模拟
当使用基于模型或是模型辅助的剂量递增试验设计时,可以使用统计模拟的方式对估计目标以及不同假设下模型的运行情况进行评估。此时应当在SAP中报告进行模型设计、进行模拟和统计分析的统计软件包(条目31),模拟运行的特征(条目33),完整的模型详情以及程序代码(条目35),使得剂量递增的决策过程透明化和可复现化。
3.5 样本量及缺失数据
I期临床试验是新药首次用于人体,受试人群的样本量往往因药物的作用机制、生物学效应的类型和程度、动物实验的安全剂量范围不同等有差异。所以样本量的计算具有不确定性。例如,一般情况下,耐受性试验设计时考虑的原则是起始剂量组的例数较少[“哨兵试验(sentinel trail)”,甚至只有1例受试者]。而药动学试验则会考虑满足统计学要求,达到8~12例/组。考虑到这个问题,《扩展版指南》不要求报告样本量计算的完整细节,而是“样本量确定或证明合理”的完整细节。对于I期试验,通过每个队列的患者数量以及预期入组的队列总数可能足以证明试验样本量的合理性;对于剂量递增试验,还需要详细说明在未观测到DLT情况下预计招募的最小样本量(条目11)。由于样本量有限,对于缺失数据也不建议填补,包括多重填补等常规方式(条目28说明)。
3.6 ICH-E9(R1)的考量
2017年ICH公布的ICH-E9的附录,即ICH-E9(R1)中提出了统计分析的不同策略[8]。首先是对伴发事件(intercurrent events)的定义,指的是在治疗开始后发生的,会妨碍变量的观测或影响对变量解释的事件,如需要对受试者进行抢救时额外服用的药物或因为毒性事件而停止治疗等。ICH-E9(R1)中针对伴发事件提供了五种策略,分别是:① 疗法策略(treatment policy strategy),无论是否发生伴发事件,都使用事先计划的指标进行分析。这种策略与ICH-E9中的ITT原则相似,使用该策略时研究的是混合了伴发事件时的治疗效应。但当伴发事件导致关注的结局指标消失时,不能采用该策略。② 复合策略(composite strategy),将伴发事件与一个或多个其他测量结局合并作为一个新的关注变量,如此分析新的变量便可以同时考虑到临床指标和伴发事件。③ 假想策略(hypothetical strategy),假设不会发生伴发事件,所研究的是试验药物在不发生所定义的伴发事件下的疗效。该策略的关键是对假设进行精准的描述,以反映所研究的科学问题。④ 主层策略(principal stratum strategy),将潜在的可能发生(或不发生)伴发事件的人群定义为主层人群,所研究的问题将针对主层人群进行分析。主层与亚组有区别,亚组是根据已发生、已明确的协变量进行分类的,而主层要根据潜在的发生(未发生)伴发事件进行区分,这在研究前是无法得出的,需要根据协变量推测出主层人群。⑤ 在治策略(while on treatment strategy),只关注伴发事件发生前的数据,根据伴发事件发生前的数据进行评价。
ICH-E9(R1)中为了将治疗效果量化,对治疗效应进行精确描述,提出了估计目标的概念。估计目标是用于将试验目标转化为研究者所关心的科学问题而产生的,其包括四个方面,分别是目标人群即研究人群、目标变量(终点)即评价指标、伴发事件、目标变量在目标人群水平的效果(population-level summary for the variable)。目标变量在目标人群水平的效果需要通过比较得出,以率差、均值差等形式体现。
为了使临床试验有更强的一致性和清晰度,ICH-E9(R1)基于估计目标提出了一个结构性框架。首先根据试验目标定义出估计目标,由此将试验目标通过对估计目标的定义转化为研究者关心的科学问题。之后在估计目标下根据数据类型选择主要估计方法(main estimator),根据试验数据计算得出估计值(estimate)。对于每一个估计方法,都建议使用敏感性分析,评估在偏离检验假设的情况下采用当前估计方法的稳健性。
由于ICH-E9(R1)的广泛应用,《扩展版指南》中根据ICH-E9(R1)的概念将标题“结局定义”改为“估计目标定义”,并要求报告干预措施的细节(26a)和估计目标定义中的四个部分(26b~26e)。
此外,在“分析方法”部分对条目或是说明用词进行了调整,加入了估计目标、估计方法等概念(27a~27f)。
4 《扩展版指南》对早期临床试验设计的启示
《扩展版指南》针对ICH-E9(R1)的发布以及临床试验早期的特殊性进行了扩展,对于早期临床试验透明化以及SAP报告规范化有着重要作用。在早期临床试验设计阶段应注重以下内容:① 明确研究关键目的。若存在多个研究目的并行,应当分清主次,应当规定得出不同的结论时以哪一个为优先目的。② 重视《扩展版指南》要求报告的设计细节。需要报告的内容往往都会对试验的结果产生影响,为了使试验透明化并可复现才要求报告,因此应当在这些方面更加重视。早期临床试验在设计阶段需要重视剂量水平、模型等设计细节对结果可能产生的影响。③ 将ICH-E9(R1)中的伴发事件纳入设计考量。早期临床试验以探索性目的居多,主要的伴发事件为剂量调整、受试者依从性差、终止治疗或者脱落等。早期临床试验中,干预组的净效应对后期临床试验有着更重要的参考意义,所以假想策略是此阶段的主要策略。例如,针对剂量调整和依从性差的情况,导致实际药物暴露水平发生了变化,可以假设所有受试者都依从试验方案情况下,对初步的剂量-反应关系的进行探索。同时,进行敏感性分析对结果的稳健性进行估计。④ 考虑使用贝叶斯的方法进行早期临床试验设计。贝叶斯方法在早期临床研究领域的应用有着特殊优势。在使用贝叶斯方法的过程中,也需要注重模型的模拟与模拟报告,可以验证模型在不同条件下的稳健性,并使得该结果更加可信。
《指南》和《扩展版指南》的提出对从早期到后期的临床研究质量的提升将起到关键作用。建议未来的临床研究在设计阶段,同时参考两版指南,进行纵向前瞻性的规划。使得更多早期临床试验能够进入后期验证阶段,也促进后期临床试验有更高的成功率。
统计分析过程是临床研究的重要组成部分,其统计结果对最终的研究结论有着直接的影响。非透明的统计分析过程可能会出现大量的事后分析(post-hoc analysis),并由此做出偏倚风险较高的临床结论。例如,揭盲后仍修改统计分析方法、不完整报告全部统计方法导致统计过程无法复现等。因此,统计分析方法的透明化报告在临床研究中越来越得到研究者的重视。统计分析计划(statistical analysis plan,SAP)可以对临床研究的统计分析方法进行事先约束,全面地对临床研究的统计分析过程和内容进行描述,有利于增加临床研究的可信度、透明度,其统计结果以及结论也有更强的说服力。2017年12月,针对后期(late phase)临床研究的SAP报告指南(下文简称《指南》)在JAMA发布[1]。2019年,对《指南》的解读文章发表[2],该文章对《指南》进行了翻译并进行解读,说明了发表SAP的重要性。2022年1月,该指南的开发团队针对早期(early phase)临床研究,即I期临床试验和Ⅱ期的非随机对照试验,在BMJ发布了SAP早期临床试验扩展版报告指南(下文简称《扩展版指南》)[3]。本研究分析了在《指南》发表后SAP的发表现状,对《扩展版指南》的发布缘起以及主要修订内容进行介绍和解读,并讨论了《扩展版指南》对早期临床研究的借鉴意义。
1 SAP的发表现状及《指南》扩展动因
2017年12月《指南》的制订,对SAP的发表有着促进作用,增强了临床试验统计分析的透明度。在PubMed上以“statistical analysis plan”进行标题检索,截至2023年12月31日,检索到含有SAP的文献共345篇,发文量年度趋势见图1。

从SAP发文量的年度趋势图可看出,在2017年《指南》发布前SAP的发表数量以相对较为缓慢速度增长,在《指南》发布后其每年发表数量迅速提升,提示《指南》的发布,使得SAP的透明化报告得到了越来越多的重视。而SAP的发表使得试验透明化,在将来进行数据分析、撰写研究报告时可以与过去发表的SAP进行对照,减少选择性报告、偏离研究方案等情况的发生。
2017版《指南》适用于后期随机临床试验,包含Ⅱ期随机临床试验以及Ⅲ期随机临床试验。鉴于药物的开发途径,通过了早期临床试验的药物才有机会参加后期临床试验。早期临床试验的应用比后期临床试验的应用更为普遍。一项发表在JAMA的研究对2000—2019年发表在ClinicalTrials.gov的临床试验进行分析,发现Ⅰ~Ⅱ期临床试验数量上总体高于Ⅲ~Ⅳ期临床试验[4]。
早期临床试验的结果对后期临床试验有着决定作用。首先,早期临床试验是新药从临床前动物实验过渡到人体研究的重要阶段,起到承上启下的关键作用,设计和实施关系到药物研发的成败。其次,后期临床试验是基于早期临床试验准确而稳健的结论之上开展的,如药物剂量和给药间隔的选择。如果早期临床试验的设计、分析上存在缺陷,会对后续试验产生影响,Ⅲ期临床试验也不能很好地展示干预措施是否有益。因此,早期临床试验也应当在严格的高标准下进行。
早期临床试验与后期临床试验在试验目的方面有所不同。例如,在I期临床试验中,确定试验药物的在人体的最大耐受剂量是主要目标之一,通过剂量递增试验来探究剂量与药效(或毒性)的关系是常用的设计。这种研究具有高风险性,在研究方案中应当事先设定预期的最大耐受剂量,并说明设定依据。此外,药动学研究也需要评价不同剂量的药物与人体吸收药物的关系,与后期临床试验不同,需要提前设计好起始剂量、最高剂量、剂量水平数量和剂量梯度等[5]。
由于I期临床试验是创新药首次用于人体,是初步的临床药理学及人体安全性评价试验,可以根据临床耐受性试验阶段和临床药动学试验阶段分步设计,也可以不同阶段交叉融合进行复合型研究方案设计。这一点和后期临床试验有着明显区别,因此,2022年的《扩展版指南》在原《指南》SAP的报告内容上进行了扩展,适用于早期临床试验,包含I期临床试验以及Ⅱ期非随机临床试验。
此外,由国际人用药品注册技术协调会(International Council for Harmonisation of Technical Requirements for Pharmaceuticals for Human Use,ICH)的专家工作组制订的统计原则指南(ICH-E9)主要用于新药研发后期阶段的临床试验,其大多数都是用于确认疗效的试验,但也表示ICH-E9对早期临床试验的SAP与后期临床试验有着相同要求[6]。一项研究提出,在早期临床试验中使用基于模型的设计更有优势,也建议更多地使用基于模型的设计[7]。使用这种设计会引入额外的统计参数,对SAP的质量有着更高的需求。针对临床早期试验对《指南》进行扩展,是遵循了ICH-E9早期临床试验也应有SAP的要求,并考虑到了与后期临床试验的差异,使得《扩展版指南》覆盖范围更加广泛,更加通用。
2 制订过程及条目变化概要
2018年4月,在英国临床研究合作(UK Clinical Research Collaboration)注册的临床试验单位(Clinical Trials Unit,CTU)网络的统计师业务小组会议上对《指南》进行了讨论,认为有必要针对早期临床试验进行扩展。经过对现有SAP指南的全面检索,对临床试验资助者及监管者的调查,对CTU的调查以及严格评价、专家评审会议后,进行了《扩展版指南》的试点,最后形成《扩展版指南》的最终版,于2022年1月发表在BMJ[3]。
《指南》含有55个条目,经过本次修改,30个条目保持不变,为了更好地贴合早期临床试验,对25个条目进行了修改,增加了11个新条目。新增及有较大改动的条目包括:① 针对早期临床试验的设计方法差异,增加关于统计设计方法细节的报告,以及模型选择的细节(如果适用)。② 由于ICH-E9(R1)[8]的广泛应用,对“结果(outcome)”的定义进行更新,纳入了估计目标的定义,与ICH-E9(R1)概述的原则保持一致。③ 纳入了含有操作特征(operating characteristics)的数据模拟报告,对不同情况下模型的运行状况进行评估。④ 纳入了新设计方法所使用的模型代码。⑤ 在使用剂量递增试验的设计时,纳入剂量转变路径(dose transition pathways)。⑥ 修改措辞,使用语在频率论和贝叶斯方法间更加中立,以反映一些早期临床试验设计,特别是在I期试验中使用贝叶斯方法的情况。
3 条目变化的具体阐述
《扩展版指南》中条目的变化可以主要分为几大原因,主要包括试验目的、设计、贝叶斯统计、数据模拟、样本量和ICH-E9(R1)的应用等。《扩展版指南》的条目见附件表1。
3.1 试验目的
试验目的反映了试验要回答的科学问题。与后期临床试验更关注疗效相比,早期临床试验有着更多的目标,如应当明确最终的试验结论是否基于毒性、疗效、药代动力学、药效动力学或上述因素的某种组合。在设计联合评估毒性和功效时,还需要规定如果得出不同的结论,应以哪一个为优先目的。因此条目8添加了要明确研究“关键”目的,要明确主要目的和次要目的,以贴合早期临床试验的多目标性。
3.2 试验设计
由于I期临床试验需要确定新药的毒性和安全剂量范围,常使用剂量递增试验来检验人体药物耐受性。在剂量递增试验中研究者需要确定最大推荐起始剂量,即基于安全性考虑推荐使用的最大剂量,预期中这个剂量不会产生毒性反应[5],试验将从这个剂量开始。之后剂量递增的决策可以基于两种不同的设计进行,一种是基于规则的设计,如传统3+3设计、快速滴定设计,这种设计要求按照一定的规则提前制定剂量队列,以及制定做出剂量上升、下降的规则,后续在试验实施时,严格按照规则进行。另一种是基于模型的设计,如连续重评估法(continual reassessment method,CRM),这是一种贝叶斯框架的适应性方法,在研究前制定好剂量-毒性关系假设统计模型,在试验中将先完成试验的患者数据纳入模型中进行模型更新,由此计算得出下一个试验剂量。此外,还有一种模型辅助(model-assisted)设计,将模型设计与规则设计结合使用。
在早期临床试验中,研究者需要在SAP中报告试验阶段和设计方法,如Ⅱ期单臂试验或剂量递增试验,因为根据不同的试验阶段和试验设计,研究者需要报告的内容有所不同,见条目9a。此处条目的变化主要集中在剂量递增试验部分,研究者需要报告起始剂量水平的来源,针对不同的设计,研究者需要对剂量队列、剂量变化的规则、过量用药的划分、期中分析的剂量决定、模型参数、公式及更新时间等信息进行说明,这些在条目9b、9c、9d、9e、13a、20中有所体现。在分析方法中,基于模型设计需要预先指定替代模型以及公式和数学说明(27d说明)。
剂量递增试验中,有时会有复杂的剂量递增/下降机制,或是使用新的设计方法,此时使用剂量转变途径(dose transition pathways)可以有效辅助决策。应当使用表格或树状/图说明不同剂量限制性毒性(dose limiting toxicity,DLT)下的剂量转变途径,见条目34。
3.3 贝叶斯方法
早期临床试验中有许多研究是基于贝叶斯方法下进行的,如剂量递增试验中的CRM法。贝叶斯方法与通常的频率统计的假设检验法有所不同,假设检验是针对样本进行假设以及统计推断,以拒绝零假设的方式来反证备择假设的正确(即一般根据P<0.05进行判断);而贝叶斯方法需要先确定模型先验分布(prior distribution),得到样本信息后计算先验分布得到当前样本的概率似然函数,最后再综合考虑先验分布和似然函数,得出模型的后验分布(posterior distribution),即根据新数据对模型进行调整。因此,SAP也需要说明研究是在频率统计的假设检验还是贝叶斯框架下进行的,见条目12。
贝叶斯方法由于没有进行假设检验,也不需指定检验显著性水准,结果的呈现也不存在P值。为了加入对贝叶斯方法的考虑,《扩展版指南》中将原标题“可信区间与P值”更改为“不确定标识(indications of uncertainty)”,条目16也对解释部分进行更改,以体现P值的报告是可选的。根据研究者使用的方法,也要选择报告置信区间(confidence interval,CI)还是贝叶斯可信区间(credible interval,CrI)。
3.4 统计模拟
当使用基于模型或是模型辅助的剂量递增试验设计时,可以使用统计模拟的方式对估计目标以及不同假设下模型的运行情况进行评估。此时应当在SAP中报告进行模型设计、进行模拟和统计分析的统计软件包(条目31),模拟运行的特征(条目33),完整的模型详情以及程序代码(条目35),使得剂量递增的决策过程透明化和可复现化。
3.5 样本量及缺失数据
I期临床试验是新药首次用于人体,受试人群的样本量往往因药物的作用机制、生物学效应的类型和程度、动物实验的安全剂量范围不同等有差异。所以样本量的计算具有不确定性。例如,一般情况下,耐受性试验设计时考虑的原则是起始剂量组的例数较少[“哨兵试验(sentinel trail)”,甚至只有1例受试者]。而药动学试验则会考虑满足统计学要求,达到8~12例/组。考虑到这个问题,《扩展版指南》不要求报告样本量计算的完整细节,而是“样本量确定或证明合理”的完整细节。对于I期试验,通过每个队列的患者数量以及预期入组的队列总数可能足以证明试验样本量的合理性;对于剂量递增试验,还需要详细说明在未观测到DLT情况下预计招募的最小样本量(条目11)。由于样本量有限,对于缺失数据也不建议填补,包括多重填补等常规方式(条目28说明)。
3.6 ICH-E9(R1)的考量
2017年ICH公布的ICH-E9的附录,即ICH-E9(R1)中提出了统计分析的不同策略[8]。首先是对伴发事件(intercurrent events)的定义,指的是在治疗开始后发生的,会妨碍变量的观测或影响对变量解释的事件,如需要对受试者进行抢救时额外服用的药物或因为毒性事件而停止治疗等。ICH-E9(R1)中针对伴发事件提供了五种策略,分别是:① 疗法策略(treatment policy strategy),无论是否发生伴发事件,都使用事先计划的指标进行分析。这种策略与ICH-E9中的ITT原则相似,使用该策略时研究的是混合了伴发事件时的治疗效应。但当伴发事件导致关注的结局指标消失时,不能采用该策略。② 复合策略(composite strategy),将伴发事件与一个或多个其他测量结局合并作为一个新的关注变量,如此分析新的变量便可以同时考虑到临床指标和伴发事件。③ 假想策略(hypothetical strategy),假设不会发生伴发事件,所研究的是试验药物在不发生所定义的伴发事件下的疗效。该策略的关键是对假设进行精准的描述,以反映所研究的科学问题。④ 主层策略(principal stratum strategy),将潜在的可能发生(或不发生)伴发事件的人群定义为主层人群,所研究的问题将针对主层人群进行分析。主层与亚组有区别,亚组是根据已发生、已明确的协变量进行分类的,而主层要根据潜在的发生(未发生)伴发事件进行区分,这在研究前是无法得出的,需要根据协变量推测出主层人群。⑤ 在治策略(while on treatment strategy),只关注伴发事件发生前的数据,根据伴发事件发生前的数据进行评价。
ICH-E9(R1)中为了将治疗效果量化,对治疗效应进行精确描述,提出了估计目标的概念。估计目标是用于将试验目标转化为研究者所关心的科学问题而产生的,其包括四个方面,分别是目标人群即研究人群、目标变量(终点)即评价指标、伴发事件、目标变量在目标人群水平的效果(population-level summary for the variable)。目标变量在目标人群水平的效果需要通过比较得出,以率差、均值差等形式体现。
为了使临床试验有更强的一致性和清晰度,ICH-E9(R1)基于估计目标提出了一个结构性框架。首先根据试验目标定义出估计目标,由此将试验目标通过对估计目标的定义转化为研究者关心的科学问题。之后在估计目标下根据数据类型选择主要估计方法(main estimator),根据试验数据计算得出估计值(estimate)。对于每一个估计方法,都建议使用敏感性分析,评估在偏离检验假设的情况下采用当前估计方法的稳健性。
由于ICH-E9(R1)的广泛应用,《扩展版指南》中根据ICH-E9(R1)的概念将标题“结局定义”改为“估计目标定义”,并要求报告干预措施的细节(26a)和估计目标定义中的四个部分(26b~26e)。
此外,在“分析方法”部分对条目或是说明用词进行了调整,加入了估计目标、估计方法等概念(27a~27f)。
4 《扩展版指南》对早期临床试验设计的启示
《扩展版指南》针对ICH-E9(R1)的发布以及临床试验早期的特殊性进行了扩展,对于早期临床试验透明化以及SAP报告规范化有着重要作用。在早期临床试验设计阶段应注重以下内容:① 明确研究关键目的。若存在多个研究目的并行,应当分清主次,应当规定得出不同的结论时以哪一个为优先目的。② 重视《扩展版指南》要求报告的设计细节。需要报告的内容往往都会对试验的结果产生影响,为了使试验透明化并可复现才要求报告,因此应当在这些方面更加重视。早期临床试验在设计阶段需要重视剂量水平、模型等设计细节对结果可能产生的影响。③ 将ICH-E9(R1)中的伴发事件纳入设计考量。早期临床试验以探索性目的居多,主要的伴发事件为剂量调整、受试者依从性差、终止治疗或者脱落等。早期临床试验中,干预组的净效应对后期临床试验有着更重要的参考意义,所以假想策略是此阶段的主要策略。例如,针对剂量调整和依从性差的情况,导致实际药物暴露水平发生了变化,可以假设所有受试者都依从试验方案情况下,对初步的剂量-反应关系的进行探索。同时,进行敏感性分析对结果的稳健性进行估计。④ 考虑使用贝叶斯的方法进行早期临床试验设计。贝叶斯方法在早期临床研究领域的应用有着特殊优势。在使用贝叶斯方法的过程中,也需要注重模型的模拟与模拟报告,可以验证模型在不同条件下的稳健性,并使得该结果更加可信。
《指南》和《扩展版指南》的提出对从早期到后期的临床研究质量的提升将起到关键作用。建议未来的临床研究在设计阶段,同时参考两版指南,进行纵向前瞻性的规划。使得更多早期临床试验能够进入后期验证阶段,也促进后期临床试验有更高的成功率。