随机对照试验(RCTs)是评估干预与结局指标因果效应的“金标准”。然而,由于研究成本高昂和伦理限制,在临床实际中,尤其是在外科领域中开展RCTs面临受试者招募困难、盲法实施困难和干预标准化困难等诸多挑战。在此情况下,基于目标试验模拟(target trial emulation,TTE)框架、利用真实世界数据按照RCTs研究设计原则进行因果推断,有助于识别并减少传统观察性研究因设计缺陷产生的永恒时间偏倚、混杂偏倚、选择偏倚或碰撞偏倚,以得到接近RCTs的高质量证据,提高真实世界数据研究的临床指导价值。但TTE存在无法完全消除混杂、源数据质量要求高和暂缺报告规范等局限,故研究者应充分认识以免做出错误的因果推断。本文拟就TTE的框架简介、实施要点、应用范围、应用案例及框架优缺点进行概述。
随机对照试验(randomized controlled trials,RCTs)是评估干预与结局指标因果效应以及干预成本效益的“金标准”[1]。不同于其他研究设计,RCTs可通过随机化消除组间及组内差异、平衡混杂因素并减少选择偏倚,采用盲法减少测量偏倚和实施偏倚,并通过对照原则消除各种非试验因素(如时间)引起的因果效应[2]。然而,RCTs时间和经济成本高昂,受试者招募困难,且伦理顾虑较多,因此,从可行性的角度,并非所有临床问题均可由RCTs解决[3-4]。此外,为追求内部效度,RCTs纳入人群往往高度均一,而排除特殊人群(如老年患者或多种合并症患者、致死性急性疾病患者等),使其外推性和普适性受限[5]。当需要及时性证据或评估干预的长期疗效时,RCTs并非首选[5-6]。此外,相较于药物RCTs,外科手术操作的不可逆性使患者招募困难、临床决策者与实施者一致性使盲法实施困难、医生的个体化操作习惯使手术干预标准化困难,也使得在外科领域开展RCTs面临更多挑战[7-9]。例如,老年早期肺癌患者中行根治手术是否获益更多目前尚无定论[10],亟需高质量循证医学证据,但由于此类人群合并症多且基础条件差,接受手术机会有限,存在伦理限制等问题,故该主题的RCTs设计和实施均面临严重的可行性问题。此时,开展设计严谨的观察性研究,尤其是真实世界数据分析研究,可能为临床决策提供高质量证据[11]。
真实世界数据来源广泛,包括电子病历(electronic medical record)、电子健康档案(electronic health record)、药品与疾病登记(drug dispensation register)或医疗保险资料(health care claims)等[6]。基于多源性真实世界数据的观察性研究可提高结论的外推性,并能持续评估干预的安全性、有效性以及研究结论的稳健性,利用观察性真实世界数据进行因果推断也渐受青睐[3, 11]。相较于RCTs,基于真实世界数据估计因果效应更依赖于满足因果推断以及所用统计模型的基本假设,因此从观察性研究中得出的因果推论本质上较RCTs更具推测性[3, 12-14]。有观点认为,观察性研究干预缺乏随机分配是影响其因果效应估计的关键[3, 15]。尽管使用统计学方法平衡组间混杂因素以模仿随机分配可减少混杂[15-16],但仅此无法完成合理的因果效应估计,若观察性研究透明性差且设计存在缺陷,还可导致选择偏倚、永恒时间偏倚和现使用者偏倚等产生错误估计效应,从而误导临床决策[17-19]。
在RCTs不可及而又需要进行因果推断时,为得出接近RCTs的稳健因果推论,可行的方法是遵循已有或假设的RCTs(即“目标试验”,target trial)研究设计和分析原则来分析观察性真实世界数据,以上研究框架被称为“目标试验模拟(target trial emulation,TTE)”[20]。该框架可基于高质量观察性真实世界数据,对目标试验进行模拟分析,帮助控制观察性研究设计及分析中可能存在的偏倚,尽量避免错误的因果推论,以期得到类似RCTs的高质量结果,为卫生决策提供可靠证据[21-22]。本文拟就TTE的框架简介、实施要点、应用范围、应用案例及框架优缺点进行概述。
1 TTE框架简介
TTE是基于目标试验研究设计来分析观察性真实世界数据以完成因果效应估计的研究框架。针对每一个研究干预的因果效应的问题,在可获观察性数据的限制下,设计一个理想的假设RCT,这个RCT被称作解决该研究问题的目标试验。目标试验应在目标试验方案中被明确指定,详细定义诸如纳入排除标准、干预措施、分配程序、治疗起点、盲法、零时刻、随访期、结局指标、分析方案与因果对比等关键要素。受可获数据所限,需评估目标试验是否可用现有观察性数据模拟。如不可行,需迭代重新指定目标试验,直至可模拟。如更新目标试验仍无法回答原研究问题,则寻找其他观察性数据源。完成目标试验方案后,利用现有真实世界数据构建设计严谨的观察性研究去正确模拟目标试验的每个要素(图1)。

TTE框架将理想的目标试验与观察性研究置于同一度量标准上并在方案中明确指定每个要素,有助于减少混杂、避免永恒时间偏倚和选择偏倚,克服传统观察性数据因果分析中的可避免的陷阱[23],同时提高研究设计的透明度。具体来说,该框架要求研究者提出具体干预措施,除明确干预的种类、剂量以及时间外,还需确定干预是启动治疗还是持续治疗[如:“是否启动阿兹夫定治疗”还是“随访期间全程使用阿兹夫定”对重症新型冠状病毒(COVID-19)感染患者全因死亡的影响]。此外,研究者还需根据研究目的及数据源质量确定是否设置入组宽限期及其时长。真实世界中,随访开始和某些干预启动(如手术)之间可能存在延迟时,因此设置宽限期将允许研究对象在符合纳入排除标准后一段时间再分配干预措施,以增加TTE样本量并使模拟更贴近RCTs。另外,在RCTs中,随机化的目的在于平衡干预分配时的混杂因素,因此在TTE中模拟随机分配时,可采用倾向性评分(匹配、分层、调整和逆概率加权)或参数g-formula (Parametric g-formula) 方法等统计学方法其他平衡组间混杂因素,并通过标准化平均差异来评估(绝对差异<10%被认为平衡)[24]。
在TTE研究中需明确定义研究开始的基线时间点,即零时刻,并确保零时刻时研究对象符合纳入排除标准入组、干预分配和随访开始3大时间点同时开始,否则可引发永恒时间偏倚(详见第2部分第4条)[20, 25]。然而,由于研究目的不同,同一个人可以在一个或多个不同的时间点满足纳入与排除标准。例如,当研究目的为“比较在接受血液透析3个月的患者中使用高剂量与低剂量促红细胞生成素疗效”时,零时刻的即可设置为血液透析3个月后;然而,当研究目的为“比较在绝经后女性中,启动雌激素加孕激素治疗与不启动治疗的效果”时,一名女士在绝经后有多个可以作为零时刻的时间点。此时有两种方式来确定零时刻:1)统一选择单一符合条件的时刻(例如,第一个符合条件的时间或随机选择的符合条件时间);2)所有符合条件的时刻或其中的一个大子集。后者需要根据干预和协变量数据收集的频率模拟多个不同零时刻的嵌套试验[26]。
在进行数据统计分析前,需要对数据分析集进行定义,并按照该定义进行数据分析。常见的数据分析集包括意向性分析 (intention-to-treat population,ITT),调整后ITT(modified ITT,mITT)和符合方案集分析(per- protocol analysis,PP)。在RCTs中,ITT纳入所有随机化后患者,无论失访或中途改变治疗方案均按照分配方案进行分析,由于干预分配是随机的,RCT的ITT分析不会受混杂因素的影响。mITT在ITT人群的基础上,仅做最必要的排除,即排除不满足主要纳入与排除标准者、未接受干预者和随机化后缺失所有数据者;PP则仅对依从干预的人群进行分析[27]。在TTE研究中,由于观察性研究缺乏随机化,且观察性数据的完整性可能受各种主客观因素影响(如在单中心电子病历数据中,若患者零时刻后某药处方数据突然中断,原因既可能与药物相关,如不耐受、效果差停药或死亡,也可能与药物本身无关,如患者改变就医机构所致就诊记录中断),因此更多采用PP分析,如因研究目的确实需要ITT分析,则应采用mITT进行分析,且对基线混杂因素进行充分调整[24-25, 28]。
TTE框架并不偏好任何识别分析策略或者统计方法,但要求研究者在从提出研究问题到结果解释的每一个步骤中明确提出并指定合理的假设,提高结果的有效性和解释性。在实际解决问题过程中,研究者可自由选择最适合其研究问题的方法,在不深入研究问题细节的情况下,最好的建议也许是使用能够满足研究因果目标的最简单方法。此外,相比传统分析仅提供风险比,该框架估算各干预措施下结局的绝对风险,更有助于临床决策[20, 29-30] 。
2 TTE框架实施要点
为确保按照RCTs研究设计开展TTE,以下实施要点应充分考虑在内,以避免得出错误结论。
2.1 先验设计纳入与排除标准
TTE框架的纳入与排除标准应根据RCTs要求设计,既可参考已发表研究方案,也可自行重新设计,但最好在审查数据前先验设计,以免错误引入基线后信息作为纳入与排除标准[31]。此外,若设计纳入与排除标准时未考虑目标人群既往是否接受过目标干预,则可因现使用者依从性较好、药物长期效应等因素对结局指标造成影响,产生现使用者偏倚[17]。
2.2 考虑影响干预的因素
对于某些特定干预而言,在规划干预细节时,应结合临床实际考虑可能影响干预的因素。例如在评估手术干预时,与固定剂量药物干预不同,手术干预的标准化与外科医生的熟练度、患者的解剖学和病理学特点、以及护士、助手和麻醉师团队的配合、术后管理与康复流程密切相关,因此为尽量保证干预的标准性和一致性,如果目标数据源包含此类信息,制定目标试验时需充分纳入考虑[7]。
2.3 充足信息模拟随机分配
为通过模拟随机化平衡组间混杂因素,目标数据库应包含充足数据信息以供校正,可采用有向无环图辅助识别和指定协变量[32]。
2.4 确保零时刻时入组、分配及随访“三点对齐”
以上3大时间点RCTs中在随机化时即对齐,但在观察性研究中,常由于零时刻设置不明产生各种已知和未知偏倚[33-34]。通常来说,研究对象需在符合条件入组至干预措施分配之间(即“永恒时间”)存活或未发生结局指标才能接受干预,否则被归为对照或非干预组[35]。当研究对象还未暴露于干预时但随访已开始时,永恒时间被归类于干预暴露至结局指标发生的时间段内(即随访时间),或入组后干预组随访起点晚于对照组,导致永恒时间被错误删失,均可引入永恒时间偏倚,导致干预与结局指标的效应估计产生偏差[36]。例如,在观察性数据中,只有存活到计划手术日期的患者才会接受手术,如果以上3大时间点在设计阶段未对齐,则从入组至接受手术之前(即“永恒时间”)内死亡的患者将会被错误划分至对照组,导致手术获益被人为夸大[37]。
2.5 根据实际确定入组宽限期
设置入组宽限期时,其长短不应对最终结局产生影响,可通过设置不同宽限期的敏感性分析和“克隆—删失加权法”来防止在宽限期内发生的事件被分配至各组的偏倚,避免宽限期的设置与零时刻产生冲突[38-39]。
2.6 合理设置随访时长
TTE中随访时长的设置除考虑结局指标自然病程和发生率、以及预估样本量外,还应考虑目标数据集的中位随访时间,以使设置合理。如现有数据不满足有意义的随访时长,则需更换数据源。
2.7 准确确立结局指标
与RCTs一样,应事先定义主要和次要结局指标以及对应测量方法。最好采用验证措施评估结局指标准确性(如:在电子病历数据中通过ICD编码筛查加人工审核临床症状及检验学指标多重确认“泌尿道感染”这一结局指标)。此外,由于现实中临床医师通常知晓个体干预措施,这可能影响其对结局指标的主观判断,因此应尽可能选择客观性较强的结局指标(如死亡等)[38]。
2.8 合理处置缺失变量
当纳入排除标准中涉及的变量存在缺失时,如直接排除缺失变量个体进行分析可能产生偏倚,可在纳入排除患者之前对完全随机缺失或随机缺失类型且缺失量较小(传统认为缺失率上限应﹤20%)缺失变量进行多重插补以增加样本量[40],并消除选择偏倚[21, 41]。
2.9 统计方案并非TTE最关键要素
有观点错误认为,通过TTE完成因果效应估计的关键在于运用高级统计学模型,但实际上TTE研究要点在于遵循设计临床试验的原则来衡量因果效应,统计学方法仅为研究设计一部分。此外,研究仍需遵守因果推断基本假设,如无干扰性、可交换性、正性和一致性等[12-14, 21]。
3 应用范围
目前TTE框架最常应用于药物流行病学领域,可持续监测获批药物的安全有效性[42-44]或探索药物新适应证[45],尤其适用于诸如COVID-19等突发公共卫生事件[46-47]。Gupta等[48]使用危重COVID-19患者的观察性数据来模拟目标试验,发现入住ICU前2 d接受托珠单抗治疗的患者院内死亡风险较低,随后的一项大型RCTs[49]证实了以上结论。除此之外,TTE还用于探究饮食干预或社会因素与健康结局的关联[50-51],以及提高药物靶标孟德尔随机化研究质量[52]。另外,当研究旨在估计相对风险(率)而非绝对风险(率),并且有关治疗或混杂因素的信息对于整个队列不可用,但可为一小部分病例和对照所获取时,TTE框架还可拓展至巢式病例对照设计,因后者可视作对潜在队列的有效抽样[53-54]。
相较于药物、饮食或社会因素等干预,外科干预的依从性在分配时几乎确定,故使用TTE框架评估单次外科干预因果效应的结果相对更稳健[25]。在这种情况下,TTE可大量扩充样本以补充既往结果(如减肥手术与癌症风险[55]),评估因伦理限制RCTs难以纳入(如健康状况更差、合并症发生率更高的老年患者[37, 56-57])、预后较差(如胰腺癌患者[12])以及现实中难以招募的患者(如大量愿意在异地就医接受陌生外科医生手术干预的患者[14]、内镜切除后切缘阴性同时接受额外手术的早期结直肠癌患者[58]),或者暂缺RCTs证据的病种(如局限性高危前列腺癌手术或放疗的选择[59])。为评估文首所提及的老年早期肺癌患者行根治手术的获益,Maringe等[37]基于TTE框架进行研究设计,使用英国国家癌症登记处记录的癌症患者数据和二级护理管理记录,纳入诊断年龄70~89岁且一般情况良好的非小细胞肺癌Ⅰ期或Ⅱ期患者,通过符合方案集分析探究诊断后6个月内接受手术对患者1年生存期的影响。在进行因果推断前,Maringe等[37]评估了因果假设的合理性,如正性(一般情况良好的非小细胞肺癌老年患者仍有非零概率接受或不接受手术)、一致性(早期非小细胞肺癌手术程序标准化高)和可交换性(由于采用克隆方法,两组在基线时相同)等。此外,在理想假设下,进行手术的决定是完全随机,或者基于与结局指标无关的患者特征作出的;但事实上,观察性数据中大多数患者的手术干预决策是基于与结局指标生存相关的特征(如年龄、体能状态和合并症指数等),即混杂因素所作出的,因此Maringe等采用逆概率删失加权法(inverse probability of censoring weighting)确保手术干预决策的随机性[60]。研究结果显示,即使考虑到手术等待时间,老年人群诊断后6个月内接受手术也可在第1年增加13 d(95% CI 8~20 d)的预期寿命,填补此类人群研究领域空白[37]。
4 应用案例
应用抗病毒药物是治疗COVID-19的主要措施之一。2022年2月,奈玛特韦-利托那韦获中国国家药品监督管理局的应急附条件批准,成为COVID-19高危患者的标准抗病毒药物之一。彼时该药在国内外缺乏大型RCTs评估疗效,且批准初期药物可及的不确定性使患者是否接受奈玛特韦-利托那韦治疗基本成为随机事件(即接受治疗更多取决于是否有药,而非临床特征),而另一替代药物阿兹夫定的有效安全性证据仍显不足。为及时获得有关奈玛特韦-利托那韦疗效的高质量证据,本团队基于2022年12月1日—2023年1月19日四川省3家三甲医院的住院患者信息以及四川省疾病预防控制中心数据库的出院后全因死亡记录和疫苗接种信息,通过TTE框架评估了阿兹夫定和奈玛特韦-利托那韦在中国Omicron BA.5.2亚变种流行期间对中重症COVID-19患者的疗效[61]。
4.1 提出因果问题
在中重症COVID-19成人患者中,如果所有患者接受为期5 d的奈玛特韦–利托那韦或阿兹夫定治疗,与未接受抗病毒治疗患者相比,入院后30 d内全因死亡、开始有创机械通气及其复合结局的平均风险是多少?
4.2 研究流程
(1)确定纳入排除标准 与目标试验相同(表1),但由于电子病历中的时间评估和记录未标准化,故纳入入院前后一个日历日内,而非24 h内首次出现新冠病毒核酸检测阳性(以下简称“核酸阳性”)患者,并排除基线风险可能更高以至无机会口服药物以及入组前30 d或入组后两日内肝肾功能指标信息不全者。

(2)确定干预措施 由于该多中心队列中无法获得出院后口服药物给药的信息,故假设出院后的药物管理与出院当天的药物管理保持一致(表1)。
(3)干预措施分配 考虑急诊入院并在急诊已用药的情况,根据在零时刻前1 d至零时刻结束时是否接受了阿兹夫定、奈玛特韦-利托那韦或无抗病毒治疗来分类患者,通过逆概率加权调整基线混杂因素来模拟随机化。
(4)零时刻 由于入组时刻当日药物医嘱信息可能不全,故每个参与者的零时刻设置为入组时刻次日结束时。对于入院后24 h内核酸阳性的患者,入组时刻为检测时间;入院前24 h内核酸阳性的患者,入组时刻为入院时间。
(5)确定结局指标 主要结局指标:全因死亡和有创机械通气的单独与复合结局;次要结局指标及安全性结局指标见表1。
(6)随访 研究从零时刻开始随访所有参与者,直至死亡或零时刻后30 d。
(7)因果对比 PP分析。
(8)统计学分析 通过逆概率加权调整基线混杂因素,使用加权Cox比例风险回归估计风险比和95%CI,采用共享脆弱性Cox模型减少同一医院内结果的内部同质性,使用治疗权重生成调整后累积发病率。采用“克隆-删失-加权”法完成PP分析。首先采用克隆方法,并对偏离指定干预或在零时刻后第5 d之前出院的参与者进行删失处理。然后使用删失加权法来处理因删失引入的选择偏倚,并调整年龄、性别、COVID-19的基线严重程度以及删失前1 d的特征。
(9)亚组分析 年龄、性别、病情严重程度、疾病危险因素和发病到入院日期。
(10)敏感性分析 第一,消除永恒时间偏倚:分别将零时刻设置为入组时刻及入组时刻次日结束时并使用嵌套式TTE分析;第二,设置宽限期:评估在随机分配后5 d内(说明书推荐用药时期)开始使用阿兹夫定和奈玛特韦-利托那韦的效果;第三,其他敏感性分析:将首次核酸阳性时间更改为“入院前7 d或入院后24 h内”或“入院前3 d或入院后24 h内”;排除在随机分配前15 d内使用相互作用药物的患者;删除在随机分配后的30 d或者死亡之前出院的患者。
(3)严重COVID-19,根据以下任何无法解释为COVID-19感染以外原因的标准定义:1)呼吸频率≥每分钟30次的气促;2)静息血氧饱和度≤93%;3)血氧分压(PaO2)/吸氧分数(FiO2)≤300 mm Hg(1 mm Hg=0.133 kPa)。在海拔高度超过1 000 m的地区,PaO2/FiO2应根据以下公式进行修正:PaO2/FiO2×[760/大气压(mm Hg)];或4)在24~48 h内临床症状逐渐加重,并伴有影像学肺病变显著(>50%)进展;b:入组日期为患者核酸检测首次阳性的日期(如果阳性检测发生在入院后)或入院日期(如果阳性检测发生在入院前),这是目标试验中的时间零点,并且在模拟试验中是T0的前1 d;c:7级评分包括:(1)未住院,恢复正常活动;(2)未住院,但无法恢复正常活动;(3)住院,不需要额外的氧气;(4)住院,需要额外的氧气;(5)住院,需要经鼻高流量氧疗、非有创机械通气或两者兼施;(6) 住院,需要ECMO、有创机械通气或两者兼施;和(7)死亡;d:进展为严重至危重COVID-19的危险因素包括:年龄≥65岁、体重指数≥28 kg/m2、吸烟者、慢性阻塞性肺病、心血管疾病、慢性肾脏疾病、高血压、糖尿病和癌症;e:相互作用药物包括阿米奥达林、咪达唑仑、埃斯他唑仑、利福平、利福布汀、博康唑、氯硝西泮、苯巴比妥钠、安定、辛伐他汀、哌替啶盐酸盐、卡马西平、硫托溴铵盐酸盐、替卡格雷、普罗帕酮盐酸盐、苯巴比妥、富马酸奎提阿平、氯氮平和苯妥英钠
4.3 研究结果
与无抗病毒治疗相比,阿兹夫定(HR=0.47,95%CI 0.24~0.92)和奈玛特韦-利托那韦(HR=0.38,95%CI 0.18~0.81)均可以减少中重度COVID-19成人患者入院后30 d内的全因死亡和有创机械通气的复合结局以及独立结局,前者还可降低心肺复苏事件发生,后者还可降低进展为重症COVID-19的风险,亚组分析未发现交互作用效应,敏感性分析均证实了结果的稳健性。奈玛特韦-利托那韦组的安全性结局指标发生率总体较阿兹夫定和对照组更高。
5 TTE框架局限性
尽管TTE可减少观察性研究因研究设计缺陷引发的偏倚,但该框架并非解决所有因果问题的“灵丹妙药”,其不可避免存在诸多局限(表2)。

(1)尽管TTE可改善观察性研究设计,但框架本身并不能消除混杂[38]。由于采用观察性真实世界数据,TTE研究仍可能存在未知混杂因素,并也会受测量偏倚、缺失数据等因素影响,可通过回溯因果假设、研究设计及数据来源,并使用敏感性分析和定量偏倚分析(quantitative bias analysis)进行检验[11, 21, 62]。
(2)观察性的研究设计使得满足正性假设上存在挑战,因此无法模拟安慰剂对照,或者模拟患者存在禁忌症的用药,也无法模拟盲法试验[20]。
(3)TTE研究结论的稳健性依赖于数据来源及数据质量(诸如保险索赔数据等可能无法提供足够的临床信息以供矫正混杂因素),也依赖于做出的所有推断因果的假设,因此需使用不同的假设分析作为敏感性分析以检验结论稳健性。
(4)TTE框架各要素的合理设计对研究者临床经验要求较高,譬如上述案例中干预措施和零时刻的选择即分别考虑临床实际中存在“急诊入院且已用药”或“入组当日药物医嘱信息不全”的情况并做相应调整和敏感性分析,故完成高质量TTE研究有赖于跨学科团队(研究者、数据收集者、流行病学家及临床医生)通体合作。
(5)由于暂缺适用于TTE研究的报告规范,部分TTE研究的框架各组分未正确设定,研究报告质量缺乏一致性[63],引发学界对TTE研究过程透明性和研究结果可重复性的担忧[64-66]。
6 小结
在无法进行RCTs时,利用真实世界数据通过TTE框架估计因果效应已成为一种研究新思路。与RCTs类似的是,该框架将研究设计步骤与研究分析过程分离,有助于克服传统观察性研究因设计缺陷产生的偏倚,同时明确研究假设及研究过程,提高真实世界数据研究的临床指导价值。但研究者需充分认识到TTE设计的局限性,避免在因果假设模糊、数据质量有限或框架要素设置不明的情况下盲目开展TTE研究,以免做出错误的因果推断。
利益冲突:无。
作者贡献:袁驰负责撰写和修改论文;周祎灵负责设计和修改论文;曹雨滋、张豪杰和王依倩负责收集文献相关资料;李舍予负责选题和指导。
随机对照试验(randomized controlled trials,RCTs)是评估干预与结局指标因果效应以及干预成本效益的“金标准”[1]。不同于其他研究设计,RCTs可通过随机化消除组间及组内差异、平衡混杂因素并减少选择偏倚,采用盲法减少测量偏倚和实施偏倚,并通过对照原则消除各种非试验因素(如时间)引起的因果效应[2]。然而,RCTs时间和经济成本高昂,受试者招募困难,且伦理顾虑较多,因此,从可行性的角度,并非所有临床问题均可由RCTs解决[3-4]。此外,为追求内部效度,RCTs纳入人群往往高度均一,而排除特殊人群(如老年患者或多种合并症患者、致死性急性疾病患者等),使其外推性和普适性受限[5]。当需要及时性证据或评估干预的长期疗效时,RCTs并非首选[5-6]。此外,相较于药物RCTs,外科手术操作的不可逆性使患者招募困难、临床决策者与实施者一致性使盲法实施困难、医生的个体化操作习惯使手术干预标准化困难,也使得在外科领域开展RCTs面临更多挑战[7-9]。例如,老年早期肺癌患者中行根治手术是否获益更多目前尚无定论[10],亟需高质量循证医学证据,但由于此类人群合并症多且基础条件差,接受手术机会有限,存在伦理限制等问题,故该主题的RCTs设计和实施均面临严重的可行性问题。此时,开展设计严谨的观察性研究,尤其是真实世界数据分析研究,可能为临床决策提供高质量证据[11]。
真实世界数据来源广泛,包括电子病历(electronic medical record)、电子健康档案(electronic health record)、药品与疾病登记(drug dispensation register)或医疗保险资料(health care claims)等[6]。基于多源性真实世界数据的观察性研究可提高结论的外推性,并能持续评估干预的安全性、有效性以及研究结论的稳健性,利用观察性真实世界数据进行因果推断也渐受青睐[3, 11]。相较于RCTs,基于真实世界数据估计因果效应更依赖于满足因果推断以及所用统计模型的基本假设,因此从观察性研究中得出的因果推论本质上较RCTs更具推测性[3, 12-14]。有观点认为,观察性研究干预缺乏随机分配是影响其因果效应估计的关键[3, 15]。尽管使用统计学方法平衡组间混杂因素以模仿随机分配可减少混杂[15-16],但仅此无法完成合理的因果效应估计,若观察性研究透明性差且设计存在缺陷,还可导致选择偏倚、永恒时间偏倚和现使用者偏倚等产生错误估计效应,从而误导临床决策[17-19]。
在RCTs不可及而又需要进行因果推断时,为得出接近RCTs的稳健因果推论,可行的方法是遵循已有或假设的RCTs(即“目标试验”,target trial)研究设计和分析原则来分析观察性真实世界数据,以上研究框架被称为“目标试验模拟(target trial emulation,TTE)”[20]。该框架可基于高质量观察性真实世界数据,对目标试验进行模拟分析,帮助控制观察性研究设计及分析中可能存在的偏倚,尽量避免错误的因果推论,以期得到类似RCTs的高质量结果,为卫生决策提供可靠证据[21-22]。本文拟就TTE的框架简介、实施要点、应用范围、应用案例及框架优缺点进行概述。
1 TTE框架简介
TTE是基于目标试验研究设计来分析观察性真实世界数据以完成因果效应估计的研究框架。针对每一个研究干预的因果效应的问题,在可获观察性数据的限制下,设计一个理想的假设RCT,这个RCT被称作解决该研究问题的目标试验。目标试验应在目标试验方案中被明确指定,详细定义诸如纳入排除标准、干预措施、分配程序、治疗起点、盲法、零时刻、随访期、结局指标、分析方案与因果对比等关键要素。受可获数据所限,需评估目标试验是否可用现有观察性数据模拟。如不可行,需迭代重新指定目标试验,直至可模拟。如更新目标试验仍无法回答原研究问题,则寻找其他观察性数据源。完成目标试验方案后,利用现有真实世界数据构建设计严谨的观察性研究去正确模拟目标试验的每个要素(图1)。

TTE框架将理想的目标试验与观察性研究置于同一度量标准上并在方案中明确指定每个要素,有助于减少混杂、避免永恒时间偏倚和选择偏倚,克服传统观察性数据因果分析中的可避免的陷阱[23],同时提高研究设计的透明度。具体来说,该框架要求研究者提出具体干预措施,除明确干预的种类、剂量以及时间外,还需确定干预是启动治疗还是持续治疗[如:“是否启动阿兹夫定治疗”还是“随访期间全程使用阿兹夫定”对重症新型冠状病毒(COVID-19)感染患者全因死亡的影响]。此外,研究者还需根据研究目的及数据源质量确定是否设置入组宽限期及其时长。真实世界中,随访开始和某些干预启动(如手术)之间可能存在延迟时,因此设置宽限期将允许研究对象在符合纳入排除标准后一段时间再分配干预措施,以增加TTE样本量并使模拟更贴近RCTs。另外,在RCTs中,随机化的目的在于平衡干预分配时的混杂因素,因此在TTE中模拟随机分配时,可采用倾向性评分(匹配、分层、调整和逆概率加权)或参数g-formula (Parametric g-formula) 方法等统计学方法其他平衡组间混杂因素,并通过标准化平均差异来评估(绝对差异<10%被认为平衡)[24]。
在TTE研究中需明确定义研究开始的基线时间点,即零时刻,并确保零时刻时研究对象符合纳入排除标准入组、干预分配和随访开始3大时间点同时开始,否则可引发永恒时间偏倚(详见第2部分第4条)[20, 25]。然而,由于研究目的不同,同一个人可以在一个或多个不同的时间点满足纳入与排除标准。例如,当研究目的为“比较在接受血液透析3个月的患者中使用高剂量与低剂量促红细胞生成素疗效”时,零时刻的即可设置为血液透析3个月后;然而,当研究目的为“比较在绝经后女性中,启动雌激素加孕激素治疗与不启动治疗的效果”时,一名女士在绝经后有多个可以作为零时刻的时间点。此时有两种方式来确定零时刻:1)统一选择单一符合条件的时刻(例如,第一个符合条件的时间或随机选择的符合条件时间);2)所有符合条件的时刻或其中的一个大子集。后者需要根据干预和协变量数据收集的频率模拟多个不同零时刻的嵌套试验[26]。
在进行数据统计分析前,需要对数据分析集进行定义,并按照该定义进行数据分析。常见的数据分析集包括意向性分析 (intention-to-treat population,ITT),调整后ITT(modified ITT,mITT)和符合方案集分析(per- protocol analysis,PP)。在RCTs中,ITT纳入所有随机化后患者,无论失访或中途改变治疗方案均按照分配方案进行分析,由于干预分配是随机的,RCT的ITT分析不会受混杂因素的影响。mITT在ITT人群的基础上,仅做最必要的排除,即排除不满足主要纳入与排除标准者、未接受干预者和随机化后缺失所有数据者;PP则仅对依从干预的人群进行分析[27]。在TTE研究中,由于观察性研究缺乏随机化,且观察性数据的完整性可能受各种主客观因素影响(如在单中心电子病历数据中,若患者零时刻后某药处方数据突然中断,原因既可能与药物相关,如不耐受、效果差停药或死亡,也可能与药物本身无关,如患者改变就医机构所致就诊记录中断),因此更多采用PP分析,如因研究目的确实需要ITT分析,则应采用mITT进行分析,且对基线混杂因素进行充分调整[24-25, 28]。
TTE框架并不偏好任何识别分析策略或者统计方法,但要求研究者在从提出研究问题到结果解释的每一个步骤中明确提出并指定合理的假设,提高结果的有效性和解释性。在实际解决问题过程中,研究者可自由选择最适合其研究问题的方法,在不深入研究问题细节的情况下,最好的建议也许是使用能够满足研究因果目标的最简单方法。此外,相比传统分析仅提供风险比,该框架估算各干预措施下结局的绝对风险,更有助于临床决策[20, 29-30] 。
2 TTE框架实施要点
为确保按照RCTs研究设计开展TTE,以下实施要点应充分考虑在内,以避免得出错误结论。
2.1 先验设计纳入与排除标准
TTE框架的纳入与排除标准应根据RCTs要求设计,既可参考已发表研究方案,也可自行重新设计,但最好在审查数据前先验设计,以免错误引入基线后信息作为纳入与排除标准[31]。此外,若设计纳入与排除标准时未考虑目标人群既往是否接受过目标干预,则可因现使用者依从性较好、药物长期效应等因素对结局指标造成影响,产生现使用者偏倚[17]。
2.2 考虑影响干预的因素
对于某些特定干预而言,在规划干预细节时,应结合临床实际考虑可能影响干预的因素。例如在评估手术干预时,与固定剂量药物干预不同,手术干预的标准化与外科医生的熟练度、患者的解剖学和病理学特点、以及护士、助手和麻醉师团队的配合、术后管理与康复流程密切相关,因此为尽量保证干预的标准性和一致性,如果目标数据源包含此类信息,制定目标试验时需充分纳入考虑[7]。
2.3 充足信息模拟随机分配
为通过模拟随机化平衡组间混杂因素,目标数据库应包含充足数据信息以供校正,可采用有向无环图辅助识别和指定协变量[32]。
2.4 确保零时刻时入组、分配及随访“三点对齐”
以上3大时间点RCTs中在随机化时即对齐,但在观察性研究中,常由于零时刻设置不明产生各种已知和未知偏倚[33-34]。通常来说,研究对象需在符合条件入组至干预措施分配之间(即“永恒时间”)存活或未发生结局指标才能接受干预,否则被归为对照或非干预组[35]。当研究对象还未暴露于干预时但随访已开始时,永恒时间被归类于干预暴露至结局指标发生的时间段内(即随访时间),或入组后干预组随访起点晚于对照组,导致永恒时间被错误删失,均可引入永恒时间偏倚,导致干预与结局指标的效应估计产生偏差[36]。例如,在观察性数据中,只有存活到计划手术日期的患者才会接受手术,如果以上3大时间点在设计阶段未对齐,则从入组至接受手术之前(即“永恒时间”)内死亡的患者将会被错误划分至对照组,导致手术获益被人为夸大[37]。
2.5 根据实际确定入组宽限期
设置入组宽限期时,其长短不应对最终结局产生影响,可通过设置不同宽限期的敏感性分析和“克隆—删失加权法”来防止在宽限期内发生的事件被分配至各组的偏倚,避免宽限期的设置与零时刻产生冲突[38-39]。
2.6 合理设置随访时长
TTE中随访时长的设置除考虑结局指标自然病程和发生率、以及预估样本量外,还应考虑目标数据集的中位随访时间,以使设置合理。如现有数据不满足有意义的随访时长,则需更换数据源。
2.7 准确确立结局指标
与RCTs一样,应事先定义主要和次要结局指标以及对应测量方法。最好采用验证措施评估结局指标准确性(如:在电子病历数据中通过ICD编码筛查加人工审核临床症状及检验学指标多重确认“泌尿道感染”这一结局指标)。此外,由于现实中临床医师通常知晓个体干预措施,这可能影响其对结局指标的主观判断,因此应尽可能选择客观性较强的结局指标(如死亡等)[38]。
2.8 合理处置缺失变量
当纳入排除标准中涉及的变量存在缺失时,如直接排除缺失变量个体进行分析可能产生偏倚,可在纳入排除患者之前对完全随机缺失或随机缺失类型且缺失量较小(传统认为缺失率上限应﹤20%)缺失变量进行多重插补以增加样本量[40],并消除选择偏倚[21, 41]。
2.9 统计方案并非TTE最关键要素
有观点错误认为,通过TTE完成因果效应估计的关键在于运用高级统计学模型,但实际上TTE研究要点在于遵循设计临床试验的原则来衡量因果效应,统计学方法仅为研究设计一部分。此外,研究仍需遵守因果推断基本假设,如无干扰性、可交换性、正性和一致性等[12-14, 21]。
3 应用范围
目前TTE框架最常应用于药物流行病学领域,可持续监测获批药物的安全有效性[42-44]或探索药物新适应证[45],尤其适用于诸如COVID-19等突发公共卫生事件[46-47]。Gupta等[48]使用危重COVID-19患者的观察性数据来模拟目标试验,发现入住ICU前2 d接受托珠单抗治疗的患者院内死亡风险较低,随后的一项大型RCTs[49]证实了以上结论。除此之外,TTE还用于探究饮食干预或社会因素与健康结局的关联[50-51],以及提高药物靶标孟德尔随机化研究质量[52]。另外,当研究旨在估计相对风险(率)而非绝对风险(率),并且有关治疗或混杂因素的信息对于整个队列不可用,但可为一小部分病例和对照所获取时,TTE框架还可拓展至巢式病例对照设计,因后者可视作对潜在队列的有效抽样[53-54]。
相较于药物、饮食或社会因素等干预,外科干预的依从性在分配时几乎确定,故使用TTE框架评估单次外科干预因果效应的结果相对更稳健[25]。在这种情况下,TTE可大量扩充样本以补充既往结果(如减肥手术与癌症风险[55]),评估因伦理限制RCTs难以纳入(如健康状况更差、合并症发生率更高的老年患者[37, 56-57])、预后较差(如胰腺癌患者[12])以及现实中难以招募的患者(如大量愿意在异地就医接受陌生外科医生手术干预的患者[14]、内镜切除后切缘阴性同时接受额外手术的早期结直肠癌患者[58]),或者暂缺RCTs证据的病种(如局限性高危前列腺癌手术或放疗的选择[59])。为评估文首所提及的老年早期肺癌患者行根治手术的获益,Maringe等[37]基于TTE框架进行研究设计,使用英国国家癌症登记处记录的癌症患者数据和二级护理管理记录,纳入诊断年龄70~89岁且一般情况良好的非小细胞肺癌Ⅰ期或Ⅱ期患者,通过符合方案集分析探究诊断后6个月内接受手术对患者1年生存期的影响。在进行因果推断前,Maringe等[37]评估了因果假设的合理性,如正性(一般情况良好的非小细胞肺癌老年患者仍有非零概率接受或不接受手术)、一致性(早期非小细胞肺癌手术程序标准化高)和可交换性(由于采用克隆方法,两组在基线时相同)等。此外,在理想假设下,进行手术的决定是完全随机,或者基于与结局指标无关的患者特征作出的;但事实上,观察性数据中大多数患者的手术干预决策是基于与结局指标生存相关的特征(如年龄、体能状态和合并症指数等),即混杂因素所作出的,因此Maringe等采用逆概率删失加权法(inverse probability of censoring weighting)确保手术干预决策的随机性[60]。研究结果显示,即使考虑到手术等待时间,老年人群诊断后6个月内接受手术也可在第1年增加13 d(95% CI 8~20 d)的预期寿命,填补此类人群研究领域空白[37]。
4 应用案例
应用抗病毒药物是治疗COVID-19的主要措施之一。2022年2月,奈玛特韦-利托那韦获中国国家药品监督管理局的应急附条件批准,成为COVID-19高危患者的标准抗病毒药物之一。彼时该药在国内外缺乏大型RCTs评估疗效,且批准初期药物可及的不确定性使患者是否接受奈玛特韦-利托那韦治疗基本成为随机事件(即接受治疗更多取决于是否有药,而非临床特征),而另一替代药物阿兹夫定的有效安全性证据仍显不足。为及时获得有关奈玛特韦-利托那韦疗效的高质量证据,本团队基于2022年12月1日—2023年1月19日四川省3家三甲医院的住院患者信息以及四川省疾病预防控制中心数据库的出院后全因死亡记录和疫苗接种信息,通过TTE框架评估了阿兹夫定和奈玛特韦-利托那韦在中国Omicron BA.5.2亚变种流行期间对中重症COVID-19患者的疗效[61]。
4.1 提出因果问题
在中重症COVID-19成人患者中,如果所有患者接受为期5 d的奈玛特韦–利托那韦或阿兹夫定治疗,与未接受抗病毒治疗患者相比,入院后30 d内全因死亡、开始有创机械通气及其复合结局的平均风险是多少?
4.2 研究流程
(1)确定纳入排除标准 与目标试验相同(表1),但由于电子病历中的时间评估和记录未标准化,故纳入入院前后一个日历日内,而非24 h内首次出现新冠病毒核酸检测阳性(以下简称“核酸阳性”)患者,并排除基线风险可能更高以至无机会口服药物以及入组前30 d或入组后两日内肝肾功能指标信息不全者。

(2)确定干预措施 由于该多中心队列中无法获得出院后口服药物给药的信息,故假设出院后的药物管理与出院当天的药物管理保持一致(表1)。
(3)干预措施分配 考虑急诊入院并在急诊已用药的情况,根据在零时刻前1 d至零时刻结束时是否接受了阿兹夫定、奈玛特韦-利托那韦或无抗病毒治疗来分类患者,通过逆概率加权调整基线混杂因素来模拟随机化。
(4)零时刻 由于入组时刻当日药物医嘱信息可能不全,故每个参与者的零时刻设置为入组时刻次日结束时。对于入院后24 h内核酸阳性的患者,入组时刻为检测时间;入院前24 h内核酸阳性的患者,入组时刻为入院时间。
(5)确定结局指标 主要结局指标:全因死亡和有创机械通气的单独与复合结局;次要结局指标及安全性结局指标见表1。
(6)随访 研究从零时刻开始随访所有参与者,直至死亡或零时刻后30 d。
(7)因果对比 PP分析。
(8)统计学分析 通过逆概率加权调整基线混杂因素,使用加权Cox比例风险回归估计风险比和95%CI,采用共享脆弱性Cox模型减少同一医院内结果的内部同质性,使用治疗权重生成调整后累积发病率。采用“克隆-删失-加权”法完成PP分析。首先采用克隆方法,并对偏离指定干预或在零时刻后第5 d之前出院的参与者进行删失处理。然后使用删失加权法来处理因删失引入的选择偏倚,并调整年龄、性别、COVID-19的基线严重程度以及删失前1 d的特征。
(9)亚组分析 年龄、性别、病情严重程度、疾病危险因素和发病到入院日期。
(10)敏感性分析 第一,消除永恒时间偏倚:分别将零时刻设置为入组时刻及入组时刻次日结束时并使用嵌套式TTE分析;第二,设置宽限期:评估在随机分配后5 d内(说明书推荐用药时期)开始使用阿兹夫定和奈玛特韦-利托那韦的效果;第三,其他敏感性分析:将首次核酸阳性时间更改为“入院前7 d或入院后24 h内”或“入院前3 d或入院后24 h内”;排除在随机分配前15 d内使用相互作用药物的患者;删除在随机分配后的30 d或者死亡之前出院的患者。
(3)严重COVID-19,根据以下任何无法解释为COVID-19感染以外原因的标准定义:1)呼吸频率≥每分钟30次的气促;2)静息血氧饱和度≤93%;3)血氧分压(PaO2)/吸氧分数(FiO2)≤300 mm Hg(1 mm Hg=0.133 kPa)。在海拔高度超过1 000 m的地区,PaO2/FiO2应根据以下公式进行修正:PaO2/FiO2×[760/大气压(mm Hg)];或4)在24~48 h内临床症状逐渐加重,并伴有影像学肺病变显著(>50%)进展;b:入组日期为患者核酸检测首次阳性的日期(如果阳性检测发生在入院后)或入院日期(如果阳性检测发生在入院前),这是目标试验中的时间零点,并且在模拟试验中是T0的前1 d;c:7级评分包括:(1)未住院,恢复正常活动;(2)未住院,但无法恢复正常活动;(3)住院,不需要额外的氧气;(4)住院,需要额外的氧气;(5)住院,需要经鼻高流量氧疗、非有创机械通气或两者兼施;(6) 住院,需要ECMO、有创机械通气或两者兼施;和(7)死亡;d:进展为严重至危重COVID-19的危险因素包括:年龄≥65岁、体重指数≥28 kg/m2、吸烟者、慢性阻塞性肺病、心血管疾病、慢性肾脏疾病、高血压、糖尿病和癌症;e:相互作用药物包括阿米奥达林、咪达唑仑、埃斯他唑仑、利福平、利福布汀、博康唑、氯硝西泮、苯巴比妥钠、安定、辛伐他汀、哌替啶盐酸盐、卡马西平、硫托溴铵盐酸盐、替卡格雷、普罗帕酮盐酸盐、苯巴比妥、富马酸奎提阿平、氯氮平和苯妥英钠
4.3 研究结果
与无抗病毒治疗相比,阿兹夫定(HR=0.47,95%CI 0.24~0.92)和奈玛特韦-利托那韦(HR=0.38,95%CI 0.18~0.81)均可以减少中重度COVID-19成人患者入院后30 d内的全因死亡和有创机械通气的复合结局以及独立结局,前者还可降低心肺复苏事件发生,后者还可降低进展为重症COVID-19的风险,亚组分析未发现交互作用效应,敏感性分析均证实了结果的稳健性。奈玛特韦-利托那韦组的安全性结局指标发生率总体较阿兹夫定和对照组更高。
5 TTE框架局限性
尽管TTE可减少观察性研究因研究设计缺陷引发的偏倚,但该框架并非解决所有因果问题的“灵丹妙药”,其不可避免存在诸多局限(表2)。

(1)尽管TTE可改善观察性研究设计,但框架本身并不能消除混杂[38]。由于采用观察性真实世界数据,TTE研究仍可能存在未知混杂因素,并也会受测量偏倚、缺失数据等因素影响,可通过回溯因果假设、研究设计及数据来源,并使用敏感性分析和定量偏倚分析(quantitative bias analysis)进行检验[11, 21, 62]。
(2)观察性的研究设计使得满足正性假设上存在挑战,因此无法模拟安慰剂对照,或者模拟患者存在禁忌症的用药,也无法模拟盲法试验[20]。
(3)TTE研究结论的稳健性依赖于数据来源及数据质量(诸如保险索赔数据等可能无法提供足够的临床信息以供矫正混杂因素),也依赖于做出的所有推断因果的假设,因此需使用不同的假设分析作为敏感性分析以检验结论稳健性。
(4)TTE框架各要素的合理设计对研究者临床经验要求较高,譬如上述案例中干预措施和零时刻的选择即分别考虑临床实际中存在“急诊入院且已用药”或“入组当日药物医嘱信息不全”的情况并做相应调整和敏感性分析,故完成高质量TTE研究有赖于跨学科团队(研究者、数据收集者、流行病学家及临床医生)通体合作。
(5)由于暂缺适用于TTE研究的报告规范,部分TTE研究的框架各组分未正确设定,研究报告质量缺乏一致性[63],引发学界对TTE研究过程透明性和研究结果可重复性的担忧[64-66]。
6 小结
在无法进行RCTs时,利用真实世界数据通过TTE框架估计因果效应已成为一种研究新思路。与RCTs类似的是,该框架将研究设计步骤与研究分析过程分离,有助于克服传统观察性研究因设计缺陷产生的偏倚,同时明确研究假设及研究过程,提高真实世界数据研究的临床指导价值。但研究者需充分认识到TTE设计的局限性,避免在因果假设模糊、数据质量有限或框架要素设置不明的情况下盲目开展TTE研究,以免做出错误的因果推断。
利益冲突:无。
作者贡献:袁驰负责撰写和修改论文;周祎灵负责设计和修改论文;曹雨滋、张豪杰和王依倩负责收集文献相关资料;李舍予负责选题和指导。