引用本文: 何倩, 潘喆敏, 向蔓, 宛慧琴, 秦婴逸, 贺佳. 多阅片者多病例设计影像诊断试验准确度评价的统计分析方法. 中国循证医学杂志, 2024, 24(9): 1085-1093. doi: 10.7507/1672-2531.202312140 复制
影像诊断试验的准确度往往不仅取决于仪器或算法的特性,还受潜在干扰因素的影响,包括:阅片者的经验水平(如阅片者的能力、阅片结果的稳健性)及病例影像的变异(如病例的难易程度、影像质量)等[1-4]。传统影像诊断试验准确度评价研究通常纳入1~2名阅片者,每名阅片者各自对部分病例进行评价,分析时将所有阅片者基于同一诊断方法的阅片结果作为一个整体,故只能估计两种诊断方法的准确性指标,而无法考虑阅片者及病例影像的变异。如果忽略这些变异,可能使检验效能降低,尤其当变异较大时,可能导致准确度估计的精度下降,甚至产生偏倚。近年来有学者提出多阅片者多病例设计(multi-reader multi-case,MRMC),该设计通常要求多名阅片者同时对所有病例进行评价,因此在统计分析时,能够考虑阅片者及病例影像变异对诊断试验结果的影响,从而实现对诊断准确度的无偏估计及准确推断,增加检验效能,并使结果能够外推至研究纳入的病例及阅片者之外的病例和阅片者总体[5]。
MRMC设计自提出以来广泛应用于计算机辅助诊断(computer aided diagnosis,CAD)、影像诊断及人工智能辅助诊断等产品[5,6]的临床评价。美国食品药品监督管理局2022年颁布的指导原则Clinical performance assessment: considerations for computer-assisted detection devices applied to radiology images and radiology device data in premarket notification (510(k)) submissions中推荐使用MRMC设计评价CAD辅助诊断的临床表现[6]。此外,美国影像学相关诊断设备的新产品上市申报也要求开展以受试者工作特征(receiver operating characteristic,ROC)曲线下面积(area under curve,AUC)作为主要终点的MRMC研究进行临床验证[7]。我国监管部门最近推出的《深度学习辅助决策医疗器械软件审评要点》[8]和《乳腺X射线系统注册技术审查指导原则》[9]中也推荐选择MRMC设计。
如前所述,相比传统准确度评价试验设计,MRMC设计有诸多优点。然而,MRMC设计可能存在阅片结果间复杂的相关关系,也可能存在诊断方法和阅片者间潜在的交互作用。因此无论是试验设计、样本量计算以及后续统计分析,都比传统设计更加专业和复杂。此外,近年来虽然国家药品监督管理局器械技术审评中心开始推荐采用MRMC设计[10],但由于这一设计方法在我国的应用起步较晚,且软件实现受限,故目前国内开展的MRMC研究仍然相对较少。同时,MRMC的应用仍存误用错用的问题[11],如Dendumrongsup[12]针对已发表的MRMC研究质量分析报告中所述,有许多研究存在统计学检验效能低估、统计分析方法模糊不清的问题。
针对上述情况,本文旨在通过理论推导与实例研究,详细阐述MRMC设计中常用统计分析方法的原理和实际应用并辅以实现代码,旨在帮助研究人员更深入地理解MRMC设计的统计分析方法,推进MRMC设计的应用,从而更客观地评价影像诊断试验的准确性。此外,基于我们在实际临床研究中的观察,本文还归纳了目前MRMC设计与分析中的一些未满足的需求,并提出可能的解决方案。为方便理解,下文中提到的模型都将基于匹配阅片者匹配病例的全交叉析因设计且阅片者和病例都作为随机效应的情景。
1 Obuchowski-Rockette(OR)方法
1.1 模型构建
1.1.1 混合效应模型
MRMC设计与传统诊断试验准确度研究最大的差异是MRMC设计下的数据具有复杂的相关结构,如相同阅片者基于不同诊断方法阅片时的相关性、不同阅片者基于相同的阅片方法读片时的相关性以及不同阅片者基于不同诊断方法阅读相同病例时的相关性,并且阅片者的变异可能会对结果造成影响。常用的统计分析方法如t检验、方差分析往往要求各样本相互独立。配对t检验虽然可以处理相关性问题,但会忽略读片者变异的影响。如果忽略以上这些因素直接使用配对t检验或者未校正的方差分析,可能产生错误的结论[4]。
为处理这些复杂的相关结构,并考虑阅片者变异对结果可能的影响,Obuchowski和Rockette[13]于1995年提出了针对MRMC设计的基于诊断准确性指标(figure of merit,FOM)的混合效应方差分析模型(即OR方法)。
该方法首先构建混合效应模型,考虑次重复试验情况下:
![]() |
其中,指
次重复试验下第
个诊断试验第
名阅片者的FOM估计值(如AUC估计值或其他准确度估计值)。
为常数,指所有诊断方法、阅片者以及重复读片情况下准确度指标的均值。模型中固定效应包括:
为第
种诊断方法的固定效应。随机效应包括:阅片者的随机效应
、诊断方法与阅片者的交互项
以及误差项
。
与
相互独立,服从均数为0,方差分别为
和
的正态分布。
由于各阅片者基于各诊断方法阅读的是相同的病例,因此与普通方差分析模型不同的是,OR模型下误差项并不独立。误差项实际为均数=0,长度为
的向量,服从
的多元正态分布:
。在不同阅片者间和不同诊断方法间协方差是一致的同等相关(equi-covariance)假定下,协方矩阵
:
![]() |
1.1.2 协方差矩阵的含义及求解
协方差矩阵中,代表病例的变异与阅片者内部变异之和。
代表不同诊断方法相同阅片者诊断准确度误差项的协方差,
代表相同诊断方法不同阅片者诊断准确度误差项的协方差,
代表不同阅片者对不同诊断方法中相同病例的诊断准确度误差项的协方差。
Obuchowski和Rockette[13]认为从临床实际角度考虑,他们应该满足:
![]() |
假设次重复试验的情况下,可通过以下公式求解协方差矩阵[14]。
![]() |
![]() |
![]() |
![]() |
基于同等相关的假定,,
,
,
实际为各情况下各组合的平均值。
然而实际工作中,考虑到成本与时间因素,往往,因此无法直接估计协方差矩阵。对此可采用Bootstrap[15]、Jackknife或DeLong方法[16],对数据进行重抽样,从而估计协方差矩阵。值得注意的是,当使用Jackknife法时得到的是Jackknife FOM,即去除某个值后重新估计的FOM,而不是下述Dorfman-Berbaum-Metz(DBM)方法提到的Jackknife伪值,并且使用Jackknife方法估计协方差矩阵时,需要乘以一个方差膨胀系数[14]。
1.2 假设检验
Obuchowski和Rockette[13]基于Pavur和Nath[17]通过对F统计量乘以系数进行校正从而实现对相关性数据进行分析的思想,提出了适用于MRMC设计的统计量校正方法,并认为校正后的
统计量自由度与未校正情况下
统计量的自由度一致:
原假设:
![]() |
![]() |
上式中为诊断试验数,
为阅片者数。由于实际
和
需要从数据或者前期研究中估计,因此实际的
统计量为:
![]() |
然而,模拟研究结果显示,上述方法在应用过程中可能会导致结果过于保守。尤其是在阅片者数量相对较少的情况下,这一问题更加显著[13,14]。
1.3 方法优化
为解决OR方法过于保守的问题,Hillis对OR方法进行了优化[18-20]:
① F统计量的优化:Hillis将F统计量的分母加上了max项。该优化使得这一限制条件得以实现,并且避免了F统计量的分母可能为负值的情况。
![]() |
② 分母自由度校正:原始OR法的分母自由度,Hillis于2007年对分母自由度进行校正。
![]() |
基于校正后的分母自由度,当时,校正后的分母自由度大于原始OR方法的分母自由度
,对应的
值将增大,
值将减小,于是有更大的可能拒绝原假设,进而避免了原始OR方法过于保守的情况。模拟研究[20]表明优化后的OR方法I类错误发生率非常接近名义检验水准。
2 DBM方法
2.1 模型构建
2.1.1 Jackknife伪值
Dorfman[21]提出了基于病例层面Jackknife伪值(Jackknife pseudovalue)的混合效应方差分析方法,该方法称为DBM方法。
假设总样本中包括疾病状态者
与非疾病状态者
,即
。
指阅片者
在第
个诊断方法下评价所有样本得到的诊断准确性指标的估计值。
指从总样本中剔除第
个样本后的
,那么第
个病人在第
名阅片者第
个诊断试验下的Jackknife伪值
可通过以下公式计算[21]:
![]() |
![]() |
![]() |
简单地说,第个样本的Jackknife伪值可以看作是诊断准确性指标的加权差值,即从所有样本中估计得到的准确度减去剔除第
个样本后估计得到的准确度的差值[22]。
2.1.2 混合效应模型
Dorfman进一步基于伪值构建混合效应线性模型,在考虑
次重复读片的情况下模型为:
![]() |
![]() |
其中,为常数,指所有诊断方法、阅片者、病例以及重复读片情况下伪值的均值。固定效应包括:
为第
种诊断方法的固定效应,
。随机效应包括:第
名阅片者的随机效应
;第
个病例对应的随机效应
;各效应可能的二阶或三阶交互项
、
、
、
;以及随机误差项
,它们相互独立并服从均数为0,方差分别为
,
,
,
,
,
,
的正态分布。这些方差一般统称为方差成分(variance components)。
其中,指阅片者内的变异,需要通过重复阅片计算,考虑成本限制通常情况下
=1,即第
名阅片者在第
种诊断方式下并不会对第
个样本进行重复阅片,因此
往往难以估计。所幸,通过下述方差分析模型可知,不可估计项的存在并不影响后续的假设检验。
2.1.3 方差分析表
无重复读片情况下混合效应模型对应的方差分析如表1所示[23]。

2.2 假设检验
原假设:
在没有试验效应的原假设情况下,即时,
![]() |
此时以下期望均方的线性组合等于:
![]() |
因此,原假设成立时,
![]() |
由于在实际应用中无法计算期望均方,因此统计量构建时将使用观察到的对应均方值来代替期望均方。构建的统计量如下:
![]() |
其中ndf为分子自由度,即MST的自由度,ddf为分母自由度。
分母部分
是均方的线性组合,基于Satterthwaite于1941[24,25]年提出的自由度校正方法,
分母自由度为:
![]() |
随后根据以下公式即可得出对应的值:
![]() |
如果值小于预先设定的检验水准
则拒绝原假设接受备择假设,认为至少两种诊断方法的差异有统计学意义。
当拒绝原假设,接受备择假设时,。其中
为非中心化参数,用于样本量计算。
![]() |
总的来说,DBM思想是基于Jackknife方法,通过将诊断试验-阅片者层面的FOM转换为病例层面的伪值以实现模型的构建,而伪值的波动性反应了单个病例的难易程度。
2.3 方法优化
原始DBM方法自提出后应用广泛[26],但仍有些问题不容忽视,如:该方法只能给出基于Jackknife方法的准确度估计值而不是原始FOM的估计值,并且模拟研究表明原始DBM方法结果较为保守[27]。基于以上问题Hillis对DBM方法分别进行了优化。
2.3.1 伪值标准化[19 ](或称中心化[14 ])
原始DBM方法下第个诊断试验下第
名阅片者诊断准确度的估计值为
。因此得到的准确度估计值是“Jackknife估计值”,而不是对应的原始FOM的估计值,仅当FOM是由非参数方法估计时两者结果才一致。原始伪值的定义使得DBM方法欠缺灵活性,尤其是当Jackknife估计值与FOM估计值孰优孰劣存在争议时。
Hillis于2005年[18]提出对伪值进行校正,他定义第个病例在第
名阅片者第
个诊断试验的标准化伪值
为原始伪值
加上第
个诊断试验下第
名阅片者的原始FOM的估计值与Jackknife估计值之差,下标的点代表取对应下标的平均值:
![]() |
标准化后的伪值满足:
![]() |
![]() |
应用标准化伪值使DBM方法下单个诊断试验的准确度或多个诊断试验准确度差值的点估计都与原始FOM估计值相符,并且不影响方差成分的计算[18]。
2.3.2 F统计量及分母自由度校正
Dorfman[27]发表的蒙特卡洛模拟研究结果表明原始DBM方法在检验诊断试验准确度的差异性时表现为“适度保守”,并且当AUC较大或病例数较少时保守的情况更为明显。Hillis[19]基于Roe与Metz[28]和Dorfman[27]的模拟框架,探索了使用半参数法得到FOM并基于原始伪值或中心化伪值的DBM方法在不同阅片者数量、病例数量、AUC、方差成分,共144种组合下的I类错误情况,结果表明原始DBM方法(基于原始伪值或中心化伪值)平均I类错误发生率为0.036,明显低于名义检验水准0.05。针对这一问题,DBM方法在上述伪值中心化的基础上进行了如下优化:
2.3.2.1 较少基于数据的模型简化(less data-based model simplification)
Hillis[18]提出在DBM模型中如果(试验病例)交互项的方差成分估计值(
)是非正的,则可将该方差成分赋值为0,即在F统计量构建时将分母的(
)项去除,而F统计量中的
项在任何情况下都应该保留,即使它对应的(试验
阅片者)交互项的方差成分估计值(
)是零或者负的。该优化称为较少基于数据的模型简化。
优化后的F统计量如下:
![]() |
![]() |
这种优化方法的优点是确保了F统计量不为负值。并且此方法在即
时,通过保留
项,避免了统计推断时所面临的“不同诊断试验之间的差异在不同阅片者之间是相同的”这一不符合现实的假设。详细推导可见Hillis于2008年发表的论文[19]。
2.3.2.2 分母自由度校正
原DBM方法的分母自由度是基于Satterthwaite近似得到的针对均方线性组合的自由度,其局限性是当线性组合中的系数是负数时某些情况下该方法可能并不适用[24,29]。模拟研究[20]结果表明,部分情况下Satterthwaite近似计算得到的可能会趋近于0,而这将导致可信区间过宽的问题。
Hillis基于上述对F统计量的优化,进一步对F统计量的分母自由度进行校正。校正后的分母自由度如下:
![]() |
校正后的下限是
,不再会趋近于0。模拟研究[19,30]表明优化F统计量并校正分母自由度后改善了原DBM方法较为保守的情况,I类错误发生率更接近于名义检验水准,并且避免了置信区间过宽的问题。
3 DBM与OR方法的区别与联系
总的来说,OR方法与DBM方法都是基于方差分析的思想,最大的区别在于OR方法是基于FOM构建的二向混合效应方差分析模型,误差项存在相关性。而DBM方法是基于伪值构建的三向混合效应方差分析模型,因而误差项不存在相关性(表2)。

考虑到DBM是基于伪值构建的模型而非实际的FOM,并且在模型伊始假定伪值独立且服从正态分布,而实际上独立性和正态性可能都不满足。相比之下,OR方法基于有实际意义的阅片者层面的FOM(例如:AUC、灵敏度等),并且OR模型的阅片者、试验阅片者交互项独立且服从正态分布,误差项服从正态分布等假定则相较之下更为合理。因此DBM模型往往被挑战其概念及理论模型是否坚实可行。Hillis通过推导得出如表3所示的三种情况时[18],DBM法的F统计量与OR方法的F统计量是一致的。因此,DBM方法可以看作是OR方法的一种特殊情况,而其方差成分
,
,
,
,
,
,
和
则可以从有实际意义的OR法的参数角度来解释。

4 实例研究
4.1 数据来源
实例基于Franken数据集[31],一项比较传统胶卷影像与数字化影像对新生儿胸腹部异常诊断准确性的比较研究。研究共纳入100例受试者,其中67例疾病患者。4名阅片医生基于两种阅片方式分别对所有病例进行评价,6周洗脱期。每名阅片者需分别基于两种阅片方式分别评价每个病例是否存在异常,并给出自信分(1分代表非常可能没有疾病,5分代表非常可能疾病)。准确性评价指标为AUC。
4.2 方法
分别采用优化后DBM方法和优化后OR方法对阅片结果进行统计分析,其中OR方法下协方差矩阵估计采用DeLong(OR-D),Bootstrap(OR-B)和Jackknife(OR-J)三种方式。所有分析在R studio(R studio 版本2022.2.1.461,R版本4.1.2)中进行,OR与DBM分析基于R Jafroc包(版本2.1.1)中StSignificanceTesting()函数。
4.3 结果
如表4所示,传统胶卷影像AUC为0.847 8,数字化影像技术AUC为0.836 9,两组AUC差值0.010 9[95%CI(−0.005 1,0.026 8),P=0.118 8],暂不能认为两种影像技术对新生儿胸腹部异常诊断准确性存在统计学差异。

5 讨论
本文总结了MRMC设计下应用最广泛的两种统计分析方法:OR方法和DBM方法。从公式推导角度阐述了两种方法的原理及优化历程,并通过实例研究对比了这两种方法的应用效果。根据实例研究结果,因OR和DBM方法的AUC点估计值均基于各阅片者在不同诊断方法下的AUC取平均所得,故AUC点估计值结果相同。在置信区间、标准误、统计量和P值方面,理论上,采用不同协方差估计方式的OR方法得到的协方差存在差异,相应的标准误、组间差异的置信区间以及F统计量也可能有所不同。本例中,因各方法计算得到的Cov2-Cov3均小于0,故OR-B,OR-D,OR-J三种方法的标准误、F统计量、差值的95%置信区间均一致。单个诊断方法AUC的置信区间(表4第2、3列),因不涉及,所以不同方法间存在差异。特别地,OR-J与DBM方法结果一致,这与本文第3部分所述的理论一致。在实际应用中,应考虑具体数据特点和研究设计,参考本文第3部分所述OR与DBM方法的区别与联系选择合适的分析方法。
与此同时,在实际临床研究中,我们发现MRMC设计下的统计分析仍存在以下挑战。首先,软件实现限制了OR及DBM方法的应用。由于OR和DBM方法涉及大量的伪值计算以及统计量和自由度的校正,因此无法在SPSS、JMP等常用软件中直接进行计算。目前已有的实现方法仅有:① OR-DBM MRMC软件(版本2.51),但由于目前微软不再兼容该软件的.NET框架,因此现已无法安装[32]。② 基于R环境下的MRMCaov包(版本0.3.0)[33]及RJafroc包(版本2.1.1)[34](图1)。其中,MRMCaov包仅支持优化后的OR方法进行统计推断,且该包对诊断准确度指标限制较大,不支持FROC曲线下面积及AFROC曲线下面积作为终点的统计分析。而RJafroc包虽同时支持优化后的OR方法及DBM方法,但对原始数据的格式要求严格。未来,构建于SAS平台基于优化后的OR及DBM方法并且适用于多种诊断准确性指标的SAS宏程序将有助于OR及DBM方法的应用,并进一步促进影像诊断试验准确度的客观验证。

其次,在MRMC诊断试验研究中,当发生阅片者错读、漏读[35],采集标本不达标或者出现测量技术问题、数据收集过程中发生失误、结果超出阈值等情况时,会产生缺失数据。2020年周晓华课题组[5]基于美国食品药品监督管理局批准的56项CAD医疗器械的临床研究,提出需要广泛关注缺失数据以明确结果是基于什么样情形进行推断的。针对MRMC方法中的缺失数据,最常用的处理方法为完整数据集的方法,即直接剔除包含缺失数据的病例,这包括所有阅片者对于该病例的评价信息。完整数据集方法通常要求缺失类型为完全随机缺失[36],否则得到的结果可能存在偏倚。并且完整数据集方法在会造成额外信息缺失的同时因样本量减少故可能会影响试验结果的普适性和准确性,降低检验效能[37]。由于MRMC设计发展历程较短,目前尚无针对MRMC设计缺失数据处理方法的研究,因此急需适用于MRMC设计并考虑不同缺失机制的缺失数据处理方法以解决这一实际问题。Rubin于1977年[38]提出多重填补的思想,多重填补法根据选择的填补模型,对每个缺失数据填补多次,采用其对应的完整数据集分布进行分析,最后基于Rubin法则合并每个完整数据集的分析结果。多重填补能够正确反映与缺失数据填补过程相关的不确定性增大了填补数据的变异程度,目前已广泛应用于药物临床试验的缺失数据处理。鉴于多重填补的优势,我们认为未来可考虑建立适用于MRMC数据特点的缺失数据多重填补的方法,而这将为实际MRMC设计下诊断试验研究中的缺失数据问题提供一种新的解决思路,并且通过与完整数据法相结合可以从不同角度验证实际临床中诊断试验研究结果的稳健性。
影像诊断试验的准确度往往不仅取决于仪器或算法的特性,还受潜在干扰因素的影响,包括:阅片者的经验水平(如阅片者的能力、阅片结果的稳健性)及病例影像的变异(如病例的难易程度、影像质量)等[1-4]。传统影像诊断试验准确度评价研究通常纳入1~2名阅片者,每名阅片者各自对部分病例进行评价,分析时将所有阅片者基于同一诊断方法的阅片结果作为一个整体,故只能估计两种诊断方法的准确性指标,而无法考虑阅片者及病例影像的变异。如果忽略这些变异,可能使检验效能降低,尤其当变异较大时,可能导致准确度估计的精度下降,甚至产生偏倚。近年来有学者提出多阅片者多病例设计(multi-reader multi-case,MRMC),该设计通常要求多名阅片者同时对所有病例进行评价,因此在统计分析时,能够考虑阅片者及病例影像变异对诊断试验结果的影响,从而实现对诊断准确度的无偏估计及准确推断,增加检验效能,并使结果能够外推至研究纳入的病例及阅片者之外的病例和阅片者总体[5]。
MRMC设计自提出以来广泛应用于计算机辅助诊断(computer aided diagnosis,CAD)、影像诊断及人工智能辅助诊断等产品[5,6]的临床评价。美国食品药品监督管理局2022年颁布的指导原则Clinical performance assessment: considerations for computer-assisted detection devices applied to radiology images and radiology device data in premarket notification (510(k)) submissions中推荐使用MRMC设计评价CAD辅助诊断的临床表现[6]。此外,美国影像学相关诊断设备的新产品上市申报也要求开展以受试者工作特征(receiver operating characteristic,ROC)曲线下面积(area under curve,AUC)作为主要终点的MRMC研究进行临床验证[7]。我国监管部门最近推出的《深度学习辅助决策医疗器械软件审评要点》[8]和《乳腺X射线系统注册技术审查指导原则》[9]中也推荐选择MRMC设计。
如前所述,相比传统准确度评价试验设计,MRMC设计有诸多优点。然而,MRMC设计可能存在阅片结果间复杂的相关关系,也可能存在诊断方法和阅片者间潜在的交互作用。因此无论是试验设计、样本量计算以及后续统计分析,都比传统设计更加专业和复杂。此外,近年来虽然国家药品监督管理局器械技术审评中心开始推荐采用MRMC设计[10],但由于这一设计方法在我国的应用起步较晚,且软件实现受限,故目前国内开展的MRMC研究仍然相对较少。同时,MRMC的应用仍存误用错用的问题[11],如Dendumrongsup[12]针对已发表的MRMC研究质量分析报告中所述,有许多研究存在统计学检验效能低估、统计分析方法模糊不清的问题。
针对上述情况,本文旨在通过理论推导与实例研究,详细阐述MRMC设计中常用统计分析方法的原理和实际应用并辅以实现代码,旨在帮助研究人员更深入地理解MRMC设计的统计分析方法,推进MRMC设计的应用,从而更客观地评价影像诊断试验的准确性。此外,基于我们在实际临床研究中的观察,本文还归纳了目前MRMC设计与分析中的一些未满足的需求,并提出可能的解决方案。为方便理解,下文中提到的模型都将基于匹配阅片者匹配病例的全交叉析因设计且阅片者和病例都作为随机效应的情景。
1 Obuchowski-Rockette(OR)方法
1.1 模型构建
1.1.1 混合效应模型
MRMC设计与传统诊断试验准确度研究最大的差异是MRMC设计下的数据具有复杂的相关结构,如相同阅片者基于不同诊断方法阅片时的相关性、不同阅片者基于相同的阅片方法读片时的相关性以及不同阅片者基于不同诊断方法阅读相同病例时的相关性,并且阅片者的变异可能会对结果造成影响。常用的统计分析方法如t检验、方差分析往往要求各样本相互独立。配对t检验虽然可以处理相关性问题,但会忽略读片者变异的影响。如果忽略以上这些因素直接使用配对t检验或者未校正的方差分析,可能产生错误的结论[4]。
为处理这些复杂的相关结构,并考虑阅片者变异对结果可能的影响,Obuchowski和Rockette[13]于1995年提出了针对MRMC设计的基于诊断准确性指标(figure of merit,FOM)的混合效应方差分析模型(即OR方法)。
该方法首先构建混合效应模型,考虑次重复试验情况下:
![]() |
其中,指
次重复试验下第
个诊断试验第
名阅片者的FOM估计值(如AUC估计值或其他准确度估计值)。
为常数,指所有诊断方法、阅片者以及重复读片情况下准确度指标的均值。模型中固定效应包括:
为第
种诊断方法的固定效应。随机效应包括:阅片者的随机效应
、诊断方法与阅片者的交互项
以及误差项
。
与
相互独立,服从均数为0,方差分别为
和
的正态分布。
由于各阅片者基于各诊断方法阅读的是相同的病例,因此与普通方差分析模型不同的是,OR模型下误差项并不独立。误差项实际为均数=0,长度为
的向量,服从
的多元正态分布:
。在不同阅片者间和不同诊断方法间协方差是一致的同等相关(equi-covariance)假定下,协方矩阵
:
![]() |
1.1.2 协方差矩阵的含义及求解
协方差矩阵中,代表病例的变异与阅片者内部变异之和。
代表不同诊断方法相同阅片者诊断准确度误差项的协方差,
代表相同诊断方法不同阅片者诊断准确度误差项的协方差,
代表不同阅片者对不同诊断方法中相同病例的诊断准确度误差项的协方差。
Obuchowski和Rockette[13]认为从临床实际角度考虑,他们应该满足:
![]() |
假设次重复试验的情况下,可通过以下公式求解协方差矩阵[14]。
![]() |
![]() |
![]() |
![]() |
基于同等相关的假定,,
,
,
实际为各情况下各组合的平均值。
然而实际工作中,考虑到成本与时间因素,往往,因此无法直接估计协方差矩阵。对此可采用Bootstrap[15]、Jackknife或DeLong方法[16],对数据进行重抽样,从而估计协方差矩阵。值得注意的是,当使用Jackknife法时得到的是Jackknife FOM,即去除某个值后重新估计的FOM,而不是下述Dorfman-Berbaum-Metz(DBM)方法提到的Jackknife伪值,并且使用Jackknife方法估计协方差矩阵时,需要乘以一个方差膨胀系数[14]。
1.2 假设检验
Obuchowski和Rockette[13]基于Pavur和Nath[17]通过对F统计量乘以系数进行校正从而实现对相关性数据进行分析的思想,提出了适用于MRMC设计的统计量校正方法,并认为校正后的
统计量自由度与未校正情况下
统计量的自由度一致:
原假设:
![]() |
![]() |
上式中为诊断试验数,
为阅片者数。由于实际
和
需要从数据或者前期研究中估计,因此实际的
统计量为:
![]() |
然而,模拟研究结果显示,上述方法在应用过程中可能会导致结果过于保守。尤其是在阅片者数量相对较少的情况下,这一问题更加显著[13,14]。
1.3 方法优化
为解决OR方法过于保守的问题,Hillis对OR方法进行了优化[18-20]:
① F统计量的优化:Hillis将F统计量的分母加上了max项。该优化使得这一限制条件得以实现,并且避免了F统计量的分母可能为负值的情况。
![]() |
② 分母自由度校正:原始OR法的分母自由度,Hillis于2007年对分母自由度进行校正。
![]() |
基于校正后的分母自由度,当时,校正后的分母自由度大于原始OR方法的分母自由度
,对应的
值将增大,
值将减小,于是有更大的可能拒绝原假设,进而避免了原始OR方法过于保守的情况。模拟研究[20]表明优化后的OR方法I类错误发生率非常接近名义检验水准。
2 DBM方法
2.1 模型构建
2.1.1 Jackknife伪值
Dorfman[21]提出了基于病例层面Jackknife伪值(Jackknife pseudovalue)的混合效应方差分析方法,该方法称为DBM方法。
假设总样本中包括疾病状态者
与非疾病状态者
,即
。
指阅片者
在第
个诊断方法下评价所有样本得到的诊断准确性指标的估计值。
指从总样本中剔除第
个样本后的
,那么第
个病人在第
名阅片者第
个诊断试验下的Jackknife伪值
可通过以下公式计算[21]:
![]() |
![]() |
![]() |
简单地说,第个样本的Jackknife伪值可以看作是诊断准确性指标的加权差值,即从所有样本中估计得到的准确度减去剔除第
个样本后估计得到的准确度的差值[22]。
2.1.2 混合效应模型
Dorfman进一步基于伪值构建混合效应线性模型,在考虑
次重复读片的情况下模型为:
![]() |
![]() |
其中,为常数,指所有诊断方法、阅片者、病例以及重复读片情况下伪值的均值。固定效应包括:
为第
种诊断方法的固定效应,
。随机效应包括:第
名阅片者的随机效应
;第
个病例对应的随机效应
;各效应可能的二阶或三阶交互项
、
、
、
;以及随机误差项
,它们相互独立并服从均数为0,方差分别为
,
,
,
,
,
,
的正态分布。这些方差一般统称为方差成分(variance components)。
其中,指阅片者内的变异,需要通过重复阅片计算,考虑成本限制通常情况下
=1,即第
名阅片者在第
种诊断方式下并不会对第
个样本进行重复阅片,因此
往往难以估计。所幸,通过下述方差分析模型可知,不可估计项的存在并不影响后续的假设检验。
2.1.3 方差分析表
无重复读片情况下混合效应模型对应的方差分析如表1所示[23]。

2.2 假设检验
原假设:
在没有试验效应的原假设情况下,即时,
![]() |
此时以下期望均方的线性组合等于:
![]() |
因此,原假设成立时,
![]() |
由于在实际应用中无法计算期望均方,因此统计量构建时将使用观察到的对应均方值来代替期望均方。构建的统计量如下:
![]() |
其中ndf为分子自由度,即MST的自由度,ddf为分母自由度。
分母部分
是均方的线性组合,基于Satterthwaite于1941[24,25]年提出的自由度校正方法,
分母自由度为:
![]() |
随后根据以下公式即可得出对应的值:
![]() |
如果值小于预先设定的检验水准
则拒绝原假设接受备择假设,认为至少两种诊断方法的差异有统计学意义。
当拒绝原假设,接受备择假设时,。其中
为非中心化参数,用于样本量计算。
![]() |
总的来说,DBM思想是基于Jackknife方法,通过将诊断试验-阅片者层面的FOM转换为病例层面的伪值以实现模型的构建,而伪值的波动性反应了单个病例的难易程度。
2.3 方法优化
原始DBM方法自提出后应用广泛[26],但仍有些问题不容忽视,如:该方法只能给出基于Jackknife方法的准确度估计值而不是原始FOM的估计值,并且模拟研究表明原始DBM方法结果较为保守[27]。基于以上问题Hillis对DBM方法分别进行了优化。
2.3.1 伪值标准化[19 ](或称中心化[14 ])
原始DBM方法下第个诊断试验下第
名阅片者诊断准确度的估计值为
。因此得到的准确度估计值是“Jackknife估计值”,而不是对应的原始FOM的估计值,仅当FOM是由非参数方法估计时两者结果才一致。原始伪值的定义使得DBM方法欠缺灵活性,尤其是当Jackknife估计值与FOM估计值孰优孰劣存在争议时。
Hillis于2005年[18]提出对伪值进行校正,他定义第个病例在第
名阅片者第
个诊断试验的标准化伪值
为原始伪值
加上第
个诊断试验下第
名阅片者的原始FOM的估计值与Jackknife估计值之差,下标的点代表取对应下标的平均值:
![]() |
标准化后的伪值满足:
![]() |
![]() |
应用标准化伪值使DBM方法下单个诊断试验的准确度或多个诊断试验准确度差值的点估计都与原始FOM估计值相符,并且不影响方差成分的计算[18]。
2.3.2 F统计量及分母自由度校正
Dorfman[27]发表的蒙特卡洛模拟研究结果表明原始DBM方法在检验诊断试验准确度的差异性时表现为“适度保守”,并且当AUC较大或病例数较少时保守的情况更为明显。Hillis[19]基于Roe与Metz[28]和Dorfman[27]的模拟框架,探索了使用半参数法得到FOM并基于原始伪值或中心化伪值的DBM方法在不同阅片者数量、病例数量、AUC、方差成分,共144种组合下的I类错误情况,结果表明原始DBM方法(基于原始伪值或中心化伪值)平均I类错误发生率为0.036,明显低于名义检验水准0.05。针对这一问题,DBM方法在上述伪值中心化的基础上进行了如下优化:
2.3.2.1 较少基于数据的模型简化(less data-based model simplification)
Hillis[18]提出在DBM模型中如果(试验病例)交互项的方差成分估计值(
)是非正的,则可将该方差成分赋值为0,即在F统计量构建时将分母的(
)项去除,而F统计量中的
项在任何情况下都应该保留,即使它对应的(试验
阅片者)交互项的方差成分估计值(
)是零或者负的。该优化称为较少基于数据的模型简化。
优化后的F统计量如下:
![]() |
![]() |
这种优化方法的优点是确保了F统计量不为负值。并且此方法在即
时,通过保留
项,避免了统计推断时所面临的“不同诊断试验之间的差异在不同阅片者之间是相同的”这一不符合现实的假设。详细推导可见Hillis于2008年发表的论文[19]。
2.3.2.2 分母自由度校正
原DBM方法的分母自由度是基于Satterthwaite近似得到的针对均方线性组合的自由度,其局限性是当线性组合中的系数是负数时某些情况下该方法可能并不适用[24,29]。模拟研究[20]结果表明,部分情况下Satterthwaite近似计算得到的可能会趋近于0,而这将导致可信区间过宽的问题。
Hillis基于上述对F统计量的优化,进一步对F统计量的分母自由度进行校正。校正后的分母自由度如下:
![]() |
校正后的下限是
,不再会趋近于0。模拟研究[19,30]表明优化F统计量并校正分母自由度后改善了原DBM方法较为保守的情况,I类错误发生率更接近于名义检验水准,并且避免了置信区间过宽的问题。
3 DBM与OR方法的区别与联系
总的来说,OR方法与DBM方法都是基于方差分析的思想,最大的区别在于OR方法是基于FOM构建的二向混合效应方差分析模型,误差项存在相关性。而DBM方法是基于伪值构建的三向混合效应方差分析模型,因而误差项不存在相关性(表2)。

考虑到DBM是基于伪值构建的模型而非实际的FOM,并且在模型伊始假定伪值独立且服从正态分布,而实际上独立性和正态性可能都不满足。相比之下,OR方法基于有实际意义的阅片者层面的FOM(例如:AUC、灵敏度等),并且OR模型的阅片者、试验阅片者交互项独立且服从正态分布,误差项服从正态分布等假定则相较之下更为合理。因此DBM模型往往被挑战其概念及理论模型是否坚实可行。Hillis通过推导得出如表3所示的三种情况时[18],DBM法的F统计量与OR方法的F统计量是一致的。因此,DBM方法可以看作是OR方法的一种特殊情况,而其方差成分
,
,
,
,
,
,
和
则可以从有实际意义的OR法的参数角度来解释。

4 实例研究
4.1 数据来源
实例基于Franken数据集[31],一项比较传统胶卷影像与数字化影像对新生儿胸腹部异常诊断准确性的比较研究。研究共纳入100例受试者,其中67例疾病患者。4名阅片医生基于两种阅片方式分别对所有病例进行评价,6周洗脱期。每名阅片者需分别基于两种阅片方式分别评价每个病例是否存在异常,并给出自信分(1分代表非常可能没有疾病,5分代表非常可能疾病)。准确性评价指标为AUC。
4.2 方法
分别采用优化后DBM方法和优化后OR方法对阅片结果进行统计分析,其中OR方法下协方差矩阵估计采用DeLong(OR-D),Bootstrap(OR-B)和Jackknife(OR-J)三种方式。所有分析在R studio(R studio 版本2022.2.1.461,R版本4.1.2)中进行,OR与DBM分析基于R Jafroc包(版本2.1.1)中StSignificanceTesting()函数。
4.3 结果
如表4所示,传统胶卷影像AUC为0.847 8,数字化影像技术AUC为0.836 9,两组AUC差值0.010 9[95%CI(−0.005 1,0.026 8),P=0.118 8],暂不能认为两种影像技术对新生儿胸腹部异常诊断准确性存在统计学差异。

5 讨论
本文总结了MRMC设计下应用最广泛的两种统计分析方法:OR方法和DBM方法。从公式推导角度阐述了两种方法的原理及优化历程,并通过实例研究对比了这两种方法的应用效果。根据实例研究结果,因OR和DBM方法的AUC点估计值均基于各阅片者在不同诊断方法下的AUC取平均所得,故AUC点估计值结果相同。在置信区间、标准误、统计量和P值方面,理论上,采用不同协方差估计方式的OR方法得到的协方差存在差异,相应的标准误、组间差异的置信区间以及F统计量也可能有所不同。本例中,因各方法计算得到的Cov2-Cov3均小于0,故OR-B,OR-D,OR-J三种方法的标准误、F统计量、差值的95%置信区间均一致。单个诊断方法AUC的置信区间(表4第2、3列),因不涉及,所以不同方法间存在差异。特别地,OR-J与DBM方法结果一致,这与本文第3部分所述的理论一致。在实际应用中,应考虑具体数据特点和研究设计,参考本文第3部分所述OR与DBM方法的区别与联系选择合适的分析方法。
与此同时,在实际临床研究中,我们发现MRMC设计下的统计分析仍存在以下挑战。首先,软件实现限制了OR及DBM方法的应用。由于OR和DBM方法涉及大量的伪值计算以及统计量和自由度的校正,因此无法在SPSS、JMP等常用软件中直接进行计算。目前已有的实现方法仅有:① OR-DBM MRMC软件(版本2.51),但由于目前微软不再兼容该软件的.NET框架,因此现已无法安装[32]。② 基于R环境下的MRMCaov包(版本0.3.0)[33]及RJafroc包(版本2.1.1)[34](图1)。其中,MRMCaov包仅支持优化后的OR方法进行统计推断,且该包对诊断准确度指标限制较大,不支持FROC曲线下面积及AFROC曲线下面积作为终点的统计分析。而RJafroc包虽同时支持优化后的OR方法及DBM方法,但对原始数据的格式要求严格。未来,构建于SAS平台基于优化后的OR及DBM方法并且适用于多种诊断准确性指标的SAS宏程序将有助于OR及DBM方法的应用,并进一步促进影像诊断试验准确度的客观验证。

其次,在MRMC诊断试验研究中,当发生阅片者错读、漏读[35],采集标本不达标或者出现测量技术问题、数据收集过程中发生失误、结果超出阈值等情况时,会产生缺失数据。2020年周晓华课题组[5]基于美国食品药品监督管理局批准的56项CAD医疗器械的临床研究,提出需要广泛关注缺失数据以明确结果是基于什么样情形进行推断的。针对MRMC方法中的缺失数据,最常用的处理方法为完整数据集的方法,即直接剔除包含缺失数据的病例,这包括所有阅片者对于该病例的评价信息。完整数据集方法通常要求缺失类型为完全随机缺失[36],否则得到的结果可能存在偏倚。并且完整数据集方法在会造成额外信息缺失的同时因样本量减少故可能会影响试验结果的普适性和准确性,降低检验效能[37]。由于MRMC设计发展历程较短,目前尚无针对MRMC设计缺失数据处理方法的研究,因此急需适用于MRMC设计并考虑不同缺失机制的缺失数据处理方法以解决这一实际问题。Rubin于1977年[38]提出多重填补的思想,多重填补法根据选择的填补模型,对每个缺失数据填补多次,采用其对应的完整数据集分布进行分析,最后基于Rubin法则合并每个完整数据集的分析结果。多重填补能够正确反映与缺失数据填补过程相关的不确定性增大了填补数据的变异程度,目前已广泛应用于药物临床试验的缺失数据处理。鉴于多重填补的优势,我们认为未来可考虑建立适用于MRMC数据特点的缺失数据多重填补的方法,而这将为实际MRMC设计下诊断试验研究中的缺失数据问题提供一种新的解决思路,并且通过与完整数据法相结合可以从不同角度验证实际临床中诊断试验研究结果的稳健性。