结直肠癌是一种常见的胃肠道恶性肿瘤,严重威胁人类健康。由于结直肠癌区边界模糊,使得对结直肠癌的准确识别存在很大挑战。随着卷积神经网络在图像处理领域应用的普及,利用卷积神经网络进行结直肠癌的自动分类与分割,在提高结直肠癌识别效率、降低癌症治疗成本方面具有很大潜力。本文论述了卷积神经网络在结直肠癌临床诊断中应用的必要性;详细介绍了目前卷积神经网络及其改进型在结直肠癌分类和分割两个部分中的研究进展;总结了对于网络性能优化的思路和常用方法,并讨论了卷积神经网络应用在结直肠癌分类与分割中所面对的挑战和未来的发展趋势,以促进卷积神经网络在结直肠癌临床诊断中的应用。
引用本文: 潘兴亮, 童珂, 鄢成东, 罗金龙, 杨华, 丁菊容. 基于卷积神经网络的结直肠癌识别研究进展. 生物医学工程学杂志, 2024, 41(4): 854-860. doi: 10.7507/1001-5515.202310027 复制
0 引言
结直肠癌(colorectal cancer,CRC)高发于经常吸烟、喝酒、饮食偏好低纤维高脂肪的人群和有CRC家族病史的人群。许多CRC是由结直肠息肉恶变引起的[1],具有很高的致病率和死亡率。据统计,2020年全世界有193万人被确诊为CRC,占全部癌症确诊患者数量的10%,同年CRC死亡病例高达93.5万,占癌症死亡总人数的9.7%[2-3]。CRC患者的生存情况与其肿瘤分期高度相关,若能在早期筛查到结直肠中恶变的息肉,确定息肉的区域,就可以尽早地采取干预措施,以阻止它变成恶性肿瘤。
CRC的筛查途径分为肠镜检查、病理学诊断和影像学诊断[1]。肠镜图像和病理学图像多用于对癌变组织的分类或检测;影像学图像包括计算机断层扫描(computed tomography,CT)图像和磁共振成像(magnetic resonance imaging,MRI)图像,多用于癌变区域的精确分割,可为预后分析划定感兴趣区域(region of interest,ROI)。在上述诊断流程当中,人工分类和分割的过程不仅费时费力,而且容易错过微小的病灶,最终结果还受到来自观察者自身和不同观察者之间的可变性因素干扰。近十年来,深度学习方法在医学图像处理领域的应用越来越广泛,且都取得了比较优良的成效。深度学习方法能够对图像进行端到端的学习,灵活性强,能够提取到图像中的低级和高级的特征信息,捕捉到人眼难以聚焦的细节。在医学图像处理过程中,细节信息的完整程度对识别病变组织的效果具有显著的影响。因此,将深度学习方法应用于医学图像处理,不仅可以在很大程度上缩短诊断时间,降低对医生的精力的消耗,而且能排除主观因素影响,识别到由细节信息所表征出的细微病变,提高诊断的准确率。在有关深度学习方法的研究中,现有研究主要采用了卷积神经网络(convolutional neural network,CNN)对CRC进行分类和分割[4]。本文针对CNN在CRC分类和分割当中的应用进行了综述,梳理了近几年在此领域中所取得的相关成果。
1 方法概述
目前,基于深度学习的医学图像分析方法已有多类,主要包含CNN、视觉变换器(vision transformer,ViT)、基于区域的CNN(region-based CNN,R-CNN)和“你只看一次”(you only look once,YOLO)系列网络。其中,CNN具有归纳偏置特性[5],其网络结构灵活多变。ViT是变换器(transformer)在图像处理领域的分支,含自注意力机制,对目标的全局特征和长距离相关性具有良好的建模能力,与CNN具有较强的互补性[5];但ViT的复杂度较高,需要使用数量庞大的数据集进行训练才能达到与CNN相持平的性能。R-CNN会先产生特征候选框以实现对目标的初步定位,再由CNN配合机器学习分类器对候选框进行分类和纠正,属于两步型检测算法,其内存占用量大且速度很慢,后续的快速R-CNN(faster R-CNN)对此有所改进。YOLO系列网络则将目标的定位和分类一步完成,属于单步型算法,具有较快的检测速度,却对细节信息的提取表现较差。由于受到相关医学数据数量的限制和对精确度的刚性需求,在实际应用过程中,基于CNN的医学图像分析方法最为常见,也能达到比较均衡的效果。许多研究者通过实验证明了CNN在识别不同模态的医学图像时的精度优于其它现有的深度学习方法[6-9];Tsai 等[10]探究了在CRC识别任务中训练CNN的高效策略。
2 图像预处理
在CRC的自动识别任务中,图像预处理是改善模型性能的重要手段,包含数据增强和图像信息增强。数据增强包括使用翻转、裁剪、高斯模糊[11]、条件生成对抗网络[12]等方法增加指定类别的肠镜图像或者病理图像的数量,以应对因数据量短缺造成的类不平衡或模型训练不足等情况。图像信息增强包括图像灰度化[13]、归一化[14]、对比度增强[13]、超分辨率映射[15]以及色度转换[16],能够有针对性地强化图像的主体信息,突出息肉或癌变组织的关键特征,加速网络收敛。在现有研究当中,相关的图像预处理方法在肠镜分类任务中的应用远多于病理图像分类任务。目前,已有研究测试并分析了不同的图像预处理方法对于分类结果的影响,证明了图像预处理对于提升CRC分类效率的有效性[17]。
3 基于卷积神经网络的结直肠癌分类
CRC分类任务是根据输出结果的类型进行划分的,而基于CNN的分类方法主要包含两种应用类型:① 组织的分类与分级,主要内容为病理图像的多分类和肠镜图像的二分类,其结果只有类别文本;② 癌变组织的检测,主要内容为检测肠镜图像、视频中的目标,最终会在图像、视频中展示目标的位置和类别信息。
3.1 组织的分类与分级
用于组织分类的CNN方法因其相对简单有效而被广泛研究和使用,如视觉几何组网络(visual geometry group network,VGGNet)、残差网络(residual network,ResNet)、启发式网络(inception network,InceptionNet)等。然而,这些基础网络在分类表现和网络复杂度(参数复杂度—参数量、计算复杂度—计算量)两个方面无法同时兼顾。以VGGNet为例,虽然其分类表现更好,但是涉及的参数量过亿。因此,众多研究均以复杂度较低的网络为起点,通过结合其它方法(如注意力机制、迁移学习等)来获得高性能的模型。目前,研究者们分别构建了包含多级注意力机制的网络[18-20],实现了对病理组织多分类结果的优化。这类卷积注意力机制属于局部注意力机制,虽然可以加强网络对多尺度局部特征的捕获能力,但是其使用效果与目标本身客观特征的突出程度密切相关。与之不同的是,自注意力机制更有利于全局特征的提取,能够自主性地关注目标,从而提升模型的鲁棒性。鉴于局部注意力机制与自注意力机制的交替使用能够进一步提升网络的分类能力,Zeid等[21]保留了ViT中的自注意力机制,配合卷积层进行病理图像的分块与编码。Ma等[22]在ViT中加入了空间注意力机制使得网络能够兼顾肠镜图像中的全局和局部信息。实际上,自注意力机制的复杂度远高于局部注意力机制,导致该方法所需要的训练量与数据量较大,因此这类方法的应用对实际条件有特定的要求。
在网络复杂度偏高、数据量偏少的情况下,结合迁移学习方法可以提高网络的学习效率和泛化能力。为此,Chang等[23]使用自注意力机制结合迁移学习来提升模型的性能,以分析微卫星不稳定性,测试结果证明了所提方法的有效性。有研究者对经过预训练的深度CNN进行参数校正和选择性微调[24-25],得到了更优的分类结果。此外,为了改善由样本的类不平衡引起的训练效率低下等状况,Chen等[18]和Yao等[26]分别通过错误标注和自适应排序的方式来辅助模型训练,以处理分类难度大的样本。
在分类表现相近的前提下,轻量化的网络会具有更好的应用前景。由于CNN的参数主要集中在末尾的全连接层,在数据量较少的情况下,模型的分类能力会因全连接层训练不足而下降。为了改善这种情况,研究者们首先借助CNN的特征提取层来提取癌变组织或息肉的特征信息,然后使用机器学习分类器代替全连接层进行分类输出[27-28]。这类方法虽然解决了CNN中全连接层训练不足的问题,但是其鲁棒性明显下降。Kumar等[29]通过研究新的滤波器数量在CNN层级之间的变化规律,极大幅度地降低了网络整体的参数复杂度和计算复杂度,所保留的全连接层也保证了模型具有较好的鲁棒性。这个轻量化的网络虽然在多分类任务中的表现略微低于VGGNet,但是其参数复杂度仅为VGGNet的2.7%。
3.2 癌变组织的检测
癌变组织的检测属于一种特殊的分类任务,算法需要提前产生若干个特征候选框,再对每个候选框进行分类,最终得到最优的候选框,因而其结果包含癌变组织在图中的具体位置。在检测CRC的方法中,faster R-CNN和YOLO系列网络的使用频率最高。faster R-CNN作为两步型算法虽然具有较高检测精度,但是在检测速度方面仍存在较大的提升空间。因此,faster R-CNN多用于检测图像中的癌变组织;相反地,YOLO系列网络则以其较高的检测速度而常被用于肠镜视频的息肉检测任务。研究者们根据这两种算法的实际应用效果对模型做出了一系列改进,主要从如下两个方面进行:
(1)设计新的网络层或辅助机制。例如,Chen等[30]在faster R-CNN中结合了自注意力机制,使网络能充分利用全局信息来检测图像中同时出现的多个息肉。Ma等[31]在YOLO系列网络中融合了transformer和时序信息融合模块,提升了对肠镜视频中息肉的检测精确度和灵敏度。Nogueira-Rodríguez等[32]添加了目标跟踪算法来捕获帧间相似度,有效提高了CRC检测的特异性。
(2)使用强化训练策略,如迁移学习、错误样本再学习等。Bian等[33]指出了肠镜数据稀缺的现状,通过在6个数据库之间进行迁移学习得到了性能优异的检测模型。Xu等[34]将检测结果中的假阳性样本进行注释之后重新编入训练样本,使得最终模型的精确度和灵敏度得到了进一步提升。
实际上,由于肠镜数据集的数量较少,相关模型中的自注意力机制等可能未得到充分的训练,这或许限制了模型的性能。因此,额外补充带标注的数据或者同时使用多种方法进行数据增强将是进一步优化模型性能的基石。
4 基于卷积神经网络的结直肠癌分割
近年来,基于CNN开发出的U型网络(U-Net)在CRC分割任务中成为了研究热点。研究者们使用U-Net分别实现了对MRI图像、病理图像和肠镜图像的自动分割[35-38],证明了U-Net在多模态图像的分割任务中具有优越性。到目前为止,CRC分割的对象主要包含肠镜图像、CT和MRI的二维以及三维图像,分割的主要挑战在于癌变区域边界的模糊性。在图像中,正常组织与癌变区域之间的低对比度差异极易导致错误分割,因此研究者们提出了一系列的改进方法,主要从以下几个途径提升分割性能:
(1)建立多阶段处理策略,如预处理之后再进行分割、迁移学习等。比如,Panic等[39]通过图像预处理和模糊聚类突出了二维MRI图像中的肿瘤区域,然后再使用CNN进行分割。Zhang等[40]分别提取了病理图像中的形态学轮廓和染色分量信息,再经过三个阶段(由粗粒度到细粒度)完成了腺体分割,缓解了因腺体相互附着而产生的错误分割问题。在实际应用中,图像预处理的方法类型和参数设置需要针对相应数据进行多次调试方能产生较好的效果。除此之外,基于迁移学习的多阶段学习框架可以连续完成对相同模态的图像的分类与分割,将分类任务中提取到的特征信息共享至分割网络的编码器,避免了重复学习[26, 41]。多阶段学习的方法目前仅在息肉分割任务和腺体分割任务当中有所应用,最终模型对目标的分割效果优于单一阶段训练出的分割模型。
(2)使用多尺度信息的提取与融合策略,包括使用不同感受野的卷积块并行、两组编码器并行以及残差结构等。捕获多尺度感受野的卷积块可以由不同尺寸或者不同空洞率的卷积核组成。例如,Shah等[42]和贾立新等[43]分别借助空洞卷积和改进的ResNet——残差分解网络(residual resolution network,Res2Net)中的滤波器组强化了U-Net的编码器,以提取不同尺度感受野下的信息。Huang等[44]在编码器末端使用了三路空洞卷积来定位ROI,但是该模型无法对图像中同时存在的多个肿瘤进行精确地分割。Zidan等[45]利用带有移动窗口的ViT替换了U-Net的编码器,使模型能同时从全局和局部的角度关注病理图像中的不同区域。此外,有研究者构建了并行的编码器来捕获更丰富的特征信息,从而改善不完整分割和错误分割的状况。比如,Wang等[46]使用了并行U-Net分别学习病理组织的分化特征和形态学信息,以实现两次分割,可应对腺体形变的情况,提高了分割的完整性。另外两个研究团队构建了由transformer与CNN并行编码的网络[47-48],通过同时提取全局与局部信息,进一步优化了分割结果的准确性。除了多尺度信息的提取之外,多尺度信息的融合也是提升分割性能的关键。残差结构不仅可以缓解深度网络中的梯度消失问题,而且能够以叠加或拼接的方式融合不同感受野下的特征。Akilandeswari等[49]和González-Bueno Puyal等[50]分别针对二维CT图像和肠镜图像构建了包含残差结构的深度分割网络。Zheng等[51]使用了双通道卷积和残差连接在U-Net的同一编码层中进行特征融合。Li等[52]融合了每个解码器的输出,并结合并行预测模块实现了CRC的内容分割和轮廓预测。
(3)引入混合损失函数,如二元交叉熵(binary cross entropy,BCE)损失分别与骰子(Dice)损失和交并比(intersection over union,IOU)损失混合,特沃斯基(Tversky)损失与焦点(focal)损失混合等。例如,Zhang等[48]以BCE损失与Dice损失的加权和作为最终损失,解决了目标与背景之间的类内不平衡问题。Yue等[53]将BCE损失与IOU损失相结合,提升了息肉分割结果的完整性。Yeung等[54]通过混合Tversky损失与focal损失的方式缓解了小息肉分割时存在的类间不平衡问题。
在现有的三个改进途径中,关于多尺度信息的提取与融合策略方面的研究最为广泛,结果表明这类方法能够更有效地提升模型的性能。最近的研究都偏向于将transformer与CNN并行结合以优化分割效果,后续可以以此为基点开发更为高效的多尺度信息提取与融合方法。与此同时,如何降低参数复杂度和计算复杂度也是未来值得讨论的问题。
5 结直肠癌识别的挑战与发展方向
基于CNN的CRC自动识别方法已广泛应用于病理图像、肠镜图像、肠镜视频以及影像学图像等多个模态的医学图像处理任务当中。虽然众多研究均以临床应用为目的,但是仅有极少部分方法能进入临床领域。鉴于临床诊断对模型的准确率和可信度等有着较高的要求,现有研究依旧面临着许多问题和挑战,主要包含如下几个方面:
(1)缺少带标注的数据集。现存的病理图像数据库中缺少用于病理组织检测的公共数据集,导致众多研究集中于病理组织的多分类任务。多分类任务使用的图像块由于经过了低分辨率(如224 px × 224 px)的采样,在很大程度上已经遗失了组织在原图中的空间信息。因此,医生无法根据某个图像块对应的文本输出快速地定位到该图像块在原图像中的具体位置。在实际应用中,如Lu等[55]提出的肿瘤萌芽检测方法,在CRC病理图像中捕获癌变组织并准确定位,能够更高效地辅助医生完成诊断任务。因此,在普通计算机的容纳能力范围内,基于更高分辨率(如2 000 px × 2 000 px)的采样,制作附带边界框和对应类别标注的CRC病理图像数据集,是推动CNN自动识别方法应用于临床的有效途径。
(2)模型具有特定性。已有研究所提出的方法大多都存在特定性,一个方法只在对特定医院、规格的数据测试时有优异的性能。例如,针对MRI图像的不同序列进行CRC分割时,许多研究会根据图像的灰度级、亮度等差异有针对性地设计预处理方法,这会导致模型在面对新数据时表现不佳,模型的泛化能力不足。因此,后续可以引入一些新的图像预处理方法,以更高效地消除同种模态不同序列的图像之间的无关差异(如灰度级、亮度等),或者如Kumar等[29]选择不同色调、规格的数据集进行测试以及迁移学习。其次,模型进行自动识别的过程具有黑箱性质,难以确定其决策结果是否存在偶然性,因此针对模型的可靠性进行置信度校准[56]是非常有必要的。
(3)模型的复杂度高。众多研究构造出的CRC自动识别模型虽然在识别效率方面能够接近或等同于人工识别速度,但是参数复杂度和计算复杂度依然普遍偏高,甚至存在计算支出与性能收益极度不平衡的情况。例如,有研究者开发出了CRC辅助分类系统[57],该系统使用了数个CNN模型并行,拥有非常庞大的计算量和参数量,这限制了系统自身对于计算平台的普遍适用性。因此,在CRC自动识别领域,网络轻量化是需考虑的一个重要方面。例如,调整网络的层级种类(如深度可分离卷积等)、深度和宽度等;基于轻量级的网络构建更高效的注意力机制和多尺度信息提取与融合策略,实现以单个的、轻量化的模型快速、准确地识别CRC。
(4)息肉边界分割的精确度不足。由于肠镜中息肉的边界非常模糊且形状各异,仅依靠常见的图像预处理方法难以应对错误分割和不完整分割的情况。最近的相关研究都聚焦于捕捉息肉的边界[53-54],虽然最终模型的分割效果均有所提升,但是在面对不规则的息肉时,这些模型分割出的息肉的边界与标准结果之间依然存在明显差距。此类问题可能是一个仅依靠卷积运算无法完成的挑战,或许需要研究者和医生之间的深入交流与合作,在CNN当中融合与息肉边界相关的先验信息,才能使模型的分割效果得到显著的提升。
6 结束语
本文回顾了最近几年基于CNN的CRC自动识别的相关研究,考察了比较常用的改进网络的方法,比如融合注意力机制和自注意力机制、构建并行多分支网络或串行残差连接结构等,这些方法能够增强网络对多尺度信息的提取与融合能力。其次,综述了训练过程中的优化方法,如采用自步学习算法、错误标注、错误再学习的方法以及混合损失函数能缓解样本类不平衡导致的分类困难和错误分割等问题,以提高模型的训练效率和拟合程度。最后,阐述了基于CNN的CRC自动识别方法所存在的问题,主要集中在数据集的稀缺性和模型的复杂度两个方面。数据集的稀缺性直接影响了模型的性能和泛化能力,故而建议研究者们应该基于公共数据集将迁移学习方法普遍化;过度复杂的模型会造成计算资源的浪费,从而降低模型自身的实用性,因此在未来应该充分考虑网络轻量化的问题。
重要声明
利益冲突声明:本文全体作者均声明不存在利益冲突。
作者贡献声明:潘兴亮主要负责文献收集、整理、分析,以及论文撰写、修改;童珂主要负责文献资料的整理、分析;鄢成东主要负责资料整理、分析;罗金龙、杨华主要负责论文修改、指导。丁菊容主要负责文献分析、论文撰写、修改、指导和审校。
0 引言
结直肠癌(colorectal cancer,CRC)高发于经常吸烟、喝酒、饮食偏好低纤维高脂肪的人群和有CRC家族病史的人群。许多CRC是由结直肠息肉恶变引起的[1],具有很高的致病率和死亡率。据统计,2020年全世界有193万人被确诊为CRC,占全部癌症确诊患者数量的10%,同年CRC死亡病例高达93.5万,占癌症死亡总人数的9.7%[2-3]。CRC患者的生存情况与其肿瘤分期高度相关,若能在早期筛查到结直肠中恶变的息肉,确定息肉的区域,就可以尽早地采取干预措施,以阻止它变成恶性肿瘤。
CRC的筛查途径分为肠镜检查、病理学诊断和影像学诊断[1]。肠镜图像和病理学图像多用于对癌变组织的分类或检测;影像学图像包括计算机断层扫描(computed tomography,CT)图像和磁共振成像(magnetic resonance imaging,MRI)图像,多用于癌变区域的精确分割,可为预后分析划定感兴趣区域(region of interest,ROI)。在上述诊断流程当中,人工分类和分割的过程不仅费时费力,而且容易错过微小的病灶,最终结果还受到来自观察者自身和不同观察者之间的可变性因素干扰。近十年来,深度学习方法在医学图像处理领域的应用越来越广泛,且都取得了比较优良的成效。深度学习方法能够对图像进行端到端的学习,灵活性强,能够提取到图像中的低级和高级的特征信息,捕捉到人眼难以聚焦的细节。在医学图像处理过程中,细节信息的完整程度对识别病变组织的效果具有显著的影响。因此,将深度学习方法应用于医学图像处理,不仅可以在很大程度上缩短诊断时间,降低对医生的精力的消耗,而且能排除主观因素影响,识别到由细节信息所表征出的细微病变,提高诊断的准确率。在有关深度学习方法的研究中,现有研究主要采用了卷积神经网络(convolutional neural network,CNN)对CRC进行分类和分割[4]。本文针对CNN在CRC分类和分割当中的应用进行了综述,梳理了近几年在此领域中所取得的相关成果。
1 方法概述
目前,基于深度学习的医学图像分析方法已有多类,主要包含CNN、视觉变换器(vision transformer,ViT)、基于区域的CNN(region-based CNN,R-CNN)和“你只看一次”(you only look once,YOLO)系列网络。其中,CNN具有归纳偏置特性[5],其网络结构灵活多变。ViT是变换器(transformer)在图像处理领域的分支,含自注意力机制,对目标的全局特征和长距离相关性具有良好的建模能力,与CNN具有较强的互补性[5];但ViT的复杂度较高,需要使用数量庞大的数据集进行训练才能达到与CNN相持平的性能。R-CNN会先产生特征候选框以实现对目标的初步定位,再由CNN配合机器学习分类器对候选框进行分类和纠正,属于两步型检测算法,其内存占用量大且速度很慢,后续的快速R-CNN(faster R-CNN)对此有所改进。YOLO系列网络则将目标的定位和分类一步完成,属于单步型算法,具有较快的检测速度,却对细节信息的提取表现较差。由于受到相关医学数据数量的限制和对精确度的刚性需求,在实际应用过程中,基于CNN的医学图像分析方法最为常见,也能达到比较均衡的效果。许多研究者通过实验证明了CNN在识别不同模态的医学图像时的精度优于其它现有的深度学习方法[6-9];Tsai 等[10]探究了在CRC识别任务中训练CNN的高效策略。
2 图像预处理
在CRC的自动识别任务中,图像预处理是改善模型性能的重要手段,包含数据增强和图像信息增强。数据增强包括使用翻转、裁剪、高斯模糊[11]、条件生成对抗网络[12]等方法增加指定类别的肠镜图像或者病理图像的数量,以应对因数据量短缺造成的类不平衡或模型训练不足等情况。图像信息增强包括图像灰度化[13]、归一化[14]、对比度增强[13]、超分辨率映射[15]以及色度转换[16],能够有针对性地强化图像的主体信息,突出息肉或癌变组织的关键特征,加速网络收敛。在现有研究当中,相关的图像预处理方法在肠镜分类任务中的应用远多于病理图像分类任务。目前,已有研究测试并分析了不同的图像预处理方法对于分类结果的影响,证明了图像预处理对于提升CRC分类效率的有效性[17]。
3 基于卷积神经网络的结直肠癌分类
CRC分类任务是根据输出结果的类型进行划分的,而基于CNN的分类方法主要包含两种应用类型:① 组织的分类与分级,主要内容为病理图像的多分类和肠镜图像的二分类,其结果只有类别文本;② 癌变组织的检测,主要内容为检测肠镜图像、视频中的目标,最终会在图像、视频中展示目标的位置和类别信息。
3.1 组织的分类与分级
用于组织分类的CNN方法因其相对简单有效而被广泛研究和使用,如视觉几何组网络(visual geometry group network,VGGNet)、残差网络(residual network,ResNet)、启发式网络(inception network,InceptionNet)等。然而,这些基础网络在分类表现和网络复杂度(参数复杂度—参数量、计算复杂度—计算量)两个方面无法同时兼顾。以VGGNet为例,虽然其分类表现更好,但是涉及的参数量过亿。因此,众多研究均以复杂度较低的网络为起点,通过结合其它方法(如注意力机制、迁移学习等)来获得高性能的模型。目前,研究者们分别构建了包含多级注意力机制的网络[18-20],实现了对病理组织多分类结果的优化。这类卷积注意力机制属于局部注意力机制,虽然可以加强网络对多尺度局部特征的捕获能力,但是其使用效果与目标本身客观特征的突出程度密切相关。与之不同的是,自注意力机制更有利于全局特征的提取,能够自主性地关注目标,从而提升模型的鲁棒性。鉴于局部注意力机制与自注意力机制的交替使用能够进一步提升网络的分类能力,Zeid等[21]保留了ViT中的自注意力机制,配合卷积层进行病理图像的分块与编码。Ma等[22]在ViT中加入了空间注意力机制使得网络能够兼顾肠镜图像中的全局和局部信息。实际上,自注意力机制的复杂度远高于局部注意力机制,导致该方法所需要的训练量与数据量较大,因此这类方法的应用对实际条件有特定的要求。
在网络复杂度偏高、数据量偏少的情况下,结合迁移学习方法可以提高网络的学习效率和泛化能力。为此,Chang等[23]使用自注意力机制结合迁移学习来提升模型的性能,以分析微卫星不稳定性,测试结果证明了所提方法的有效性。有研究者对经过预训练的深度CNN进行参数校正和选择性微调[24-25],得到了更优的分类结果。此外,为了改善由样本的类不平衡引起的训练效率低下等状况,Chen等[18]和Yao等[26]分别通过错误标注和自适应排序的方式来辅助模型训练,以处理分类难度大的样本。
在分类表现相近的前提下,轻量化的网络会具有更好的应用前景。由于CNN的参数主要集中在末尾的全连接层,在数据量较少的情况下,模型的分类能力会因全连接层训练不足而下降。为了改善这种情况,研究者们首先借助CNN的特征提取层来提取癌变组织或息肉的特征信息,然后使用机器学习分类器代替全连接层进行分类输出[27-28]。这类方法虽然解决了CNN中全连接层训练不足的问题,但是其鲁棒性明显下降。Kumar等[29]通过研究新的滤波器数量在CNN层级之间的变化规律,极大幅度地降低了网络整体的参数复杂度和计算复杂度,所保留的全连接层也保证了模型具有较好的鲁棒性。这个轻量化的网络虽然在多分类任务中的表现略微低于VGGNet,但是其参数复杂度仅为VGGNet的2.7%。
3.2 癌变组织的检测
癌变组织的检测属于一种特殊的分类任务,算法需要提前产生若干个特征候选框,再对每个候选框进行分类,最终得到最优的候选框,因而其结果包含癌变组织在图中的具体位置。在检测CRC的方法中,faster R-CNN和YOLO系列网络的使用频率最高。faster R-CNN作为两步型算法虽然具有较高检测精度,但是在检测速度方面仍存在较大的提升空间。因此,faster R-CNN多用于检测图像中的癌变组织;相反地,YOLO系列网络则以其较高的检测速度而常被用于肠镜视频的息肉检测任务。研究者们根据这两种算法的实际应用效果对模型做出了一系列改进,主要从如下两个方面进行:
(1)设计新的网络层或辅助机制。例如,Chen等[30]在faster R-CNN中结合了自注意力机制,使网络能充分利用全局信息来检测图像中同时出现的多个息肉。Ma等[31]在YOLO系列网络中融合了transformer和时序信息融合模块,提升了对肠镜视频中息肉的检测精确度和灵敏度。Nogueira-Rodríguez等[32]添加了目标跟踪算法来捕获帧间相似度,有效提高了CRC检测的特异性。
(2)使用强化训练策略,如迁移学习、错误样本再学习等。Bian等[33]指出了肠镜数据稀缺的现状,通过在6个数据库之间进行迁移学习得到了性能优异的检测模型。Xu等[34]将检测结果中的假阳性样本进行注释之后重新编入训练样本,使得最终模型的精确度和灵敏度得到了进一步提升。
实际上,由于肠镜数据集的数量较少,相关模型中的自注意力机制等可能未得到充分的训练,这或许限制了模型的性能。因此,额外补充带标注的数据或者同时使用多种方法进行数据增强将是进一步优化模型性能的基石。
4 基于卷积神经网络的结直肠癌分割
近年来,基于CNN开发出的U型网络(U-Net)在CRC分割任务中成为了研究热点。研究者们使用U-Net分别实现了对MRI图像、病理图像和肠镜图像的自动分割[35-38],证明了U-Net在多模态图像的分割任务中具有优越性。到目前为止,CRC分割的对象主要包含肠镜图像、CT和MRI的二维以及三维图像,分割的主要挑战在于癌变区域边界的模糊性。在图像中,正常组织与癌变区域之间的低对比度差异极易导致错误分割,因此研究者们提出了一系列的改进方法,主要从以下几个途径提升分割性能:
(1)建立多阶段处理策略,如预处理之后再进行分割、迁移学习等。比如,Panic等[39]通过图像预处理和模糊聚类突出了二维MRI图像中的肿瘤区域,然后再使用CNN进行分割。Zhang等[40]分别提取了病理图像中的形态学轮廓和染色分量信息,再经过三个阶段(由粗粒度到细粒度)完成了腺体分割,缓解了因腺体相互附着而产生的错误分割问题。在实际应用中,图像预处理的方法类型和参数设置需要针对相应数据进行多次调试方能产生较好的效果。除此之外,基于迁移学习的多阶段学习框架可以连续完成对相同模态的图像的分类与分割,将分类任务中提取到的特征信息共享至分割网络的编码器,避免了重复学习[26, 41]。多阶段学习的方法目前仅在息肉分割任务和腺体分割任务当中有所应用,最终模型对目标的分割效果优于单一阶段训练出的分割模型。
(2)使用多尺度信息的提取与融合策略,包括使用不同感受野的卷积块并行、两组编码器并行以及残差结构等。捕获多尺度感受野的卷积块可以由不同尺寸或者不同空洞率的卷积核组成。例如,Shah等[42]和贾立新等[43]分别借助空洞卷积和改进的ResNet——残差分解网络(residual resolution network,Res2Net)中的滤波器组强化了U-Net的编码器,以提取不同尺度感受野下的信息。Huang等[44]在编码器末端使用了三路空洞卷积来定位ROI,但是该模型无法对图像中同时存在的多个肿瘤进行精确地分割。Zidan等[45]利用带有移动窗口的ViT替换了U-Net的编码器,使模型能同时从全局和局部的角度关注病理图像中的不同区域。此外,有研究者构建了并行的编码器来捕获更丰富的特征信息,从而改善不完整分割和错误分割的状况。比如,Wang等[46]使用了并行U-Net分别学习病理组织的分化特征和形态学信息,以实现两次分割,可应对腺体形变的情况,提高了分割的完整性。另外两个研究团队构建了由transformer与CNN并行编码的网络[47-48],通过同时提取全局与局部信息,进一步优化了分割结果的准确性。除了多尺度信息的提取之外,多尺度信息的融合也是提升分割性能的关键。残差结构不仅可以缓解深度网络中的梯度消失问题,而且能够以叠加或拼接的方式融合不同感受野下的特征。Akilandeswari等[49]和González-Bueno Puyal等[50]分别针对二维CT图像和肠镜图像构建了包含残差结构的深度分割网络。Zheng等[51]使用了双通道卷积和残差连接在U-Net的同一编码层中进行特征融合。Li等[52]融合了每个解码器的输出,并结合并行预测模块实现了CRC的内容分割和轮廓预测。
(3)引入混合损失函数,如二元交叉熵(binary cross entropy,BCE)损失分别与骰子(Dice)损失和交并比(intersection over union,IOU)损失混合,特沃斯基(Tversky)损失与焦点(focal)损失混合等。例如,Zhang等[48]以BCE损失与Dice损失的加权和作为最终损失,解决了目标与背景之间的类内不平衡问题。Yue等[53]将BCE损失与IOU损失相结合,提升了息肉分割结果的完整性。Yeung等[54]通过混合Tversky损失与focal损失的方式缓解了小息肉分割时存在的类间不平衡问题。
在现有的三个改进途径中,关于多尺度信息的提取与融合策略方面的研究最为广泛,结果表明这类方法能够更有效地提升模型的性能。最近的研究都偏向于将transformer与CNN并行结合以优化分割效果,后续可以以此为基点开发更为高效的多尺度信息提取与融合方法。与此同时,如何降低参数复杂度和计算复杂度也是未来值得讨论的问题。
5 结直肠癌识别的挑战与发展方向
基于CNN的CRC自动识别方法已广泛应用于病理图像、肠镜图像、肠镜视频以及影像学图像等多个模态的医学图像处理任务当中。虽然众多研究均以临床应用为目的,但是仅有极少部分方法能进入临床领域。鉴于临床诊断对模型的准确率和可信度等有着较高的要求,现有研究依旧面临着许多问题和挑战,主要包含如下几个方面:
(1)缺少带标注的数据集。现存的病理图像数据库中缺少用于病理组织检测的公共数据集,导致众多研究集中于病理组织的多分类任务。多分类任务使用的图像块由于经过了低分辨率(如224 px × 224 px)的采样,在很大程度上已经遗失了组织在原图中的空间信息。因此,医生无法根据某个图像块对应的文本输出快速地定位到该图像块在原图像中的具体位置。在实际应用中,如Lu等[55]提出的肿瘤萌芽检测方法,在CRC病理图像中捕获癌变组织并准确定位,能够更高效地辅助医生完成诊断任务。因此,在普通计算机的容纳能力范围内,基于更高分辨率(如2 000 px × 2 000 px)的采样,制作附带边界框和对应类别标注的CRC病理图像数据集,是推动CNN自动识别方法应用于临床的有效途径。
(2)模型具有特定性。已有研究所提出的方法大多都存在特定性,一个方法只在对特定医院、规格的数据测试时有优异的性能。例如,针对MRI图像的不同序列进行CRC分割时,许多研究会根据图像的灰度级、亮度等差异有针对性地设计预处理方法,这会导致模型在面对新数据时表现不佳,模型的泛化能力不足。因此,后续可以引入一些新的图像预处理方法,以更高效地消除同种模态不同序列的图像之间的无关差异(如灰度级、亮度等),或者如Kumar等[29]选择不同色调、规格的数据集进行测试以及迁移学习。其次,模型进行自动识别的过程具有黑箱性质,难以确定其决策结果是否存在偶然性,因此针对模型的可靠性进行置信度校准[56]是非常有必要的。
(3)模型的复杂度高。众多研究构造出的CRC自动识别模型虽然在识别效率方面能够接近或等同于人工识别速度,但是参数复杂度和计算复杂度依然普遍偏高,甚至存在计算支出与性能收益极度不平衡的情况。例如,有研究者开发出了CRC辅助分类系统[57],该系统使用了数个CNN模型并行,拥有非常庞大的计算量和参数量,这限制了系统自身对于计算平台的普遍适用性。因此,在CRC自动识别领域,网络轻量化是需考虑的一个重要方面。例如,调整网络的层级种类(如深度可分离卷积等)、深度和宽度等;基于轻量级的网络构建更高效的注意力机制和多尺度信息提取与融合策略,实现以单个的、轻量化的模型快速、准确地识别CRC。
(4)息肉边界分割的精确度不足。由于肠镜中息肉的边界非常模糊且形状各异,仅依靠常见的图像预处理方法难以应对错误分割和不完整分割的情况。最近的相关研究都聚焦于捕捉息肉的边界[53-54],虽然最终模型的分割效果均有所提升,但是在面对不规则的息肉时,这些模型分割出的息肉的边界与标准结果之间依然存在明显差距。此类问题可能是一个仅依靠卷积运算无法完成的挑战,或许需要研究者和医生之间的深入交流与合作,在CNN当中融合与息肉边界相关的先验信息,才能使模型的分割效果得到显著的提升。
6 结束语
本文回顾了最近几年基于CNN的CRC自动识别的相关研究,考察了比较常用的改进网络的方法,比如融合注意力机制和自注意力机制、构建并行多分支网络或串行残差连接结构等,这些方法能够增强网络对多尺度信息的提取与融合能力。其次,综述了训练过程中的优化方法,如采用自步学习算法、错误标注、错误再学习的方法以及混合损失函数能缓解样本类不平衡导致的分类困难和错误分割等问题,以提高模型的训练效率和拟合程度。最后,阐述了基于CNN的CRC自动识别方法所存在的问题,主要集中在数据集的稀缺性和模型的复杂度两个方面。数据集的稀缺性直接影响了模型的性能和泛化能力,故而建议研究者们应该基于公共数据集将迁移学习方法普遍化;过度复杂的模型会造成计算资源的浪费,从而降低模型自身的实用性,因此在未来应该充分考虑网络轻量化的问题。
重要声明
利益冲突声明:本文全体作者均声明不存在利益冲突。
作者贡献声明:潘兴亮主要负责文献收集、整理、分析,以及论文撰写、修改;童珂主要负责文献资料的整理、分析;鄢成东主要负责资料整理、分析;罗金龙、杨华主要负责论文修改、指导。丁菊容主要负责文献分析、论文撰写、修改、指导和审校。