基于临床知识约束多任务学习的乳腺癌超声视频诊断框架文献速递/基于多模态的医学影像分割与理解

Oldlee

2026.6.25

本文提出CKC-Framework，将冗余帧过滤、BI-RADS属性约束、临床先验注意力和时空Mamba结合，用于可解释的乳腺超声视频良恶性诊断。

Title题目

基于临床知识约束多任务学习的乳腺癌超声视频诊断框架

Clinical knowledge constrained multi-task learning framework for breast cancer diagnosis using ultrasound videos

文献速递介绍

乳腺癌是女性最常见的恶性肿瘤之一，早期发现和及时治疗对改善预后至关重要。超声因实时、无创、无辐射且适合致密乳腺检查，在乳腺癌筛查和诊断中被广泛使用，但基于BI-RADS的人工判读高度依赖医生经验，尤其在医疗资源不足地区容易出现漏诊或误诊。既有乳腺超声CAD系统多基于静态图像，只能观察单一切面的肿瘤形态，难以捕获探头移动过程中病灶边界、形状、钙化等属性在不同帧中的变化。超声视频能够提供更完整的动态信息，但也带来大量无瘤帧和重复帧、缺乏解释性、帧间贡献不均、长序列建模时空间信息衰减等挑战。为此，作者提出CKC-Framework，试图模拟放射科医生从扫描视频中寻找病灶、选择最大截面关键帧、分析诊断属性并综合多帧信息给出诊断的流程。

相关工作

相关研究主要分为基于超声图像和基于超声视频两类。图像方法包括GoogLeNet、CNN、VGG/ResNet/DenseNet集成、Hover-Trans、病灶感知注意力框架、EfficientKNN和小波ViT等，能够提升静态乳腺超声图像分类性能，但通常受限于单帧截面，无法充分反映肿瘤随探头移动产生的动态变化。视频方法利用多帧信息，例如时序双分支网络、多元注意力网络、clip级和video级聚合网络、关键帧引导注意力网络、ResViT等，性能通常优于图像方法，但很多方法没有系统抑制背景冗余帧，也较少提供与临床诊断属性对应的解释证据。另一些研究尝试融入医生领域知识或空间先验，但仍缺少一个统一框架同时处理冗余帧过滤、属性级解释、临床先验引导的帧权重和长程时空特征融合。本文的定位正是将这些环节整合为面向乳腺超声视频诊断的临床知识约束流程。

Aastract摘要

本文针对乳腺超声视频诊断中冗余帧多、临床先验利用不足、模型解释性弱以及长序列时空信息融合困难等问题，提出临床知识约束多任务学习框架CKC-Framework。该框架先用基于DINO的目标检测器筛选含瘤片段并定位关键帧，再通过诊断属性约束模块预测关键帧的BI-RADS相关属性，同时学习显式属性特征与隐式补充特征。随后，临床先验约束模块利用关键帧的时间邻近性和内容相似性指导帧级注意力，并用监督对比学习增强跨帧语义一致性；最终，关键帧引导的时空Mamba在长序列中融合空间和时间特征。实验在自建Breast-USV和公共BUSV数据集上验证，CKC-Framework分别达到94.59%和90.38%的AUC，优于多种图像和视频基线方法，并能输出病灶定位、关键帧、诊断属性和帧重要性等临床可解释证据。

Method方法

CKC-Framework包含四个阶段。第一阶段是冗余帧过滤，使用基于DINO的目标检测模型逐帧检测病灶，去除不含肿瘤的背景帧，并在含瘤片段中选择肿瘤截面积最大的帧作为关键帧。第二阶段是诊断属性约束的帧内特征提取，提出DACM模块，将关键帧特征分解为显式诊断特征和隐式诊断特征；显式特征通过KL散度受到八类BI-RADS相关属性监督，包括形状、方位、边界、边缘清晰度、成角、毛刺、分叶和钙化，隐式特征则捕获预定义属性之外的纹理、上下文和高阶组合信息。第三阶段是临床先验约束的帧间关系建模，CPCM模块根据每帧与关键帧的时间距离和内容相似度构造双重临床先验，并用均方误差约束学习到的时间注意力，同时引入监督对比损失，使同一视频或同一类别视频的帧特征更接近、不同类别更分离。第四阶段是关键帧引导的时空Mamba，KSTM以关键帧语义特征初始化状态，并通过时间正向扫描、时间反向扫描和空间扫描三条KSSM分支建模长程依赖，在融合帧间时序信息的同时保留帧内关键空间结构。整体损失由视频分类交叉熵、诊断属性约束损失、临床先验注意力损失和监督对比损失加权组成。

实验设置

作者构建了Breast-USV数据集，包含418名患者的乳腺超声视频，其中良性211例、恶性207例，共69,952帧，平均每段视频167帧，所有病例均有病理结果作为良恶性标签，并由经验丰富的医生标注每帧肿瘤框、最大截面关键帧以及关键帧的八类诊断属性。另一个数据集为公共BUSV，包含186段视频，其中良性74例、恶性112例，共25,272帧，来自GE和Philips设备；由于原始BUSV未提供属性标签，作者补充标注了关键帧诊断属性。训练分两阶段进行：先训练DINO检测器用于病灶定位、冗余帧过滤和关键帧选择；再将筛选后的含瘤片段采样为16帧、输入视频分类网络训练。Breast-USV按患者级8:2划分训练和测试，BUSV使用官方患者级划分，并采用五折交叉验证优化超参数。评估指标覆盖检测任务的AP、AP50、AP75、不同大小病灶AP、过滤准确率和关键帧MSE，以及属性识别和视频分类的AUC、准确率、召回率、精确率和F1-score。

实验结果与讨论

在Breast-USV上，CKC-Framework取得94.59%的AUC、91.43%的准确率和91.34%的F1-score，超过ResNet、ViT、ConvNeXt、Hover-Trans等图像方法，也优于I3D、SlowFast、TimeSformer、VideoSwin、UniFormer V2、VideoMAE V2、KGA-Net和DTFN等视频方法。在BUSV上，框架同样达到90.38%的AUC、87.39%的准确率和89.93%的F1-score，说明其在公共数据集和不同设备来源下仍有优势。冗余帧过滤实验显示，不过滤时AUC和准确率分别下降到91.77%和86.71%，而DINO Swin-L在检测性能、过滤准确率和关键帧选择MSE上整体最好，证明去除背景帧能减少无关信息干扰。DACM消融显示，加入显式诊断特征和隐式诊断特征后，AUC从93.04%升至94.59%，准确率从87.62%升至91.43%；属性识别平均准确率为86.31%，其中边缘清晰度最高为95.48%，毛刺识别较难为78.81%。CPCM消融显示，注意力约束和语义一致性约束均能提升性能，两者结合使AUC和准确率分别比基线提升2.36%和4.02%；加入CPCM后，注意力集中在关键帧及其邻近帧的比例从33.42%升至57.16%，关键帧进入top-5高注意力帧的比例从36.84%升至68.90%。KSTM实验表明，时空扫描和关键帧引导均有贡献，二者同时启用优于普通Mamba、RNN、LSTM和多头自注意力。临床对比中，CKC-Framework单独诊断准确率为91.43%，高于三位医生独立诊断中的初级、中级和略高于高级医生；在系统辅助下，初级、中级和高级医生准确率分别提升到83.33%、88.10%和92.86%，且诊断时间缩短。复杂度分析也指出该框架参数量和FLOPs较高，推理每例约0.19秒，在A100环境下仍可满足近实时或离线辅助需求。跨数据集实验中，模型在Breast-USV训练、BUSV无微调测试时AUC为85.04%、准确率为80.18%，少量BUSV数据微调后性能进一步上升，说明框架具备一定域外泛化能力但仍受域偏移影响。

Conclusion结论

本文提出的CKC-Framework将DINO冗余帧过滤、诊断属性约束、临床先验注意力、监督对比语义一致性和关键帧引导时空Mamba统一到乳腺超声视频诊断任务中。实验表明，该框架在自建Breast-USV和公共BUSV数据集上均优于代表性图像和视频基线方法，并能提供病灶定位、关键帧、BI-RADS相关属性和帧级重要性等多层次解释证据，有助于提高医生诊断准确率和效率。作者也承认仍需进一步开展多中心、前瞻性验证，并探索多模态输入、弱监督或半监督病灶定位、模型轻量化以及向其他序列医学影像任务迁移。

Figure图

图1.

该图展示多个乳腺超声视频病例中的连续帧，红框表示含有乳腺结节的帧，黄色箭头指向结节及其关键诊断属性。图中可以看到，同一病灶在不同帧中可能呈现不同边缘形态、钙化或其他属性，同时也存在大量不含肿瘤或诊断信息有限的帧。这直接说明单帧图像难以覆盖完整诊断线索，也解释了为什么需要视频级建模和冗余帧过滤。

图2.

该图是论文最核心的方法框架图。模型首先用DINO目标检测器从可变长度超声视频中定位病灶、筛选含瘤片段并选择关键帧；随后DACM对关键帧和含瘤帧进行共享权重的属性约束特征提取，输出可解释诊断属性；CPCM利用临床先验约束帧级注意力并增强跨帧语义一致性；最后KSTM融合长序列时空信息，输出视频级良恶性诊断。该图体现了作者模拟放射科医生工作流的整体设计。

图3.

该图展示DACM如何将帧内特征拆分为显式诊断特征和隐式诊断特征。显式分支通过属性预测头对应八类临床诊断属性，从而让特征与BI-RADS相关语义对齐；隐式分支保留未被预定义属性覆盖的潜在判别信息。两类特征再拼接融合，用于后续视频诊断。该设计是本文提升可解释性和诊断性能的关键。

图4.

该图说明CPCM如何结合关键帧附近的时间距离相似性和与关键帧的内容相似性，生成临床启发的帧级先验，并用该先验约束模型学习到的时间注意力。同时，模块还引入语义一致性约束，使同一视频或同类视频的帧级表示更一致。该图对应本文对帧权重分配进行临床知识约束的核心创新。

图5：

该图展示KSTM、KST-SSM和KSSM的结构。KSTM通过主分支、门控分支和KST-SSM进行特征融合；KST-SSM包含时间正向扫描、时间反向扫描和空间扫描三条分支；KSSM用关键帧语义特征初始化状态，以便在长序列中保留关键诊断信息。该图说明模型如何在较低序列复杂度下同时建模长程时间依赖和帧内空间上下文。

图6：

该图比较了多种图像方法、视频方法和CKC变体在Breast-USV上的ROC曲线。CKC-Framework曲线整体位于更优位置，AUC达到94.59%，在低假阳性率区域也保持更高真阳性率，说明该框架在严格控制误报时仍具有较好的敏感性。

图7.

该图展示公共BUSV数据集上的ROC对比结果。CKC-Framework取得90.38%的AUC，优于多个强视频基线，说明该方法不仅在自建数据集上有效，在来自不同超声设备和采集条件的公共数据上也保持较强判别能力。

图8.

该图对比Faster R-CNN、RetinaNet、FCOS、YOLOX、DAB-DETR、DDQ和不同DINO初始化方式在四个病例中的检测结果。DINO Swin-L在小病灶、边界不清和噪声背景下定位更稳定，漏检和框偏移更少，与表格中较高AP、较高过滤准确率和较低关键帧MSE一致。

图9.

该图将关键帧的显式诊断特征和隐式诊断特征投影到二维空间。显式特征和隐式特征形成相对分离的分布，说明两者没有学习到完全重复的信息；同时隐式特征仍能区分良恶性，表明其捕获的是有诊断价值的补充模式，而不是噪声。

图10.

该图展示DACM在多个良性和恶性病例上的属性预测，与医生标注一致的属性用绿色表示，不一致用红色表示。模型在多数病例中能正确识别形状、方位、边界、边缘、钙化等属性，但在低对比度、边界模糊或斑点噪声明显时，毛刺和分叶等细粒度属性更容易出错。

图11.

该图量化DACM在八类诊断属性上的识别表现。平均属性识别准确率为86.31%，边缘清晰度达到95.48%，边界、毛刺、钙化等也有较好表现，而分叶为78.81%，相对最难。该结果支持DACM能提供与医生标注较一致的属性级解释。

图12.

该图比较有无CPCM时注意力在关键帧附近、与关键帧最相似帧以及关键帧top-5命中率上的变化。加入CPCM后，关键帧及其前后两帧的注意力占比从33.42%升至57.16%，关键帧及四个最相似帧的注意力占比从33.66%升至58.26%，关键帧进入top-5注意力帧的比例从36.84%升至68.90%。这说明临床先验确实让模型更关注具有诊断意义的帧。

图13.

该图展示不同损失权重配置C0到C9下的AUC、准确率、召回率、精确率和F1-score。总体性能在合理范围内较稳定，最佳配置为C7，即诊断属性约束损失权重为1.0、时间先验约束损失权重为2.5、监督对比损失权重为0.5。这表明多个约束项在联合优化中相对协调，不需要过度依赖精细调参。