Acadwrite Logoacadwrite Research

多模态大语言模型在医学影像诊断中的跨域知识蒸馏方法研究综述

引言

医学影像诊断在临床实践中扮演着至关重要的角色,为疾病的早期发现、精确诊断和有效治疗提供了关键依据。近年来,随着深度学习技术的快速发展,多模态大语言模型(Multi-modal Large Language Models, MLLMs)凭借其强大的特征提取、语义理解和生成能力,在医学影像诊断领域展现出巨大的潜力。MLLMs能够有效整合医学影像和文本报告等多源异构信息,辅助医生进行更准确、高效的诊断,从而提升医疗服务质量。然而,不同医学影像模态之间存在显著的差异,如CT、MRI、X光和超声等,这些差异限制了模型在不同模态之间的泛化能力。因此,如何利用跨域知识蒸馏技术,将知识从源域(如数据丰富的CT影像)迁移到目标域(如数据稀缺的超声影像),成为当前研究的热点和难点。

本综述旨在全面回顾多模态大语言模型在医学影像诊断中跨域知识蒸馏方法的研究进展,并探讨其面临的挑战与未来的发展方向。首先,我们将深入探讨多模态医学影像大语言模型的架构与预训练策略,包括基于Transformer的医学影像编码器设计与优化、医学影像与文本特征对齐的模态融合方法、面向医学影像报告生成的预训练任务设计以及医学影像领域特定知识的注入方法,为后续跨域知识蒸馏的研究奠定基础。其次,我们将重点关注跨域知识蒸馏在医学影像诊断中的应用,详细阐述基于特征匹配、关系推理和对抗学习等不同的知识蒸馏方法,并分析自适应权重调整策略在提升蒸馏效果中的作用。接着,我们将针对不同医学影像模态之间的知识迁移策略进行深入研究,例如CT影像与MRI影像、X光影像与超声影像、以及病理切片影像与放射影像之间的知识迁移方法。最后,我们将讨论跨域知识蒸馏的评估指标与挑战,包括医学影像诊断任务的评估指标体系、跨域知识蒸馏的泛化性能和鲁棒性评估,并展望跨域知识蒸馏在医学影像诊断领域未来的发展方向。通过对这些关键问题的深入探讨,本综述旨在为相关研究人员提供全面的参考,并推动多模态大语言模型在医学影像诊断领域的更广泛应用。

多模态医学影像大语言模型架构与预训练策略

多模态医学影像大语言模型的核心在于其架构设计与预训练策略。其中,基于Transformer的医学影像编码器设计与优化是至关重要的一环。虽然传统的卷积神经网络(CNN)在局部特征提取方面表现出色,但Transformer架构凭借其自注意力机制,能够有效建模全局上下文信息,克服CNN在捕捉长距离依赖关系方面的局限性,因此被广泛应用于医学影像编码器中。然而,直接应用Transformer于医学影像面临计算复杂度高、对训练数据需求量大等挑战。为此,研究者们提出了多种优化策略。例如,DTMFormer通过动态令牌合并,避免在冗余和重复的令牌上建立长距离依赖关系,从而加速收敛。该模块包含注意力引导的令牌合并(ATM)模块,基于特征和依赖相似性自适应地将令牌聚类成更少的语义令牌,并结合轻量级的令牌重构模块来融合普通令牌和语义令牌。由于ATM中的自注意力计算基于更少的令牌,DTMFormer降低了复杂性,更易于收敛。实验证明,DTMFormer作为一个即插即用模块,能够降低复杂性并提高性能。GC-TransUnet则通过考虑每个patch之间的距离来优化编码过程,提高编码效率并降低计算成本。ScaleFormer旨在解决医学图像分割中存在的尺度问题,通过尺度内Transformer耦合CNN的局部特征与Transformer的全局信息,并设计空间感知的尺度间Transformer来交互多尺度信息,从而提升对不同大小、形状和位置物体的表征学习能力。这些优化策略提升了Transformer在医学影像编码中的效率和精度,为后续的模态融合和知识蒸馏奠定了基础。

在医学影像与文本特征对齐的模态融合方法方面,其目标在于将影像中的视觉信息与文本描述中的语义信息有效结合,从而提升诊断的准确性和全面性。研究重点在于弥合影像和文本之间的模态差异,并提取和对齐关键特征。例如,BEMSeg模型通过自注意力机制和交叉注意力机制自适应地融合图像和文本特征,减少模态之间的差异。该方法首先分别通过图像和文本编码器提取特征,然后将这些特征进行融合和对齐,以获得互补的多模态特征表示。为了实现多模态特征对齐,该模型计算图像像素特征和文本特征之间的相似度,得到像素-文本得分图,并在得分图上进行基于类别的像素级对比学习,增强对齐效果。实验结果表明,该方法在多个遥感数据集上优于其他方法,证明了特征对齐的有效性。MTVAF网络则通过将多层次图像信息转化为图像描述、面部描述和光学字符,与文本输入连接,形成文本+视觉输入,促进视觉和文本模态之间的全面对齐。动态注意力机制被用于生成视觉提示,以控制跨模态融合,并通过对齐文本输入空间和文本+视觉输入空间的概率分布来减少对齐过程中引入的噪声。这些方法均强调在融合前进行有效的特征对齐,以减少模态间的语义鸿沟,提升融合效果。

面向医学影像报告生成的预训练任务设计旨在提升模型生成报告的准确性和完整性,从而减轻医生工作负担,促进临床自动化。由于在其他领域预训练的视觉编码器难以学习到特定医学领域的通用视觉表征,因此,设计针对医学影像报告生成的预训练任务至关重要。一种有效策略是结合对比学习,例如使用对比学习预训练视觉编码器,无需额外的元信息,并采用肺部分割作为对比学习框架中的一种增强方法,引导网络关注肺部区域内的视觉特征编码。实验结果表明,该框架在定量和定性方面都提高了生成医学报告的性能和质量。另一种策略是利用医学知识图谱来指导报告生成。例如,KERP方法将医学报告生成分解为显式的医学异常图学习和后续的自然语言建模。KERP的核心是Graph Transformer (GTR),它能够动态地转换多个领域(如知识图谱、图像和序列)的图结构数据之间的高级语义。实验表明,该方法能够生成结构化和鲁棒的报告,并提供准确的异常描述和可解释的注意力区域。此外,AdaMatch模型将胸部X光片(CXR)图像区域与医学报告中的词语相关联,并将其应用于CXR报告生成,为生成过程提供可解释性

医学影像领域特定知识的注入是提升多模态大语言模型在医学影像诊断中性能的关键环节。研究主要集中在如何有效地将医学知识融入到模型的各个层面,包括数据层面、模型层面和推理层面。在数据层面,研究者们利用医学文本、医学影像报告等数据进行预训练或微调,使模型学习到医学领域的专业术语和知识。例如,一种增强的知识注入框架利用TF-IDF加权的临床医学概念(WCK)和从相似报告中提取的三元组(MRK),整合细粒度和结构化的知识,从而促进更准确的报告生成。在模型层面,一些研究者设计专门的模块来融合医学知识,例如,任务感知的知识注入模块将任务共享的图嵌入转换为任务特定的特征空间,从而为不同的WSI分析任务学习更准确的表示。此外,还有研究者通过prompt工程的方式,引导模型利用医学知识进行推理。例如,PLDG框架通过聚类偏差相关的风格特征来发现伪域标签,然后利用协作域提示来指导Vision Transformer从发现的不同域中学习知识,从而实现无需域标签的医学图像分类。Med-SA则通过一种轻量级的适配技术,将领域特定的医学知识整合到分割模型中,从而增强了Segment Anything Model (SAM)在医学图像分割方面的能力

跨域知识蒸馏在医学影像诊断中的应用

跨域知识蒸馏在医学影像诊断中的应用日益受到重视,其核心目标是利用已有的知识,提升模型在目标领域的性能,尤其是在数据稀缺或模态差异显著的情况下。目前,该领域的研究主要集中在特征匹配、关系推理、对抗学习和自适应权重调整等几个关键方向。

基于特征匹配的跨域知识蒸馏方法旨在通过对齐不同模态或不同域的医学影像特征,实现知识的有效迁移。其核心思想是引导学生模型学习教师模型在特征空间中的表达,从而获得教师模型的泛化能力。例如,针对水下图像处理中缺乏标注数据的难题,Yang等人提出了一种跨模态知识蒸馏框架,用于训练水下特征检测和匹配网络(UFEN)。该方法巧妙地利用空中RGBD数据生成合成水下图像,并借助在空中图像上预训练的SuperPoint模型作为教师模型,将知识蒸馏到UFEN中。UFEN通过引入额外的二值化层嵌入到ORB-SLAM3框架中,以ORB特征代替ORB特征,实验结果验证了其有效性。此外,Lu等人针对跨分辨率人脸识别问题,设计了一种身份保持网络WaveResNet和小波相似性损失,以捕获低分辨率图像低频分量中存储的判别信息,并通过跨分辨率知识蒸馏范式进行学习。Gao等人则针对小样本跨域高光谱图像分类问题,提出了一种三级蒸馏策略,在通道、特征和logit层面同时将知识从多个在源高光谱图像上训练良好的模型迁移到一个单一的蒸馏模型中。这些方法均通过特征匹配或特征空间对齐,实现了跨域知识的有效迁移,提升了学生模型在目标领域的性能。

除了直接的特征匹配,基于关系推理的跨域知识蒸馏方法则侧重于利用不同模态或不同数据集之间的内在关联,从而实现更有效的知识迁移。这类方法试图模拟医生在诊断过程中对不同区域或不同图像之间关系的推理过程,从而提高模型对病灶的定位和识别能力。Gangming Zhao等人提出了Cross-chest Graph (CCG)方法,该方法通过构建胸部X光图像中不同解剖区域之间的关系图,并结合图像间的知识推理模块,模拟医生观察不同区域和比较多张图像的习惯,从而在弱监督病灶定位任务中取得了显著的性能提升。具体而言,CCG方法利用结构信息建模图像内不同解剖区域之间的关系,并通过知识推理模块建模任意两张图像之间的关系,最终将图像内和图像间的信息整合到一个统一的端到端框架中。Xingqun Qi等人提出了Generalizable Knowledge Distillation (GKD)框架,通过设计Dual Contrastive Graph Distillation (DCGD)来建模语义相关性,并利用Domain-Invariant Cross Distillation (DICD)来实现轻量级网络的泛化。Longkun Zou等人则提出Relational Priors Distillation (RPD)方法,从大规模图像上训练的Transformer中提取关系先验知识,用于增强跨域点云表示,从而提升点云分类的性能。这些研究都表明,关系建模在跨域知识迁移中扮演着重要角色,通过学习和利用不同模态或数据集之间的关系,可以有效地提高模型的泛化能力和诊断性能。

为了进一步提升模型的泛化能力,基于对抗学习的跨域知识蒸馏方法应运而生。这类方法通过对抗训练的方式,促使学生模型学习到更具领域不变性的特征表示。其核心机制是构建一个包含生成器(学生模型)和判别器的对抗网络,生成器的目标是生成能够欺骗判别器的特征表示,而判别器的目标是区分特征来自源域还是目标域。通过二者之间的对抗博弈,学生模型能够逐步消除领域差异,学习到更通用的知识。例如,在脑电信号情感识别任务中,Wang等人提出了一种基于知识蒸馏的轻量级对抗神经网络,利用具有强大上下文学习能力的教师模型学习脑电信号的复杂时序动态和空间相关性,并指导轻量级的学生模型学习更具领域不变性的特征,从而提升跨被试的情感识别效果。Suh等人提出了一个基于Transformer的对抗学习框架,用于可穿戴传感器的人体活动识别,通过对抗学习和最大均值差异(MMD)正则化来对齐多个领域的数据分布,并采用无教师的自知识蒸馏来提高训练过程的稳定性和人体活动识别的性能。

最后,基于自适应权重调整的跨域知识蒸馏方法则着眼于解决不同医学影像模态间数据分布差异带来的知识迁移难题。该方法通过动态调整不同损失函数或样本的权重,使得学生模型能够更加关注对目标域有益的知识,从而提升跨域迁移效果。例如,Li等人提出了注意力转移重要性加权网络(ATIN),用于解决卫星光学图像到ISAR图像的领域自适应少样本学习问题。ATIN通过注意力机制学习源域样本的重要性权重,并将其迁移到目标域,从而提高跨域识别的准确性和有效性。Kothandaraman等人提出了一种多层次蒸馏策略,在不同层级有效地提炼知识,并引入了一种新的交叉熵损失,该损失利用来自教师模型的伪标签,在无监督的情况下,为目标域图像提供ground truth的代理。这些方法的核心在于,并非所有源域知识都对目标域有益,因此需要有选择地进行知识迁移,并动态调整不同层级特征的权重,以优化知识迁移过程。

面向不同医学影像模态的跨域知识蒸馏策略

CT影像与MRI影像之间的知识迁移是医学影像分析中的关键研究方向,旨在利用从CT影像中获得的知识提升MRI影像的诊断性能。由于CT与MRI在成像原理、组织对比度及临床应用上存在显著差异,直接应用CT影像训练的模型于MRI影像往往效果欠佳。因此,有效的知识迁移策略对于弥合这些差异至关重要。例如,Li等人针对胸部MRI图像提出了一种基于深度学习的肺结节检测方法,该方法结合参数优化、空间三通道输入构建及迁移学习,设计了一个更快的R-CNN网络以精确定位肺结节区域。该方法通过在CT影像上预训练的模型基础上进行微调,显著提升了在MRI影像上的检测性能,实验结果表明,在142个T2加权MR扫描上实现了85.2%的敏感性,每次扫描的假阳性为3.47个。此外,自监督预训练也被证实能够有效改善特征表示,从而促进迁移学习。Vanberlo等人总结了近期在X射线、计算机断层扫描、磁共振和超声成像中使用的相关研究,重点关注比较自监督预训练与完全监督学习在分类和分割等诊断任务中的效果,强调了其在利用大量未标记数据方面的潜力。

X光影像与超声影像之间的知识迁移同样是提高医学影像诊断性能的重要途径。与CT和MRI类似,X光和超声影像在成像原理、图像特征及临床应用上也存在差异,直接迁移模型效果有限。Simeon Yuda Prasetyo等人提出了一种基于深度卷积神经网络(Deep CNN)的迁移学习方法,并结合改进的多层元集成学习,利用X光影像数据训练的模型来辅助诊断,从而提高肺炎分类模型的准确性,实验结果表明该模型达到了98.272%的测试准确率。这表明,通过迁移学习,可以将X光影像中学习到的特征和模式迁移到超声影像分析中,从而提高超声影像的诊断精度。Bhosale等人也指出,深度学习方法已被证明是放射科医生自动化评估COVID-19的宝贵资产,其中超声影像也占有一定的比例。虽然超声影像在COVID-19诊断中的应用相对较少,但通过知识迁移,可以有效利用X光影像上训练的模型来提升超声影像的诊断效果,尤其是在资源受限或X光影像不易获取的情况下,超声影像的价值得以凸显。

病理切片影像与放射影像之间的知识迁移代表着医学影像领域一个极具潜力的研究方向,旨在利用放射影像提供的宏观解剖信息来辅助病理切片影像的分析,或反之,利用病理切片影像的微观细胞结构信息来提升放射影像的诊断精度。这种跨模态的知识迁移能够帮助医生更全面、深入地理解疾病的发生发展机制,提高诊断的准确性和效率。例如,在乳腺癌诊断中,放射影像(如钼靶、MRI)可以提供肿瘤的大小、位置和淋巴结转移情况等信息,而病理切片影像则可以提供肿瘤细胞的类型、分级和免疫组化结果等信息。通过将这两种模态的信息进行融合,可以更准确地判断肿瘤的侵袭性和预后

目前,针对病理切片影像与放射影像之间知识迁移的研究主要集中在特征对齐和模态转换两个方面。一些研究者尝试通过特征匹配的方法,将病理切片影像和放射影像中具有对应关系的特征进行对齐,从而实现知识的迁移。例如,可以利用配准算法将病理切片影像与放射影像进行空间配准,然后提取配准区域的特征,并利用深度学习模型学习两种模态特征之间的映射关系。Jiawen Li等人提出了一种新的动态图表示算法,将WSI概念化为知识图结构,动态构建邻居和有向边嵌入,然后设计一种知识感知注意力机制,通过学习每个邻居和边的联合注意力分数来更新头部节点特征,从而获得图级嵌入。这种方法在三个TCGA基准数据集和内部测试集上优于最先进的WSI分析方法。另一些研究者则尝试通过模态转换的方法,将一种模态的影像转换为另一种模态的影像,从而实现知识的迁移。例如,可以利用生成对抗网络(GAN)将放射影像转换为病理切片影像,然后利用在病理切片影像上训练的模型对转换后的影像进行分析。然而,由于病理切片影像和放射影像之间存在较大的模态差异,如何有效地提取和对齐两种模态的特征,以及如何保证模态转换的准确性和可靠性,仍然是该领域面临的挑战。未来的研究需要更加关注模态间差异的建模,以及如何利用先验知识来指导知识迁移的过程。

跨域知识蒸馏的评估指标与挑战

医学影像诊断任务的评估指标体系是衡量模型性能的关键要素。针对不同的诊断任务,需审慎选择合适的评估指标。例如,对于分类任务,常用的指标包括准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1-score以及受试者工作特征曲线下面积(AUC-ROC)等。检测/定位任务则常采用平均精度均值(mean Average Precision, mAP)等指标,而分割任务的评估则会用到Dice系数、Jaccard系数等。为了帮助研究人员根据任务类型选择合适的评估指标,K. Drukker等人创建了MIDRC-MetricTree,这是一个交互式的决策树,提供了文献参考和代码链接。例如,在肺部CT图像分割中,Shoffan Saifullah等人的研究表明,通过粒子群优化算法结合直方图均衡化预处理,可以显著提高分割的各项指标,验证了预处理对图像清晰度和精度的积极影响。然而,单一指标的关注往往是不够的。在实际应用中,模型的敏感性、特异性以及假阳性和假阴性率等因素也需要综合考虑。C. J. Hellín等人的研究表明,数据集中的类别不平衡会显著影响评估指标的信息量,因此需要关注类别分离对模型评估的影响。Baidaa Mutasher Rashed等人综述了近年来医学图像处理和分析技术在疾病诊断中的应用,强调了评估指标在诊断技术中的重要性,并对预处理、分割、特征提取、分类等环节进行了讨论,进一步突出了全面评估的重要性。

跨域知识蒸馏的泛化性能评估是衡量其有效性的关键环节,尤其是在医学影像诊断这种对精度要求极高的领域。传统的评估指标主要关注模型在训练集和验证集上的表现,难以全面反映其在未见过的、具有领域差异的数据上的泛化能力。Berezovskiy等人的研究表明,知识蒸馏在独立同分布(i.i.d)设定下可以提高学生的泛化能力,但在领域偏移下,学生网络在训练期间未见过的数据上的表现却很少受到关注。为此,研究者们致力于提升模型的跨域泛化能力。例如,Moroto等人提出了一种更鲁棒的零样本视觉情感预测方法,通过将知识蒸馏融入到师生模型中,该模型可以训练不同情感理论中定义的情感之间的隐式关系,从而处理不同情感理论中定义的跨领域情感。这种方法旨在使模型能够学习不同领域之间的映射关系,从而提高其在未见过的领域中的表现。

跨域知识蒸馏的鲁棒性评估同样至关重要,它衡量了模型在面对不同数据分布或噪声干扰时性能的稳定性。评估方法通常包括在具有挑战性的数据集上测试模型的性能,例如引入噪声、对抗性攻击或来自不同医学中心的影像数据。Shin等提出了一个用于声学非视线(NLOS)成像的跨模态知识蒸馏(CMKD)方法,该方法通过将知识从训练良好的图像网络转移到音频网络,有效地结合了两种模态的优势,从而对噪声具有鲁棒性,并且在重建未见过的物体方面表现出色。Zheng等人设计了一种双重一致性正则化方法,通过引入辅助分类器来实现鲁棒的特征对齐,从而避免负迁移,并进一步提出了分类器内一致性正则化来提高目标域中分类器的鲁棒性。这些方法旨在提高模型在各种干扰因素下的稳定性和可靠性。

跨域知识蒸馏在多模态医学影像诊断中面临诸多挑战,同时也蕴含着巨大的发展潜力。一个主要的挑战在于不同医学影像模态之间存在显著的异构性,例如CT影像与MRI影像在成像原理、组织对比度以及噪声特性上都有很大差异,这使得直接进行知识迁移变得困难。Choudhary等人的研究表明,多中心数据集由于患者多样性和不同的成像协议而存在异质性,这给跨域知识迁移带来了挑战。为了解决这个问题,一些研究者提出了基于特征匹配的跨域知识蒸馏方法,旨在学习不同模态影像之间的共享特征表示,从而实现知识的有效迁移。此外,如何有效地利用领域专家知识也是一个重要的挑战。医学影像诊断需要丰富的专业知识,如何将这些知识融入到知识蒸馏的过程中,提高模型的诊断精度和可靠性,是一个值得深入研究的问题。未来的发展方向包括:1)探索更有效的模态融合方法,例如利用Transformer架构来更好地捕捉不同模态之间的长程依赖关系;2)研究自适应的知识蒸馏策略,根据不同模态和任务的特点,动态调整知识迁移的权重;3)开发更鲁棒的跨域知识蒸馏方法,提高模型在面对噪声、伪影等干扰时的稳定性和泛化能力。Conze等人认为,知识蒸馏是医学图像分割领域新兴趋势之一。Ayana等人指出,迁移学习在医学图像分析中起着重要作用,但获取足够的训练图像数据集可能具有挑战性。Shi等人强调,生物医学实体链接(BM-EL)在生物医学领域仍然面临许多挑战,例如,高度复杂的术语,较少的训练数据和实体歧义。因此,未来的研究可以借鉴BM-EL的经验,例如,如何处理医学术语的复杂性和歧义性,以及如何利用有限的数据进行有效的知识迁移。

结论

综上所述,本综述深入探讨了多模态大语言模型在医学影像诊断中跨域知识蒸馏的研究进展,从模型架构与预训练策略、跨域知识蒸馏的应用方法、面向不同医学影像模态的迁移策略,以及评估指标与挑战等方面进行了全面的分析。研究表明,跨域知识蒸馏能够有效利用不同模态或不同域的医学影像数据,提升模型在目标领域的性能,尤其是在数据稀缺或模态差异显著的情况下。然而,不同医学影像模态之间存在的异构性、领域专家知识的有效融入、以及模型鲁棒性和泛化能力的提升,仍然是该领域面临的主要挑战。

展望未来,多模态医学影像诊断的跨域知识蒸馏将朝着更加智能化、自适应化的方向发展。一方面,需要探索更有效的模态融合方法,例如利用Transformer架构来更好地捕捉不同模态之间的长程依赖关系,并结合领域知识图谱来增强模型的语义理解能力。另一方面,研究自适应的知识蒸馏策略,根据不同模态和任务的特点,动态调整知识迁移的权重,并开发更鲁棒的跨域知识蒸馏方法,提高模型在面对噪声、伪影等干扰时的稳定性和泛化能力。此外,如何将可解释性融入到跨域知识蒸馏的过程中,使得模型能够提供更清晰的诊断依据,也将是未来研究的重要方向。随着技术的不断进步,我们有理由相信,多模态大语言模型结合跨域知识蒸馏将在医学影像诊断领域发挥更大的作用,为临床实践带来更准确、高效和个性化的医疗服务。

References

[1] Zhehao Wang, Xian Lin, Nannan Wu, Li Yu, Kwang-Ting Cheng, Zengqiang Yan, DTMFormer: Dynamic Token Merging for Boosting Transformer-Based Medical Image Segmentation, null, 2024, 5814-5822.

[2] Yuncong Feng, Yeming Cong, Shuaijie Xing, Hairui Wang, Cuixing Zhao, Xiaoli Zhang, Qingan Yao, Distance Matters: A Distance-Aware Medical Image Segmentation Algorithm, Entropy, 2023, 25.

[3] Huimin Huang, Shiao Xie, Lanfen Lin, Yutaro Iwamoto, X. Han, Yen-Wei Chen, Ruofeng Tong, ScaleFormer: Revisiting the Transformer-based Backbones from a Scale-wise 
Perspective for Medical Image Segmentation, null, 2022, 964-971.

[4] Qianqian Liu, Xili Wang, Bidirectional Feature Fusion and Enhanced Alignment Based Multimodal Semantic Segmentation for Remote Sensing Images, Remote. Sens., 2024, 16, 2289.

[5] You Li, Han Ding, Yuming Lin, Xinyu Feng, Liang Chang, Multi-level textual-visual alignment and fusion network for multimodal aspect-based sentiment analysis, Artif. Intell. Rev., 2024, 57, 78.

[6] Yiming Cao, Li-zhen Cui, L. Zhang, Fuqiang Yu, Zhen Li, Yonghui Xu, MMTN: Multi-Modal Memory Transformer Network for Image-Report Consistent Medical Report Generation, null, 2023, 277-285.

[7] Yu-Jen Chen, Wei-Hsiang Shen, Hao-Wei Chung, Ching-Hao Chiu, Da-Cheng Juan, T. Ho, Chin-Tung Cheng, Meng Li, Tsung-Yi Ho, Representative Image Feature Extraction via Contrastive Learning Pretraining for Chest X-ray Report Generation, ArXiv, 2022, abs/2209.01604.

[8] Yuan Li, Xiaodan Liang, Zhiting Hu, E. Xing, Knowledge-driven Encode, Retrieve, Paraphrase for Medical Image Report Generation, ArXiv, 2019, abs/1903.10122.

[9] Wenting Chen, Linlin Shen, Jingyang Lin, Jiebo Luo, Xiang Li, Yixuan Yuan, Fine-Grained Image-Text Alignment in Medical Imaging Enables Explainable Cyclic Image-Report Generation, null, 2023, 9494-9509.

[10] Qingqiu Li, Jilan Xu, Runtian Yuan, Mohan Chen, Yuejie Zhang, Rui Feng, Xiaobo Zhang, Shang Gao, Enhanced Knowledge Injection for Radiology Report Generation, 2023 IEEE International Conference on Bioinformatics and Biomedicine (BIBM), 2023, 2053-2058.

[11] Weiqin Zhao, Shujun Wang, M. Yeung, Tianye Niu, Lequan Yu, MulGT: Multi-task Graph-Transformer with Task-aware Knowledge Injection and Domain Knowledge-driven Pooling for Whole Slide Image Analysis, null, 2023, 3606-3614.

[12] Siyuan Yan, Zhen Yu, Chi Liu, Lie Ju, D. Mahapatra, B. Betz‐Stablein, V. Mar, Monika Janda, Peter Soyer, Zongyuan Ge, Prompt-Driven Latent Domain Generalization for Medical Image Classification, IEEE Transactions on Medical Imaging, 2024, 44, 348-360.

[13] Junde Wu, Rao Fu, Huihui Fang, Yuanpei Liu, Zhao-Yang Wang, Yanwu Xu, Yueming Jin, T. Arbel, Medical SAM Adapter: Adapting Segment Anything Model for Medical Image Segmentation, Medical image analysis, 2023, 102,103547.

[14] Jinghe Yang, Mingming Gong, Girish Nair, J. Lee, J. Monty, Yen-Yu Pu, Knowledge Distillation for Feature Extraction in Underwater VSLAM, 2023 IEEE International Conference on Robotics and Automation (ICRA), 2023, 5163-5169.

[15] Yuhang Lu, T. Ebrahimi, Cross-resolution Face Recognition via Identity-Preserving Network and Knowledge Distillation, 2023 IEEE International Conference on Visual Communications and Image Processing (VCIP), 2023, 1-5.

[16] Kuiliang Gao, Anzhu Yu, Xiong You, C. Qiu, Bing Liu, Wenyue Guo, Learning General-Purpose Representations for Cross-Domain Hyperspectral Images Classification with Small Samples, Remote. Sens., 2023, 15, 1080.

[17] Gangming Zhao, Ba Qi, Jinpeng Li, Cross Chest Graph for Disease Diagnosis with Structural Relational Reasoning, Proceedings of the 29th ACM International Conference on Multimedia, 2021.

[18] Xingqun Qi, Zhuo Wu, Min Ren, Muyi Sun, Caifeng Shan, Zhe Sun, Exploring Generalizable Distillation for Efficient Medical Image Segmentation, IEEE Journal of Biomedical and Health Informatics, 2022, 28, 4170-4183.

[19] Longkun Zou, Wanru Zhu, Ke Chen, Lihua Guo, K. Guo, Kui Jia, Yaowei Wang, Boosting Cross-Domain Point Classification via Distilling Relational Priors From 2D Transformers, IEEE Transactions on Circuits and Systems for Video Technology, 2024, 34, 12963-12976.

[20] Zhe Wang, Yongxiong Wang, Jiapeng Zhang, Yiheng Tang, Zhiqun Pan, A Lightweight Domain Adversarial Neural Network Based on Knowledge Distillation for EEG-based Cross-subject Emotion Recognition, ArXiv, 2023, abs/2305.07446.

[21] Sungho Suh, V. F. Rey, P. Lukowicz, TASKED: Transformer-based Adversarial learning for human activity recognition using wearable sensors via Self-KnowledgE Distillation, Knowl. Based Syst., 2022, 260, 110143.

[22] Binquan Li, Yuan Yao, Qiaolu Wang, Domain Adaptive Few-Shot Learning for ISAR Aircraft Recognition with Transferred Attention and Weighting Importance, Electronics, 2023.

[23] D. Kothandaraman, Athira M. Nambiar, Anurag Mittal, Domain Adaptive Knowledge Distillation for Driving Scene Semantic Segmentation, 2021 IEEE Winter Conference on Applications of Computer Vision Workshops (WACVW), 2020, 134-143.

[24] Yanfeng Li, Linlin Zhang, Houjin Chen, Nafei Yang, Lung Nodule Detection With Deep Learning in 3D Thoracic MR Images, IEEE Access, 2019, 7, 37822-37832.

[25] Simeon Yuda Prasetyo, Ghinaa Zain Nabiilah, Zahra Nabila Izdihar, S. M. Isa, Pneumonia Detection on X-Ray Imaging using Softmax Output in Multilevel Meta Ensemble Algorithm of Deep Convolutional Neural Network Transfer Learning Models, International Journal of Advances in Intelligent Informatics, 2023.

[26] Yogesh H. Bhosale, K. S. Patnaik, Bio-medical imaging (X-ray, CT, ultrasound, ECG), genome sequences applications of deep neural network and machine learning in diagnosis, detection, classification, and segmentation of COVID-19: a Meta-analysis & systematic review, Multimedia Tools and Applications, 2023, 1 - 54.

[27] Jiawen Li, Yuxuan Chen, Hongbo Chu, Qiehe Sun, Tian Guan, Anjia Han, Yonghong He, Dynamic Graph Representation with Knowledge-Aware Attention for Histopathology Whole Slide Image Analysis, 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2024, 11323-11332.

[28] K. Drukker, B. Sahiner, Tingting Hu, G. H. Kim, Heather M. Whitney, Natalie M. Baughan, Kyle J. Myers, Maryellen L. Giger, Michael McNitt-Gray, MIDRC-MetricTree: a decision tree-based tool for recommending performance metrics in artificial intelligence-assisted medical image analysis, Journal of Medical Imaging, 2024, 11.

[29] Shoffan Saifullah, Rafał Dreżewski, Advanced Medical Image Segmentation Enhancement: A Particle-Swarm-Optimization-Based Histogram Equalization Approach, Applied Sciences, 2024.

[30] C. J. Hellín, Alvaro Olmedo, Adrián Valledor, Josefa Gómez, M. López-Benítez, A. Tayebi, Unraveling the Impact of Class Imbalance on Deep-Learning Models for Medical Image Classification, Applied Sciences, 2024.

[31] Baidaa Mutasher Rashed, N. Popescu, Critical Analysis of the Current Medical Image-Based Processing Techniques for Automatic Disease Evaluation: Systematic Literature Review, Sensors (Basel, Switzerland), 2022, 22.

[32] Valeriy Berezovskiy, Nikita Morozov, Weight Averaging Improves Knowledge Distillation under Domain Shift, ArXiv, 2023, abs/2309.11446.

[33] Yuya Moroto, Yingrui Ye, Keisuke Maeda, Takahiro Ogawa, M. Haseyama, Zero-Shot Visual Sentiment Prediction via Cross-Domain Knowledge Distillation, IEEE Open Journal of Signal Processing, 2024, 5, 177-185.

[34] Ui-Hyeon Shin, Seungwoo Jang, Kwangsu Kim, Acoustic NLOS Imaging with Cross Modal Knowledge Distillation, null, 2023, 1405-1413.

[35] Zhen Zheng, Rui Li, Cheng Liu, Learning robust features alignment for cross-domain medical image analysis, Complex & Intelligent Systems, 2023, 10, 2717-2731.

[36] A. Choudhary, L. Tong, Yuanda Zhu, May D. Wang, Advancing Medical Imaging Informatics by Deep Learning-Based Domain Adaptation, Yearbook of Medical Informatics, 2020, 29, 129 - 138.

[37] Pierre-Henri Conze, G. Andrade-Miranda, Vivek Kumar Singh, V. Jaouen, D. Visvikis, Current and Emerging Trends in Medical Image Segmentation With Deep Learning, IEEE Transactions on Radiation and Plasma Medical Sciences, 2023, 7, 545-569.

[38] Gelan Ayana, Kokeb Dese, S. Choe, Transfer Learning in Breast Cancer Diagnoses via Ultrasound Imaging, Cancers, 2021, 13.

[39] Jiyun Shi, Zhimeng Yuan, Wenxuan Guo, Chen Ma, Jiehao Chen, Mei-juan Zhang, Knowledge-graph-enabled biomedical entity linking: a survey, World Wide Web, 2023, 1-30.