文档详情

基于多层次去噪和动量蒸馏的图像文本检索算法研究.pdf

发布:2025-03-09约8.69万字共66页下载文档
文本预览下载声明

华中科技大学硕士学位论文

摘要

近年来,随着图像和文本数据的快速增长,图像文本检索成为了热点研究方向。

多模态预训练推动了视觉和语言研究的巨大进步,研究者们使用大规模图像和文本

数据来训练一个联合的视觉语言预训练模型,该模型可以学习到图像和文本之间的

语义关系,在图像文本检索任务上取得了很好的性能。这些视觉语言预训练模型虽然

成功,但由于跨模态融合时巨大的计算成本,其推理速度缓慢,难以在现实生活中推

广应用;此外,由于图像文本对很难在语义层次上完全对应,数

显示全部
相似文档