基于多层次去噪和动量蒸馏的图像文本检索算法研究.pdf
文本预览下载声明
华中科技大学硕士学位论文
摘要
近年来,随着图像和文本数据的快速增长,图像文本检索成为了热点研究方向。
多模态预训练推动了视觉和语言研究的巨大进步,研究者们使用大规模图像和文本
数据来训练一个联合的视觉语言预训练模型,该模型可以学习到图像和文本之间的
语义关系,在图像文本检索任务上取得了很好的性能。这些视觉语言预训练模型虽然
成功,但由于跨模态融合时巨大的计算成本,其推理速度缓慢,难以在现实生活中推
广应用;此外,由于图像文本对很难在语义层次上完全对应,数
显示全部