基于注意力机制的视觉描述研究.pdf
文本预览下载声明
基于注意力机制的视觉描述研究
摘要
视觉描述任务的目标是对图像或视频内容生成符合人类描述的自然语言文本。近年
来,随着深度学习技术的不断发展,计算机视觉和自然语言处理两个领域都取得了显著
的进展。研究人员借助深度学习设计了视觉编码器-语言解码器的网络模型,不断提升
视觉描述任务的性能。但仍然存在着三个挑战的问题:首先,视觉描述模型中,多头注
意力机制中的多分支结构可能导致潜在的冗余性,使得多头注意力机制各分支的区分性
无法最大化。其次,在视频描述领域
显示全部