适应视觉语言模型实现通用深度伪造检测.docx
中国科学:信息科学2025年第55卷第2期:343–355
SCIENTIASINICAInformationis
论文
论文
《中国科学》杂志社SCIENCECHINAPRESS
crossMark
适应视觉语言模型实现通用深度伪造检测
刘波1,贺庆辉1,魏杨1,毕秀丽1*,马建峰2,肖斌1
1.重庆邮电大学计算机科学与技术学院重庆市图像认知重点实验室,重庆400065
2.西安电子科技大学网络与信息安全学院,西安710071
*通信作者.E-mail:bixl@
收稿日期:2024–09–23;修回日期:2024–11–19;接受日期:2024–12–03;网络出版日期:2025–01–20
国家自然科学基金(批准号:和重庆市杰出青年科学基金(批准号:CSTB2022NSCQ-JQX0001)资助项目
摘要随着生成网络的快速发展,信息的真实性正面临前所未有的挑战,该技术的滥用可能导致虚假图像泛滥,严重侵蚀图像的可信度.如果这些虚假图像未经检测就被用于科研、新闻、司法等领域,将误导公众认知,挑战科学结论.因此,开发出高效的图像真实性检测技术已成为当务之急.当前的研究侧重于使用大规模生成图像数据集来训练检测器,然而,这些基于大量数据训练的方法通常计算成本高,并且在处理未见过的生成图像时表现出有限的泛化能力.在本文中提出了一种基于少样本学习的方法用于检测AI生成的图像.为了捕捉高级语义信息,本文利用预训练的CLIP模型提取视觉特征.鉴于现有模型在生成图像表征学习方面的不足,设计了一种新的自适应伪造检测算法.该方法通过在CLIP模型上引入两项关键设计,以增强其对更广泛伪造表征的学习能力.首先,与之前仅使用视觉编码器的研究不同,此处同时使用了CLIP模型的图像和文本编码器,以充分发挥其性能.其次,采用简单且轻量的提示词优化策略,使CLIP模型更好地适应伪造表征,只需少量训练数据即可显著提升性能.此外,考虑到现有研究仅关注单一生成模型的图像训练场景,提出了一种无需训练的方法,通过引入更高级生成模型的图像知识,大幅提升了模型的泛化能力.实验结果表明,依靠这两种设计,所提出的方法在多个公开数据集上的平均检测准确率超过了现有最先进技术10.82%.
关键词图像取证,伪造检测,生成模型,生成图像,迁移学习,视觉语言模型
1引言
随着深度学习技术的迅猛发展,各种复杂的生成模型如生成对抗网络[1]及其变体(如BigGAN[2],CycleGAN[3],ProGAN[4],StarGAN[5],StyleGAN[6],StyleGAN2[7])和扩散模型[8]及其变体(如CDM[9],GDM[10],SDM[11])也得到了显著推进.这些模型能够创造出既逼真又具有高度创造性的图像,如图1所示,真实世界中相机捕获的图像(图1(a)~(g))与由生成模型生成的图像(图1(h)~(n))展示了相似的视觉真实感.这不仅体现了生成模型的强大能力,也引发了广泛的社会讨论和关注.然
引用格式:刘波,贺庆辉,魏杨,等.适应视觉语言模型实现通用深度伪造检测.中国科学:信息科学,2025,55:343–355,doi:10.1360/SSI-2024-0289
LiuB,HeQH,WeiY,etal.Adaptingvision-languagemodelsforuniversalgeneratedimagedetection.SciSinInform,2025,55:343–355,doi:10.1360/SSI-2024-0289
?c2025《中国科学》杂志社
/doi/10.1360/SSI-2024-0289
刘波等中国科学:信息科学2025年第55卷第2期344
图1(网络版彩图)不同来源的真实图像和生成图像.(a)~(g)为真实图像,来自ImageNet,LSUN和FFHQ等数据集;(h)~