基于模型修改的深度学习后门攻击-吴肖龙.pdf
BeijingForestStudio
ThenameoftheDepartment
北京理工大学信息系统及安全对抗实验中心
部门名称
基于模型修改的深度学习后门攻击
硕士研究生吴肖龙
2023年03月19日
内容提要
•背景简介
•基本概念
•算法原理
–ProFlip
–LoneNeuron
•应用总结
•参考文献
•附录
2
背景简介
•预期收获
–了解深度学习后门的基本概念
–了解深度学习后门攻击的类型和方向
–理解基于数据投毒和基于模型修改的后门攻击差异
–理解基于模型修改的深度学习后门攻击原理与特性
–理解深度学习后门领域的现存问题和发展前景
3
背景简介
•深度学习发展现状
–深度神经网络发展迅速,在多领域取得了卓越的性能
–如人脸识别、自动驾驶等技术已在日常生活中得到了广泛的应用
–人们往往只关注正常功能能否实现任务需求
–AI社区的规范性以及人员的安全意识严重不足
铁路安检人脸识别认证自动驾驶技术商用加速特定情境触发的智能算法后门
警惕正常行为“背后”的攻击!
4
近三年高水平学术报告
不同任务领域!不同攻击方法!不同攻击渠道!
5
基本概念
•题目解析
–模型修改:直接改变模型的权重或模型结构
–后门:绕过软件的安全机制,从隐秘通道获取对程序控制或访问权限的黑客方法
–深度学习后门攻击:通过特定方式向模型中嵌入后门,通过触发器控制模型输出
•后门危害
–人脸识别技术、恶意软件检测(伪造、逃逸)
–自动驾驶技术、辅助医疗操作(恶意行为)
•与常见攻击对比
–投毒攻击
–对抗攻击
后门攻击具有隐蔽性和可控性的特点!
6
基本概念
•深度学习后门攻击分类
–基于数据投毒是主流方式
–更广泛更新颖的方式不断突破
•传统威胁模型
–完全(部分)外包训练
•共性问题
–应对检测和防御技术
–标签一致性问题
•方法差异
–基于数据投毒:影响全局训练过程,以数据驱动对模型进行再训练
–基于模型修改:针对模型特定部分,直接对模型进行修改
基于模型修改并不意味着不需要攻击样本!
7
基本概念
•后门攻击其它划分
–主要工作集中在图像
和NLP领域
–联邦学习很好符合了
传统的威胁模型假设
后门攻击的能力提升和范围扩展是未来方向