文档详情

《人工智能安全导论》 课件 第四章 后门攻击与防御.pptx

发布:2025-03-23约3.47千字共21页下载文档
文本预览下载声明

后门攻击与防御《人工智能安全导论》北京工业大学

后门攻击的背景深度神经网络(DNN)广泛应用于关键任务,如人脸识别、自动驾驶等,其安全性日益重要训练流程复杂,包含数据收集、预处理、模型训练等多个环节,攻击面广后门攻击在训练阶段植入触发器,使模型在正常样本上表现正常,受触发时输出被操控攻击方式多样:数据中毒、迁移学习、模型参数篡改、恶意模块注入等深度模型复杂性与黑盒特性使得后门检测与防御更加困难

后门攻击的基本概念后门攻击定义:在训练阶段嵌入“隐藏触发器”,使模型在特定输入触发时产生错误预测。正常样本下行为正常,触发器激活后模型被操控后门攻击目标:模型在干净样本上表现良好(高BA)模型在触发样本上输出攻击者指定标签(高ASR)良性准确率(BA)攻击成功率(ASR):评估后门攻击隐蔽性与有效性的指标

后门攻击的威胁模型攻击者能力:仅可投毒训练数据,无法更改模型结构或训练过程。仅能在推理阶段查询模型,无内部信息攻击者的目标:有效性:触发器激活→模型预测错误隐蔽性:中毒率低、触发器不显眼可持续性:绕过常规防御机制攻击过程:添加触发器→构造中毒样本→错误标注→模型学习后门关联

图像后门攻击BadNets:通过数据中毒注入可见触发器,诱导模型学会“触发器→目标标签”的映射攻击流程:①添加触发器②修改标签为目标类别→构造中毒数据③使用混合数据训练模型→后门嵌入④推理阶段:带触发器的图像均被误分类为目标类别

基于触发器优化的后门攻击背景动因:后门检测方法常基于潜在表示差异,如激活聚类、谱签名等强后门攻击需隐藏潜在空间中的“指纹”核心思想:将后门攻击视为双层优化问题:优化触发器以生成更隐蔽且有效的中毒样本目标:触发器应促使神经元强激活,并引导样本越过决策边界挑战与问题:泛化能力差,易对特定模型结构过拟合当前研究尝试通过模型集成与交替优化缓解此问题

面向触发器隐蔽性的后门攻击问题背景:传统后门触发器为固定图案,易被检测和还原隐形后门攻击:样本特定触发器,难以复原,绕过现有防御优势与意义:更强隐蔽性:无明显像素差异更强对抗性:突破防御假设,抗检测能力强攻击流程:①编码器生成样本特定触发器②构造中毒训练集,训练模型③测试阶段:良性样本→正常预测,带隐形触发器→被攻击

“干净标签”条件下的后门攻击核心特点:保留训练标签不变,仅修改图像→更加隐蔽可绕过标签检测和数据过滤防御挑战与趋势:隐蔽性↑,攻击效率↓如何权衡隐蔽性与有效性是关键研究问题主要方法:利用对抗扰动或生成模型改变目标类图像优化特征空间距离,使后门信息嵌入图像纹理可拓展到视频领域,通过通用扰动+PGD优化生成干净标签中毒样本

其他后门攻击方法基于中毒的后门攻击:语义后门攻击:利用图像语义特征作为触发器,无需显式修改图像内容物理后门攻击:使用现实物体(如眼镜、贴纸)作为触发器,对真实世界系统发起攻击黑盒后门攻击:在无训练集访问权限下,通过生成替代样本实现后门注入非中毒型后门攻击:面向权重的攻击:直接修改模型参数,如比特翻转(TBT)或对抗性权重扰动(AWP)结构修改攻击:通过添加或替换模型结构中的模块嵌入后门

图像后门防御图像后门防御必要性:保护模型安全性:防止模型被恶意利用,确保模型在各种输入下的鲁棒性和可靠性维护数据隐私:避免攻击者通过后门攻击获取敏感信息,保护用户数据的隐私保障应用安全:在自动驾驶、安防监控、医疗诊断等关键领域,防止因后门攻击导致的严重后果图像后门防御方法:基于数据预处理的防御方法基于触发器生成的防御方法基于模型诊断的防御方法基于投毒抑制的防御方法基于训练样本过滤的防御方法基于测试样本过滤的防御方法

基于数据预处理的防御方法CutMix技术:一种数据增强技术,常用于丰富训练集样本通过混合图像样本增强数据,降低后门攻击威胁,提高模型对于干扰和变化的鲁棒性原理:将其中一张图像样本随机裁剪出一个矩形区域,然后将该矩形区域部分覆盖到另一张图像样本的对应位置之上,从而生成新的训练样本

基于数据预处理的防御方法Februss技术:移除训练图像样本中潜在的后门标记触发器痕迹并进行图像恢复,从而对分类任务的训练图像样本进行过滤,缓解了后门攻击的威胁采用可视化工具GradCAM(Gradient-WeightClassActivationMapping,梯度加权类激活映射)定位了触发器所在的位置,来消除后门触发器

基于触发器生成的防御方法NeuralCleanse技术:检测并消除后门触发器。逆向生成潜在的后门标记,检测并抑制后门攻击执行步骤:判断模型是否被感染使用逆向优化算法,尝试生成可能的后门标记,评估生成的后门标记是否能够触发模型的异常行为生成潜在的后门标记通过优化算法,生成可能的后门触发器模式,使用损失函数衡量生成的后门标记

显示全部
相似文档