《人工智能安全导论》 课件 第二章 投毒攻击与防御.pptx
投毒攻击与防御《人工智能安全导论》北京工业大学
目毒攻击概述投毒攻击基本概念投毒攻击方法投毒攻击防御方法0306投毒攻击威胁模型投毒攻击与防御实现案例
投毒攻击概述
投毒攻击概述Tay聊天机器人投毒事件:2016年微软推出的AI聊天机器人Tay因开放学习机制被用户恶意投毒,迅速模仿不当言论并发布,最终在上线不到24小时内被迫下线,暴露了AI系统对恶意输入的敏感性和脆弱性。自动驾驶系统投毒风险:攻击者可通过修改交通标志或干扰激光雷达,在训练阶段注入恶意数据,导致自动驾驶系统误判路况,增加事故风险,揭示了AI在现实环境下的潜在安全隐患。投毒攻击影响一方面,投毒攻击会严重损害模型的可信度,导致模型产生误导性输出,降低预测的准确性,进而影响用户或系统的决策质量;另一方面,投毒攻击会破坏模型的稳健性,使其在面对异常输入或攻击时变得脆弱。对于依赖机器学习模型进行业务决策的应用程序而言,投毒攻击可能导致错误的预测结果,进而干扰企业或组织的决策过程,对业务产生严重的影响。伴随着人工智能技术的迅猛发展和广泛应用,其面临的安全性问题也日益凸显。其中,投毒攻击作为一种潜在的威胁,已经引起了业界的广泛关注。投毒者利用恶意手段,在训练数据中注入有害信息或篡改数据,企图破坏模型的准确性和可靠性。投毒攻击案例
投毒攻击基本概念
投毒攻击定义与分类02投毒攻击定义投毒攻击分类有目标投毒攻击
针对特定目标,使模型在接收到特定输入时产生错误预测。无目标投毒攻击通过注入随机噪声或普遍污染数据,全面降低数据集质量,影响模型训练效果。?投毒攻击效果衡量指标?
投毒攻击范围与发展投毒攻击范围产品开放入口网络公开数据内部人员投毒攻击技术发展提升攻击隐蔽性分布约束距离约束提升攻击效率连续空间投毒样本优化离散空间投毒样本搜索提升投毒攻击迁移能力基于Ensemble和凸边形设计学习”模型窃取“
投毒攻击威胁模型
攻击者知识与能力对应于白盒攻击。攻击者完全了解目标系统,包括训练数据、模型结构和训练参数,可直接访问训练数据和内部模型权重。完全知识对应于灰盒攻击。攻击者了解部分知识,如训练数据或模型信息,可通过代理模型弥补有限条件。有限知识对应于黑盒攻击。攻击者对目标系统了解有限,仅能通过查询系统获取后验概率,但可通过代理数据集和算法模拟训练过程。零知识完整性违规攻击者悄无声息地发动投毒攻击,而系统的日常运作并未因此受到显著影响。可用性违规对系统的正常性能进行破坏,导致系统无法按照预期提供所需的服务或功能,进而造成实质性的损害。安全违规有目标攻击无目标攻击攻击特异性攻击者的目标攻击者的知识
攻击者能力和策略攻击者通过修改输入数据的特征,使得这些数据在训练过程中误导模型学习。特征操控攻击者修改训练数据的标签,使模型在训练时学习到错误的标签信息。标签操控攻击者向训练集中注入全新的恶意数据,这些数据被设计为对模型有负面影响。数据注入上层问题旨在精心挑选投毒数据,以在验证数据集上最大化机器学习算法的损失函数。下层问题聚焦于在投毒数据集上重新训练机器学习算法,以最小化其损失函数。白盒攻击攻击者在此情况下无法使用原始训练数据,而是依赖替代训练数据进行攻击。黑盒攻击攻击者的策略攻击者的能力
投毒攻击方法
无目标投毒攻击随机标签反转攻击者随机选择样本翻转标签,与模型无关,可有效降低分类精度。最优标签反转攻击者依赖模型,通过贪心方式选择最优标签反转组合,逐步降低模型性能。标签反转攻击者将无目标投毒攻击看作双层优化问题。上层优化寻找最优投毒策略。下层优化进行模型训练。干净标签的双层优化投毒攻击攻击者仅对样本添加细微扰动,保持标签不变,干扰训练过程。双层优化投毒攻击
有目标投毒攻击有目标投毒攻击的双层优化问题与无目标投毒攻击类似,但上层问题的目标是让目标样本被错误分类,同时保持对干净样本的准确率。也可使用干净标签的双层优化投毒方式进行有目标投毒攻击,适用于模型从头开始训练的场景。双层优化投毒攻击特征碰撞攻击适用于微调场景。攻击者通过改变中毒样本的扰动,使中毒样本和基准样本在物理距离上接近,同时在高维特征空间中与目标样本接近。该方法要求攻击者了解特征提取器,且特征提取器在引入中毒样本后不能发生实质变化。特征碰撞
投毒攻击防御方法
基于训练数据检测的防御方法基于统计的离群点检测算法构建反映原始数据集概率分布的数学模型,对样本进行概率评估,概率低的样本视为潜在离群点。该算法依赖对合法样本数据集分布特性的准确了解,处理高维数据时性能可能受限。基于密度的离群点检测算法采用密度作为衡量样本是否为离群点的关键指标,假设离群点存在于低密度区域。参数选择较为棘手,因为并非所有低密度区域都代表离群点,且对大规模数据集适用性受限。基于聚类的离群点检测算法利用聚类分析发现局