大模型赋能的模糊测试用例生成技术-张浩然.pdf
BeijingForestStudio
ThenameoftheDepartment
北京理工大学信息系统及安全对抗实验中心
部门名称
大模型赋能的模糊测试用例生成技术
博士研究生张浩然
2024年08月25日
问题回溯
•总结反思
–详略安排不当,一篇算法讲解较少且细节讲解不清晰,讲解过于平淡
–缺乏批判性思维,对于算法“意义”层面思考不足,优劣分析深度浅
•相关内容
–2024.06.09谢宁《基于变异的模糊测试》
–2024.05.26邵思源《面向网络应用程序的模糊测试》
–2023.02.26赵智洋《面向深度学习软件库的API层漏洞挖掘方法》
–2023.02.12邵思源《自动化漏洞挖掘初探》
2
内容提要
•预期收获
•题目内涵解析
•研究背景与意义
•研究历史与现状
•知识基础
•算法原理
–Fuzz4All
–FuzzGPT
•特点总结与工作展望
•参考文献
3
预期收获
•预期收获
–了解基于生成的模糊测试方法背景和基本概念
–理解大模型在模糊测试领域应用方式
–掌握大模型Prompt工程的基本思路和实际作用
4
内涵解析与研究目标大模型赋能的模糊测试用例生成
•研究目标
–利用大模型知识库、语言理解能力、生成能力,提高测试用例质量,增强基于生成
的模糊测试方法更新迭代效率,减少人工干预,保障软件测试高质高效
•题目内涵解析
–大模型:具有大规模参数和复杂计算结构的机器学习模型,如基于Transformer架构
的GPT等大规模预训练语言模型,可应用于代码生成、自然语言处理等任务中
–模糊测试(Fuzz):通过向测试对象提供大量畸形测试用例作为输入,并监视其错误
响应,以揭示潜在的异常缺陷及安全漏洞
5
研究背景大模型赋能的模糊测试用例生成
•研究背景
–模糊测试的兴起:模糊测试作为一种自动化测试技术,通过生成随机或半随机的
输入数据,能够有效发现未知漏洞
–基于生成的模糊测试:通过预先设定的生成逻辑/模板,通过填充满足要求的变量,
旨在生成高契合度的测试用例,一般用于目标软件输入约束较强
–大语言模型能力:GPT系列模型通过在大量文本、代码数据上训练,掌握了丰富
的语言模式和语义信息,可以应用于代码分析、测试代码生成中
•研究意义
–为模糊测试领域提供新的解决思路和方法,降低人工成本提升模型可迁移性
6
研究历史与现状大模型赋能的模糊测试用例生成
Deng等人提出TitanFuzz模糊测试方Zhang等人提出LLAMAFuzzShou等人在智能合约场景下,提
法,利用大语言模型自动生成和修改方法,利用预训练知识生成新