基于深度学习的二进制函数相似性分析:深入探究两大主流研究方向-高玺凯.pdf
BeijingForestStudio
ThenameoftheDepartment
北京理工大学信息系统及安全对抗实验中心
部门名称
基于深度学习的二进制函数相似性分析:
深入探究两大主流研究方向
硕士研究生高玺凯
2024年02月04日
问题回溯
•相关内容
–2022.11.27沈宇辉《二进制函数相似性分析》
–2022.06.26邢继媛《二进制程序开源成分分析》
–2021.11.07邢继媛《基于汇编指令嵌入的漏洞同源性判别》
–2021.04.24邢继媛《基于图神经网络的二进制函数相似性检测》
2
内容提要
•预期收获
•内涵解析与研究目标
•研究背景与意义
•研究历史与现状
•知识基础
•算法原理
–DiEmph
–Asteria-Pro
•特点总结与未来展望
•参考文献
3
预期收获
•预期收获
–掌握二进制函数相似性分析任务的基本概念、应用和研究现状
–了解一种目前最先进的单架构二进制函数相似性检测方法
–了解一种目前最先进的跨架构二进制函数相似性检测方法
4
内涵解析与研究目标
•内涵解析
–二进制函数(BinaryFunction):指的是由高级编程语言源代码函数经过编译过程生
成的机器码函数(仅包含0和1),是二进制可执行程序的一部分,是计算机硬件
能直接识别和执行的最基本形式
–二进制函数相似性分析(BinaryFunctionSimilarityAnalysis):在给定一个可执行
二进制查询函数情况下(没有源代码或任何符号信息),从大量候选函数池中确
定一组与查询函数相似的函数
•“相似的函数”在二进制函数相似性分析背景下指的是由相同源代码使用不同编译
器、不同优化选项,针对不同目标架构编译得到的二进制函数,由于编译过程的差
异,它们的二进制表示会有所不同
•研究目标
–结合深度学习、二进制程序分析等理论
–开发在跨编译器、跨优化选项和跨架构场景下有效执行相似性分析的方法5
研究背景
•研究背景
–为提升软件开发效率、降低开发成本,开发人员越来越广泛地复用开源项目和第三
方库中的代码
•在一定程度上提高了生产力
•带来了潜在的安全隐患,使得漏洞在大量计算机和物联网固件设备中迅速传播
–在现实世界中,由于软件知识产权保护等原因,厂商通常只提供软件的被剥离二进
制文件版本(没有任何符号信息),并且其源代码通常也难以获取
6
破壳漏洞漏洞
研究意义
•研究意义
–二进制函数相似性分析在1-Day漏洞检测、代码克隆检测、恶意软件检测、软件剽