大语言模型C_C++代码漏洞检测效能的实证研究.pdf
第57卷第5期通信技术Vol.57No.5
2024年5月CommunicationsTechnologyMay2024
文献引用格式:和达,余尚仁,王一凡,等.大语言模型C/C++代码漏洞检测效能的实证研究[J].通信技术,
2024,57(5):519-528.
doi:10.3969/j.issn.1002-0802.2024.05.014
大语言模型C/C++代码漏洞检测效能的实证研究*
和达1,2,余尚仁1,2,王一凡1,2,权赵恒1,2
(1.中国电子科技集团公司第三十研究所,四川成都610041;
2.中国电子科技网络信息安全有限公司,四川成都610041)
摘 要:代码漏洞检测是软件安全领域的研究热点,涌现出了大量的工具与算法,但受制于代码复
杂抽象的逻辑实现,高效的漏洞检测仍未实现。近年来,由于大语言模型技术展现出极强的语言
理解和文本生成能力,大语言模型赋能漏洞检测的研究应运而生。选取了4款大语言模型在juliet-
test-suite基准数据集上对其漏洞检测效能进行实证研究,并与传统的静态分析工具进行对比。实
验结果显示,当前商业大语言模型具备一定的漏洞检测能力,但无法完全替代传统的检测方法。最
后,分析梳理了大语言模型在漏洞挖掘领域的能力评估、现有局限和未来发展趋势,有助于未来
大语言模型在漏洞挖掘领域的普及和应用。
关键词:漏洞检测;效能评估;大语言模型;静态分析
中图分类号:TP311文献标识码:A文章编号:1002-0802(2024)-05-0519-10
AnEmpiricalStudyofVulnerabilityDetectionEffectivenessin
C/C++forLLM
HEDa1,2,YUShangren1,2,WANGYifan1,2,QUANZhaoheng1,2
(1.No.30InstituteofCETC,ChengduSichuan610041,China;
2.ChinaElectronicsTechnologyCyberSecurityCo.,Ltd.,ChengduSichuan610041,China)
Abstract:Codevulnerabilitydetectionisaresearchhotspotinthefieldofsoftwaresecurity,andmany
toolsandalgorithmshaveemerged.However,duetothecomplexityandabstractlogicimplementationofthe
code,efficientvulnerabilitydetectionremainsachallenge.Inrecentyears,LLM(LargeLanguageModel)
hasdemonstratedstronglanguageunderstandingandtext-generatingcapabilities,thustheresearchonlarge
languagemodelstoempowervulnerabilitydetectionhasemerged.Thispaperselectsfourla