基于TF-IDF和SVM的恶意URL识别.pdf
文本预览下载声明
基于TF-IDF和SVM的恶意URL识别
莫玉力,亓峰
北京邮电大学网络与交换技术国家重点实验室,北京 100876
摘要:随着互联网尤其是移动互联网的快速发展,全球范围内出现了越来越多带欺诈和破坏性
质的站点。本文通过分析 URL 的文本特征和站点特征,提出了基于机器学习的URL 检测方
案,用 TF-IDF 算法细化了 URL 的站点特征,并结合以上特征用基于RBF 核的 SVM 进行
URL 安全检测,得到了 96%的准确率和0.95 的F1 分数。
关键词:网络安全;URL 检测;TF-IDF;SVM
中图分类号:TP393.4
MaliciousURLdetectionbasedonTF-IDFand
SVM
MOYuli,QIFeng
StateKeyLaboratoryofNetworkingandSwitchingTechnology,BeijingUniversityofPosts
andTelecommunications,Beijing100876
Abstract: Webvulnerabilitiesareontheriseespeciallywiththeuseofcellphonesand
mobiledevices.Thispaperfocusesonamachinelearningsolutionthatidentifiesmalicious
URLsusingacombinationofURLlexicalfeaturesandhostfeatures.WeuseSVMwitha
RBFkerneltoachieveanaccuracyof0.96andanF1scoreof0.95withthehelpifTF-IDFto
detailthefeatureofURLtoken.
Keywords: networksecurity;URLdetection;TF-IDF;SVM
0 引言
随着计算机网络技术的高速发展,网络犯罪行为也日益严重。根据赛门铁克(Symentec)公
[1]
司的 2014 年年度报告 ,平均每1126 个网站中就含有一个恶意网站,而每个社交网络中平
均包含 3829 个钓鱼网站。这些流氓网站之中存在着各式各样的欺诈犯罪行为,包括出售虚假
商品、开展网络钓鱼、传播病毒及木马等,对用户的信息和财产安全造成了巨大的安全隐患。
业界对此的主要防御手段之一为主动拦截,即在浏览器或软件客户端中加入安全模块,在
用户访问恶意网站之前,检测出该 URL 对应的站点为恶意站点,阻断用户对恶意站点内容的
下载和访问。
作者简介:莫玉力(1991-),男,硕士研究生,主要研究方向:网络管理,E-mail:myl2821@ 。通信作者:亓峰(1971-),
男,教授,主要研究方向:网络管理与通信软件,
-1-
相对于传统的黑名单检测和内容检测,学界的研究更多地集中向机器学习方向。即从 URL
对应的站点和域名信息中挖掘出特征,通过大量标注数据训练出分类器模型,再通过该模型判
断未知URL 的安全性。本文在已有相关研究基础上,对URL地址进行分词处理,用 TF-IDF
[2]
算法 计算各个分词的权重作为统计特征,利用 SVM 作为分类判决模型,在 Alexa 和 url-
blacklist 提供的真实数据中取得了 96%的准确率。
1 研究现状
传统的URL安全检测主要基于黑名单检测。URL黑名单通常由具有公信力的第三方网站
根据用户反馈、网络爬虫、站点内容分析等手段生成并发布,其内容为已知的恶意 URL 列表。
Web 应用、浏览器、搜索引擎等可通过黑名单来过滤 URL 地址并监控用户 URL 跳转来保护
用户上网安全。然而,黑名单列表只能给用户提供最低程度的防护,全球 URL 总数一直在不
显示全部