基于文本分类技术的漏洞分类-计算机科学与技术专业论文.docx
文本预览下载声明
4.4 本章小结 21
第五章 漏洞自动化分类的实现22
5.1 漏洞分类模型设计 22
5.2 漏洞分类的实验过程 23
5.2.1 发现漏洞 23
5.2.2 漏洞文本信息的收集25
5.2.3 漏洞文本信息预处理26
5.2.4 特征词集的建立与漏洞的向量28
5.2.5 训练漏洞分类模型30
5.2.6 分类性能的评估 30
5.3 漏洞分类的实验与结果分析31
5.3.1 实验数据来源 31
5.3.2 实验步骤 31
5.3.3 分类实验结果 32
5.3.4 实验结果分析 33
5.4 本章小结 34
第六章 结束语 35
6.1 主要工作和创新点 35
6.2 后续研究工作 35
参考文献 37
致谢41 攻读硕士学位期间取得的成果 42
摘要
摘要
I
I
摘要
伴随着信息技术的飞跃发展,计算机应用的不断普及,人们的 生产生活已经无法离开这个不可或缺的工具。随之而来的则是计算 机和网络所带来的安全问题。计算机和网络的安全问题成为近几年 来信息安全领域中的研究热点。计算机上的操作系统和应用软件中 存在的安全漏洞则成为计算机和网络安全的罪魁祸首。同时,由于 近几年来计算机上的安全漏洞呈现爆炸式的增长,如何有效地对已 存在的漏洞进行分类,则成为计算机漏洞有效管理的瓶颈。
本文的主要工作是针对漏洞分类技术的研究,将文本分类技术作 为漏洞分类技术的支撑,故而漏洞分类以漏洞文本为依据;同时深 入学习了机器学习中有关信息熵的相关理论知识,为下文提出的基 于模糊熵的漏洞文本特征提取算法和基于类别熵的二叉树多类支持 向量机的漏洞分类算法做理论支撑。最后通过收集国际通用的公共 漏洞和暴露(CVE)列表中的相关漏洞文本信息和参考国际上通用 的弱点枚举(CWE)对漏洞分类类别的定义,结合二者为本文的漏 洞分类实验做数据支撑。具体工作如下:
(1)给出了计算机漏洞的定义和漏洞分类的原理;深入分析文 本分类的特点和文本分类的六个步骤;深入研究了机器学习中的有 关本文所使用的分类算法。
(2)将信息熵理论和模糊集理论结合起来,阐述了模糊熵的概 念,并将模糊熵应用于漏洞文本特征的提取中,提出基于模糊熵的 漏洞文本特征提取算法。根据此算法将计算出的每个特征的模糊熵
II
II
值按升序排列,取熵值较小的特征组成特征子集,并对特征子集中
的特征进行加权后构成漏洞向量空间。通过实验与其他两种常见的 且特征提取效果良好的提取算法进行分类对比实验,进而体现本文 提出的特征提取算法的优越性和先进性。
(3)将类别熵和二叉树在分类中的优点结合起来,提出基于类 别熵的二叉树多类 SVM 的分类算法,并将此算法应用于漏洞分类 中。同时为了可以通过计算漏洞类别的熵值来量化样本分布的混乱 程度,还定义漏洞类别的最小超球体和延伸超球体这两个概念来分 别描述某一类别的漏洞样本空间中的聚集程度和与其周边不同漏洞 类别的样本的混乱程度。
(4)最后从 CVE 列表中收集到 3000 个漏洞作为实验数据,取 出其中的 2500 个漏洞作为训练基于类别熵的二叉树多类 SVM 的分 类算法的训练样本,剩余的用于测试分类模型的测试样本。通过与 基于 KNN 和基于二叉树多类 SVM 的漏洞分类算法进行对比实验, 验证本文提出的漏洞分类算法的准确性和先进性。测试实验结果表 明,本文提出的漏洞分类的平均正确率高达 93.3%。
本文的研究成果能够大大提高漏洞的修复和分析等管理的效率, 能够最大限度的减少计算机漏洞管理所需要的人力物力,故而具有 一定的应用研究价值。
关键词:漏洞分类,机器学习,模糊熵,类别熵
Abstract
PAGE
PAGE III
Abstract
With the rapid development of information technology, the applications of computer is growing popularity, so, peoples production and life has not left this indispensable tool. And with this condition, computer and network security issues are arising. Computer and network security issues become the research focus in the field of information security in recent years. Operating system and application software security vulnerabilities in computers have be
显示全部