文档详情

基于深度学习的恶意代码识别方法研究.pdf

发布:2025-05-23约7.42万字共62页下载文档
文本预览下载声明

基于深度学习的恶意代码识别方法研究

摘要

近年来,随着计算机系统和网络技术的发展,互联网逐步成为人们生产生活中必不

可少的工具之一。然而在方便了人们的同时,互联网的发展也造成了恶意软件数量、种

类的不断增加,互联网面临的安全风险因而逐渐引起了人们的重视。传统的恶意代码检

测识别方法存在着诸如准确率低、时间开销大、数据预处理过程复杂等问题,致使现有

的互联网及工业生产网络中采用的应用软件缺乏强有力的检测机制,为恶意代码的发布

与传播带来了极大的便利条件。当用户的系统感染到恶意代码后,将造成使用者个人隐

私的泄露,且往往伴随着巨大的经济损失,因此,如何准确、快速的检测到恶意代码成

为了近年来研究的热点问题。

本文针对恶意代码分类识别方法进行了深入的调研,分析了现有的恶意代码识别分

类方法的研究进展。深度卷积神经网络模型因采用权重共享方式使其在训练参数量上远

远少于深度神经网络模型,且能获得更好的识别泛化性能,而被应用于恶意代码识别分

类任务中。然而在使用深度卷积神经网络模型进行恶意代码识别分类时,由于在恶意代

码转换为指纹图的过程中,往往存在代码样本大小不一且由于采用剪裁而丢失恶意代码

信息,导致训练后卷积神经网络模型抗混淆能力不足的问题。为此本文提出一种基于掩

膜遮挡的图像数据增强方法,在深度卷积神经网络模型的训练过程中,使用部分掩膜遮

挡的方式将指纹图中的像素遮盖,以隐藏指纹图中的部分特征,使得模型能在训练数据

部分特征缺失的情况下仍能正确分类,提高模型对恶意代码样本的特征利用效率。同时

基于视觉注意力原理,在卷积神经网络模型嵌入注意力机制模块,关注学习图像的局部

特征。使模型能够提取到跨距离的相关特征,加强模型对数据的特征提取学习能力,从

而提高模型对恶意代码的识别分类准确率。

针对恶意代码数据分布存在严重不均衡的问题,本文提出随机采样及全类别样本微

调的卷积神经网络模型训练策略,在掩膜遮挡恶意代码识别方法的基础上,将训练过程

分为两个阶段。首先,提出随机采样训练,通过对于数量较少类别的样本过采样和权重

调整的方式来实现。然后,使用训练后的模型对各个类别的训练数据进行距离度量评价,

在所有类别的样本中分别选出代表性样本数据,对第一阶段训练后的模型进行微调训练,

从而使得模型进一步拟合数据特征,以减少深度卷积神经网络模型识别分类学习方法对

于多数类别样本的过拟合现象,使模型充分学习到少数类别样本的特征,提升模型对少

数类别样本的识别分类准确率,从而整体提高深度卷积神经网络模型对于恶意代码样本

I

哈尔滨工程大学硕士学位论文

的细粒度识别准确率。

关键词:深度学习;恶意代码识别;掩膜遮挡;不平衡样本

II

基于深度学习的恶意代码识别方法研究

Abstract

Inrecentyears,withthedevelopmentofcomputersystemsandnetworktechnologies,

theInternethasgraduallybecomeoneoftheindispensabletoolsforpeoplesgenerativelife.

However,whileitisconvenientforpeople,thedevelopmentoftheInternethasalsobrought

aboutanincreaseinthenumberandtypesofmalicioussoftware,andthesecurityrisksfaced

bytheInternethavegraduallyattractedpeoplesattention.However,traditionalmalicious

codede

显示全部
相似文档