基于深度学习的加密流量分类技术的研究与应用.pdf
摘要
随着互联网技术的快速发展,网络应用逐渐丰富,流量规模也在急速增长。因此,
需要定期对网络流量进行监控与分类,以便更好地提高网络服务质量,维持网络环境
的稳定与可用。使用流量分类技术对流量进行准确高效的分类,不仅能帮助网络服务
运营商分析流量分布情况,进而制定合适的资源分配方案,还可以为网信办等监管部
门提供及时的网络安全态势情况。同时,随着国家和法律对数据安全的重视,许多网
络应用和服务使用加密技术保证数据在传输过程中的机密性和完整性,加密后的流
量导致传统基于明文的流量分类技术不再奏效。针对以上情况,本文开展了以下研究
工作:
(1)针对现有研究方法未能充分提取加密流量的空间和时序特征,以及模型输
入时需要进行流量剪裁而造成信息缺失问题,提出了一种基于多特征融合和注意力
机制的STSANet(Spat-Temp-Statis-AttentionNetwork)模型。首先通过数据预处理将
原始流量转换为深度学习模型接收的格式。接着使用多个卷积层叠加的2D-CNN网
络充分提取加密流量的空间特征;使用1D-CNN和LSTM组合模型挖掘流量结构中
的依赖关系并提取时序特征,两个模块均加载了注意力机制,使模型对重要特征投入
更多关注;然后通过自编码器对统计特征进行编码以获取其中的潜在表示。最后将以
上三种特征融合得到表征加密流量的综合信息,并通过模型进行分类。实验验证了各
个模块的有效性和模型的分类效果,表明该方法能有效区分加密流量的12种服务类
型。
(2)针对加密流量分类领域存在的数据不平衡问题,使用代价敏感策略和生成
对抗网络相结合的方法构建了CS-CGAN模型。该方法将不平衡数据集和对应的标
签信息输入模型来产生特定类别的流量样本,有效增强不平衡数据集中小类别样本
数量。由于小样本数量有限,CGAN模型无法公平地抽取每类样本进行生成,容易
对多数类样本的生成产生偏好而忽略少数类样本的生成。于是在CGAN模型中加入
代价敏感策略,通过生成代价矩阵并调整损失函数,使模型对少数类的错误生成产生
敏感,进而提高模型的生成性能。最后通过实验验证每个模块是否起作用,结果表明
使用GAN模型、CGAN模型以及加入代价敏感策略的CS-CGAN模型均能对加密流
量分类结果产生一定程度的提升。
(3)设计并实现了加密流量分类系统。系统整体包括数据获取、数据预处理、
I
模型检测、数据存储以及统计与可视化展示五个主要部分。系统通过流量上传与流量
捕获两种方式获取数据,并将第三章和第四章提出的STSANet模型与CS-CGAN模
型进行封装,利用以上模型对获取到的加密流量进行分类,最后将分类结果以图表的
形式展现。
关键词:加密流量分类;深度学习;多特征融合;生成对抗网络
II
ABSTRACT
WiththerapiddevelopmentofInternettechnology,networkapplicationsaregradually
enriched,andthetrafficscaleisalsogrowingrapidly.Therefore,itisnecessarytoregularly
monitorandclassifynetworktrafficinordertobetterimprovethequalityofnetwork
servicesandmaintainthestabilityandavailabilityofthenetworkenvironment.Usingtraffic
classificationtechnologytoaccuratelyandefficientlyclassifytrafficcannotonlyhelp
networkserviceoperatorsanalyzetrafficdistributionanddevelopa