小训练样本条件下的机载网络流量识别方法

Download PDF 打印本文

引用本文

吕娜, 周家欣, 陈卓, 陈旿. 小训练样本条件下的机载网络流量识别方法[J]. 西北工业大学学报, 2020, 38(5): 1129-1137.

LYU Na, ZHOU Jiaxin, CHEN Zhuo, CHEN Wu. Airborne Network Traffic Identification Method under Small Training Samples[J]. Journal of Northwestern Polytechnical University, 2020, 38(5): 1129-1137.

小训练样本条件下的机载网络流量识别方法

吕娜¹, 周家欣¹, 陈卓¹, 陈旿²

1. 空军工程大学信息与导航学院, 陕西西安 710077;
2. 西北工业大学网络安全学院, 陕西西安 710072

收稿日期: 2019-11-20

基金项目: 陕西省重点研发计划（2017GY-069）资助

作者简介: 吕娜(1970-), 女, 空军工程大学教授、博士, 主要从事航空数据链、通信网络研究.

通讯作者: 周家欣(1994-), 空军工程大学硕士研究生, 主要从事军事航空通信研究。e-mail:531786065@qq.com.

摘要: 机载网络环境下，流量数据集获取成本高、难度大，且流量分布时间敏感度较高，导致基于机器学习的流量识别方法难以获得实际应用。针对该问题，提出了一种基于卷积神经网络的小流量样本条件下机载网络流量识别方法，首先基于源领域完备数据集实现卷积神经网络初始模型的预训练，然后在目标领域数据集上，通过基于层冻结的卷积神经网络微调学习算法实现卷积神经网络的重训练，从而构造基于特征迁移的卷积神经网络（FRT-CNN）模型实现流量样本的线上分类。通过在实际机载网络流量数据集上的实验结果表明，所提方法可以在流量训练样本有限的条件下保证流量识别准确性，且分类性能相比于现有小样本学习方法有显著提升。

关键词: 流量识别卷积神经网络迁移学习机载网络

随着航空作战理念的发展，航空集群正逐步取代以单个航空平台为主体作战单元的传统作战模式，成为复杂空战战场环境下作战效能的倍增器。航空集群以网络为中心，具有高度体系化的特点，依托于高效可靠的信息交互手段，可以实现各平台间的紧密协作，从而实现作战能力的优势互补，保证其灵活适应复杂的空战战场环境^[1]。

机载网络作为连接集群各成员的信息纽带，为集群内部的各型航空平台之间的信息交互提供了保证，近年来得到了国内外研究者的广泛关注。传统的机载网络主要实现作战指令信息的交互，业务类型较少且对带宽要求较低，然而在航空集群环境下，多样化的作战任务使集群成员对战场态势信息的依赖程度显著提升，而航空电子技术的迅速发展在扩展机载网络业务类型的同时也对机载网络性能提出了更高的要求。由于不同种类业务的Qos需求差异较大，根据业务类型及其Qos需求合理配置流量控制策略对于提升机载网络性能具有重要意义，因此需要对机载网络流量分类方法展开研究。

在网络流量分类领域，基于机器学习的方法凭借实时性及准确性的优势成为研究热点^[3]。相关研究者将贝叶斯分类器^[4-5]、决策树^[6-7]、支持向量机^[8-9]等经典机器学习模型引入流量分类问题，并获得了理想的分类准确性。然而以上方法均基于浅层学习模型，需要对训练样本的特征进行人工选择与手动提取，训练工作量较大，且难以保证所选特征空间的客观性，因此难以在动态变化的实际网络环境下获得广泛应用。为解决上述问题，深度学习被引入流量分类领域。基于深度学习的流量分类方法可以在学习过程中同步完成特征的隐性提取，在极大降低训练工作量的同时，也能有效克服人为选取特征过程的主观性。其中，Wang提出将人工神经网络(artificial neural network, ANN)引入流量分类，将流的字节作为原始特征输入为ANN首层节点，并在学习的过程中完成特征的自动选取，实现了流量的准确分类^[10]。文献[11]中基于一维卷积神经网络实现了“原始流量数据-分类标签”的端到端分类模型的训练，获得了训练效率与分类准确性的双重提升；文献[12]提出一种基于二维卷积神经网络的流量分类方法，通过对数据的归一化处理，将流量样本映射为灰度图片作为输入，基于LeNet-5卷积神经网络构建能够实现自主特征学习的最优分类器模型，在提升分类精度的同时也减少了分类所用时间。以上研究的实验结果均表明，深度学习在流量识别领域可以有效降低训练成本，并获取更为理想的分类准确性，因此具有更高的应用价值。

基于深度学习的流量分类方法对完备的训练数据集具有较强的依赖性，而数据集的构建需要对网络流量样本进行大量采集。然而在机载网络环境下，流量采集的成本较高，难度较大，难以获取足够多的训练样本构建完备的数据集，且相对于地面有线网络，机载网络的流量分布动态性更强，不同时段、不同环境下的网络流量样本往往不满足独立同分布假设，造成传统的深度学习方法难以获取理想的分类效果。因此如何利用少量样本或欠完备的数据集完成分类器模型的训练，成为深度学习应用于机载网络流量分类的关键。迁移学习可以运用现存知识，实现跨领域问题的求解^[13-14]，一方面充分利用了源领域积累的知识，另一方面也极大降低了对目标领域样本的要求，为小样本、欠完备数据集条件下的机器学习模型的构建及训练提供了思路。

针对机器学习方法在机载网络流量分类应用中存在的问题，本文提出小训练样本条件下的机载网络流量识别方法，首先基于源领域完备的机载网络流量数据集训练卷积神经网络初始化模型，然后在目标领域数据集上利用微调重训练方法构建基于特征迁移的卷积神经网络(feature representing transferring convolutional neural network, FRT-CNN)模型，实现目标领域流量的线上分类。该方法解决了机载网络环境下流量分类任务数据集欠完备的问题，在训练样本数量较少的条件下保证了分类准确性。

1 机载网络流量分类模型

卷积神经网络通过对局部隐含特征的自主提取，减轻了人工提取特征的工作量，并保证了所提取特征空间的客观性^[15]。本节首先介绍基于卷积神经网络的机载网络流量分类模型构建。

1.1 流量样本预处理方法

机载网络流量以字节流的形式传输，由于对每个字节进行数值化后的取值范围与灰度值取值范围相同，因此本文参考文献[12]中的数据预处理方法，设计航空集群机载网络流量预处理方法:

第一步数据分组的灰度化。航空集群机载网络中, 流量通常以比特流的形式传输。因此, 将数据流各分组中每8个比特位作为一个灰度映射单位, 对每个灰度映射单位作十进制运算后, 映射为相应灰度值的一个像素点, 并按照从报文头部至尾部的顺序, 将各灰度映射单位所映射的像素点保存为一个具有固定长度M的灰度矢量。由于数据流中的数据分组长度各异, 对于映射后所得像素点数量大于M的数据分组进行固定长度M的截取; 而对于映射后像素点低于M的数据分组, 则通过尾部补0的方式, 补全灰度矢量。

第二步灰度矩阵的填充。将数据流样本前N个数据分组所映射的灰度矢量按照数据分组的到达顺序依次填充进一个固定尺寸(M×N)的灰度矩阵, 作为卷积神经网络的输入。由于航空集群机载网络流量尺寸各异, 各数据流所含数据分组数量不一致。对于所含数据分组数量低于N个的数据流, 对矩阵中未填充像素点灰度值置为0。

1.2 卷积神经网络模型构造

卷积神经网络结构通常由输入层、隐藏层以及输出层构成, 其中输入层对输入的原始数据进行预处理; 输出层输出样本的判别标签; 隐藏层由多个卷积层以及池化层交替构成, 最终与位于隐藏层最后端的两层全连接层连接^[15]。

1) 卷积层:由卷积核以及激活函数构成, 其中卷积核可对上一层输出特征面隐特征进行自主提取, 并通过激活函数生成新的特征面作为输出。卷积层的表达式为

(1)

式中：l表示当前层；M_j表示当前层第j个卷积核的深度(即上一层特征面通道数); k表示卷积核权值; b表示偏置; 函数f(g)表示激活函数。

2) 池化层:位于卷积层之间, 通过池化核的滑动扫描缩小特征面尺寸, 从而减少参数数量, 去除冗余特征, 防止过拟合。池化层的表达式为

(2)

式中，函数down()表示下采样函数, 用于对上层特征面进行压缩。常用处理包括最大池化处理以及平均池化处理; β与b分别表示池化层的乘性偏置与加性偏置。本文中的池化层均采用最大池化处理, 并将乘性偏置与加性偏置分别设置为1与0。

3) 全连接层:共2层, 位于隐藏层末端, 将输入特征面中所有元素与本层中的节点进行全连接, 实现样本类别的判断。

本文中所选取的卷积神经网络结构包括输入层、3层卷积层(含激活函数)、2层池化层、2层全连接层以及1层输出层, 所选卷积神经网络基本结构如图 1所示。卷积神经网络各层参数如表 1所示。

图 1 卷积神经网络结构模型

图选项

表 1 卷积神经网络各层参数

层数	激活类型	窗口大小	窗口数量	步长	边缘填充	输出
C1	修正线性	3×3×1	6	1	边缘补0	(28×8)×6
C2	修正线性	3×3×6	6	1	边缘补0	(28×28)×6
P1	最大池化	2×2×6	1	2	无	(14×14)×6
C3	修正线性	3×3×6	12	1	边缘补0	(5×5)×12
FC1	修正线性	/	10	/	/	10×1
FC2	逻辑回归	/	4	/	/	4×1

表选项

1.3 卷积神经网络模型训练

卷积神经网络的训练过程包括前向传播与反向传播过程。假设一条流量训练样本(x⁽ⁱ⁾, y⁽ⁱ⁾), 其中x⁽ⁱ⁾表示该流量样本映射的灰度图样本, y⁽ⁱ⁾表示该训练样本的所属类别标签, 前向传播过程实现对样本(x⁽ⁱ⁾, y⁽ⁱ⁾)类别的预测

(3)

式中，h_{(W, b)}表示当前网络结构与参数条件下的前向传播函数。由于本文对全体卷积层的激活函数均设置为ReLU函数, 根据公式(1), 将前向传播过程迭代公式表示为

(4)

反向传播过程则实现参数的调整与更新, 本文选取基于交叉熵损失函数的梯度下降算法作为反向传播算法, 将损失函数C定义为

(5)

式中, m表示当前训练批次中样本总数量。在此基础上, 反向传播过程通过梯度下降算法, 计算参数的调整方向, 从而保证损失函数C(W, b)下降最快。其中, 卷积神经网络的权值与偏置值的调整方向分别为

(6)

(7)

式中，η表示学习率。经过N批次的训练后, 当交叉熵损失函数值不再继续下降时, 认为此时卷积神经网络收敛于最优模型h_opt, 可用于对无标签样本进行分类预测。在分类预测阶段, 可将卷积神经网络隐藏层部分划分为瓶颈网络与全连接网络。其中, 瓶颈网络包括所有卷积层以及池化层, 主要用于对样本各维度隐特征的提取; 而全连接网络由全连接层构成, 主要实现隐特征到类别标签的映射。

2 迁移学习策略 2.1 源域与目标域定义及数据集选取

由于机载网络中的流量分布具有较强的时变性与动态性, 当采用某一时段内静态数据集对流量分类器进行训练时, 虽可在该数据集上获取良好的分类性能, 但在流量分布发生改变时将难以获取良好的泛化性能。而由于机载网络流量采集难度较大且成本较高, 获取相对完备的静态数据集比较困难。因此本文采用迁移学习方法实现小样本条件下的机载网络流量分类。

设机载网络流量数据集特征空间为X, 服从边缘概率分布P(X), 标签空间为Y, 服从边缘概率分布P(Y), 令全体流量样本数据集为{(x_i, y_i)|x_i∈X, y_i∈Y}, 定义数据域D={X, P(X)}并将其划分为为源领域D_s={X_s, P(X_s)}与目标领域D_T={X_T, P(X_T)}。将基于数据域进行分类器学习的学习任务T={Y, f(·)}分为源学习任务T_S={Y_S, f_S(·)}与目标学习任务T_T={Y_T, f_T(·)}。其中f(·)表示预测模型。由于机载网络中的流量分布随作战任务以及作战环境的影响而动态变化, 因此在不同的时段采集得到的流量数据集中, 有D_s≠D_T, 在此条件下, 迁移学习过程利用在D_s与T_S上学习得到的知识在样本数量有限的D_T上获得最优预测模型f_To(·)。

本文通过位于不同航空平台上的流量监测设备对某航空编队在实际飞行任务过程中的机载网络中的原始流量样本进行了采集并构建了机载网络流量实际数据集AN-set。参考机载网络环境下的流量QoS需求^[2], 将流量分为4大类, 包括低时延视距通信业务流、基于态势信息的通信业务流、基于音视频的多媒体通信业务流以及基于非实时的通信业务流。记标签空间Y={flowtype1, flowtype2, flowtype3, flowtype4};接着根据样本采集平台, 将该数据集分为3个数据子集。并对各数据子集进一步划分为具有相同分布的训练子集与测试子集。该数据集的统计信息如表 2所示。

表 2 AN-set数据集样本分布统计

数据子集名称	样本分布情况
数据子集名称	type1	type2	type3	type4	total
subset1	982(34.6%)	771(27.2%)	484(17.1%)	598(21.1%)	2 835(100%)
subset2	1 695(26.1%)	2 508(38.6%)	1 551(23.9%)	740(11.4%)	6 494(100%)
subset3	436(13.9%)	392(12.5%)	230(7.3%)	2 078(66.3%)	3 136(100%)

表选项

为验证迁移学习得到的分类器模型的跨领域泛化性能, 本文对3个数据子集进一步的处理, 将各数据子集以70%/30%的比例划分为训练集与测试集, 将训练集作为该数据子集的源域数据集, 分别命名为D_S⁽¹⁾, D_S⁽²⁾, D_S⁽³⁾。再对各数据子集中的全体样本均匀抽样(本文中设置抽样率为0.1), 作为目标域欠完备数据集, 分别命名为D_T⁽¹⁾, D_T⁽²⁾, D_T⁽³⁾。

2.2 基于特征迁移的卷积神经网络模型

本文对基于特征迁移的卷积神经网络(feature representing transferring CNN, FRT-CNN)模型构建如图 2所示。其分类过程共分为4个步骤, 包括:①CNN初始模型预训练; ②特征提取网络(feature extracting CNN, FE-CNN)的构建; ③微调网络(fine tuning CNN, FT-CNN)的重训练。④FRT-CNN的线上分类。其中, FE-CNN主要用于低维度隐特征的提取, 而FT-CNN则用于面向目标领域数据集的重训练。各步骤的具体描述如下:

图 2 基于特征迁移的卷积神经网络模型构建流程

图选项

第1步 CNN初始模型的预训练。基于源领域的完备训练集, 根据2.2节中设置的卷积神经网络结构以及2.3节中的CNN训练过程, 实现源领域上CNN分类器的预训练, 即实现源学习任务T_S={Y_S, f_S(·)}。保存该预测模型f_S(·)结构及各参数, 作为迁移学习阶段的CNN初始模型。

第2步特征提取网络(feature extracting CNN, FE-CNN)的获取。该步骤基于源领域上的CNN初始模型, 对其瓶颈网络的结构及参数进行冻结提取。由于本文中源领域与目标领域同属机载网络流量, 两领域跨度较小, 为尽量多保留共享的低维特征, 本文提取CNN初始模型中的C1、C2与P1层作为FE-CNN, 冻结该部分网络结构及参数, 用于流量样本低维隐特征的提取。并将CNN初始模型剩余部分作为FT-CNN, 通过第三步的重训练过程实现CNN向目标域的迁移。

第3步 FT-CNN的重训练。将CNN初始化模型中位于FE-CNN后部的网络作为FT-CNN。基于D_T上的欠完备训练集, 首先通过FE-CNN实现样本低维特征的提取, 后通过基于层冻结的CNN微调算法, 实现FT-CNN的重训练。基于层冻结的CNN微调算法将在3.3中介绍。

第4步 FRT-CNN的线上分类。将第3步中重训练所得的FT-CNN挂载于第二步中获取的FE-CNN后部, 从而构建面向D_T的CNN分类模型FRT-CNN。将目标领域测试集样本进行预处理后输入FRT-CNN, 实现样本标签的预测。

2.3 基于层冻结的CNN微调算法

FRT-CNN构建过程第三步中通过基于层冻结的CNN微调算法实现FT-CNN的重训练。该算法基于目标领域的欠完备训练集。该算法以CNN初始化模型中的FT-CNN模型为原始结构, 实现FT-CNN中各层参数的微调, 从而有效降低分类器训练过程中对训练样本数量的要求, 完成不同网络场景下机载网络流量数据集的跨领域知识迁移。此外, 为避免交叉熵损失函数在随机梯度下降过程中陷入局部最优, 该算法还引入了模拟退火算法, 保证各层的结构微调收敛于全局最优模型。

首先对算法中需要用到的变量及相关函数进行如下定义:I={(x₁, y₁), (x₂, y₂), …, (x_n, y_n)}表示目标领域的欠完备数据集; 集合S_ft={L₁, L₂, …L_N}表示FT-CNN模型, 其所含待微调层数量为N, 集合中的元素L_k为FT-CNN第k层模型, 通过三元组(W_k, b_k, θ_k)表示, 3项元素分别表示权重参数、偏置参数以及层结构。h_e(x_i)与h_FT(X_i)分别表示FE-CNN与FE-CNN的前向传播函数; preprocess(·)表示数据预处理函数; C(·)表示交叉熵损失函数。基于层冻结的CNN微调学习算法如下所示:

算法:基于层冻结的CNN微调学习算法
输入:D_T上的欠完备数据集I 特征提取网络模型FE-CNN, 结构为S_fe, 前向传播函数为h_e(x_i); 微调网络模型FT-CNN, 结构为S_ft, 前向传播函数为h_FT(Xi); 训练轮次epoch 微调学习率:η 初始温度参数:T_init 最低温度:T_min 温度下降率:r 1: n=card(I), N=card(S_ft) 2: for i=1: n 3: x_i=preprocess() 4: X_i=h_e(x_i) 5: end for 6: for k=1: N 7: freeze(S_ft-L_k) 8: T_k=T_init 9: while(T_k>T_min) 10: for j=1: epoch 11: 12: 13: L_k^(j) =(W_k^(j), b_k^(j), θ_k) 14: S_ft^(j)=update(S_ft^(j-1)) 15: if C(S_ft^(j)) < C(S_ft^(j-1)) 16: S_opt=S_ft^(j) 17: else 18: if exp((C(S_ft^(j-1))-C(S_ft^(j)))/T_k>random(0, 1) 19: S′_opt=S_ft^(j) 20: end if 21: T_k=r×T_k 22: end if 23: end for 24: 25: end while 26: end for 输出:S_opt

算法:基于层冻结的CNN微调学习算法

输入:D_T上的欠完备数据集I
     特征提取网络模型FE-CNN, 结构为S_fe, 前向传播函数为h_e(x_i);
     微调网络模型FT-CNN, 结构为S_ft, 前向传播函数为h_FT(Xi);
     训练轮次epoch
     微调学习率:η
     初始温度参数:T_init
     最低温度:T_min
     温度下降率:r
1: n=card(I), N=card(S_ft)
2: for i=1: n
3:      x_i=preprocess()
4:      X_i=h_e(x_i)
5:  end for
6:  for k=1: N
7:      freeze(S_ft-L_k)
8:      T_k=T_init
9:      while(T_k>T_min)
10:          for j=1: epoch
11:

12:

13:              L_k^(j) =(W_k^(j), b_k^(j), θ_k)
14:              S_ft^(j)=update(S_ft^(j-1))
15:              if C(S_ft^(j)) < C(S_ft^(j-1))
16:                S_opt=S_ft^(j)
17:              else
18:                if exp((C(S_ft^(j-1))-C(S_ft^(j)))/T_k>random(0, 1)
19:                S′_opt=S_ft^(j)
20:                end if
21:                T_k=r×T_k
22:              end if
23:            end for
24:

25: end while
26: end for
输出:S_opt

表选项

算法第2~5行对D_T上欠完备数据集中的原始流量样本进行数据预处理, 将其映射为灰度图, 并通过FE-CNN实现了低维度特征的提取; 第6~25行对FT-CNN进行微调, 其中第6~8行表示以由前至后的顺序, 每次选取FT-CNN中的一层作为微调对象, 并将其他层的参数进行冻结; 第10~14行通过每一轮次的训练完成该层参数的微调, 并对当前FT-CNN的网络结构进行实时更新; 第15~21行将模拟退火算法引入参数微调, 若当前轮次的微调使FT-CNN模型的损失函数继续降低, 则采纳该次微调; 否则以一定概率采纳该次微调过程, 并保证采纳概率随训练轮次数量增加而递减。从而有效避免当前层的微调模型陷入局部最优。

3 仿真结果与分析 3.1 实验环境及性能评估指标

本文在一台内存为4 GB, 搭载主频为1.8 GHz处理器的64位PC上采用1.13.1版本tensorflow框架以及5.3.0版本Anaconda3环境进行仿真实验。实验采用的数据集为3.1中介绍的机载网络流量数据集AN-set。

相关实验参量取值如表 3所示。

表 3 实验相关参量取值

参量	取值
输出矩阵A_out尺寸	28×28
CNN初始模型训练轮次epoch₁	20
CNN初始模型学习率η₁	0.5
FT-CNN微调训练轮次epoch₂	20
FT-CNN微调学习率η₂	0.05
初始温度参数T_init	10
最低温度参数T_min	1
降温系数r	0.9

表选项

本文采用类可信度、类覆盖度以及整体准确率对分类器准确性进行评估。类可信度λ_i、类覆盖度μ_i以及整体准确率ξ分别表示如下

(8)

(9)

(10)

式中：P_Ti表示类i中被正确分类的样本数量；P_Fi表示被错误分为类i的其他类样本数量；N_Fi表示类i中被错误分为其他类别的样本数量。

3.2 卷积神经网络初始化模型仿真分析

本文首先以subset2作为源领域完备数据集, 对FRT-CNN初始化模型进行监督训练。针对流量样本的预处理, 文献[12, 16]中与本文同样采用了将字节流样本进行固定长度截取并映射为灰度图的方法, 其中文献[12]中提出的MMN-CNN算法对不满足所含字节数大于输出灰度矩阵元素个数的流量样本进行了末尾补零的操作, 并最终映射为28×28的灰度图; 文献[16]中采取的数据预处理方法则是通过提取流量样本数据包的有效负载, 并将每个数据包的数据作为行, 同一网络流的多个数据包作为列映射为固定尺寸的灰度图像, 该方法对输出矩阵的空缺元素同样采取补零操作。

为验证本文提出的数据预处理方式对流量原始特征的保留效果, 以上述2种预处理方法作为对照, 对2.2中设计的卷积神经网络结构进行了训练及测试。图 3所示为采用不同预处理方法时, 损失函数以及整体准确率的收敛情况, 结果表明, 在相同的网络结构以及训练集的条件下, 采用本文提出的数据预处理方法时, 损失函数收敛速度最快, 经过20轮次的训练后可以获取最低的损失函数值; 图 3a)所示为模型整体准确率随训练轮次的变化关系, 可以发现, 采用本文提出的数据预处理方法时, 模型整体准确率上升速度最快, 并最终收敛于95%左右, 在3种方法中最高。表 4与表 5展示了采用不同预处理方法时训练所得CNN分类器对各类机载网络流量的类可信度与类覆盖度。结果表明, 本文使用的数据预处理方法实现了数据流隐含特征的高效提取, 获得了更优的分类准确性能。

图 3 不同预处理方法整体准确率与损失函数对比

图选项

表 4 不同预处理方法下类可信度对比单位：%

流类型	文献[12]预处理方法	文献[16]预处理方法	本文预处理方法
flowtype 1	98.53	97.65	98.24
flowtype 2	99.84	99.41	99.41
flowtype 3	84.59	88.85	93.77
flowtype 4	63.38	59.15	85.21

表选项

表 5 不同预处理方法下类覆盖度对比单位：%

流类型	文献[12]预处理方法	文献[16]预处理方法	本文预处理方法
flowtype 1	96.55	98.23	97.95
flowtype 2	87.78	85.81	94.25
flowtype 3	99.23	98.19	98.96
flowtype 4	81.82	91.30	93.80

表选项

3.3 基于FRT-CNN的跨领域流量分类性能分析

为验证FRT-CNN模型分类准确性, 本文以subset2数据子集中的D_{S_train}⁽²⁾作为作为源领域训练集完成FRT-CNN初始化模型的训练, 并分别将数据子集subset1, subset3中抽样得到的欠完备数据集D_{T_train}⁽¹⁾, D_{T_train}⁽³⁾作为目标领域训练集进行FT-CNN模型的微调, 最后分别以D_{S_test}⁽¹⁾与D_{S_test}⁽³⁾对FRT-CNN模型进行分类准确性能评估。验证流程如图 4所示。

图 4 FRT-CNN模型训练及验证流程

图选项

本文还选取了几类常用的小样本/迁移学习模型作为对比方法, 包括基于数据集扩展的方法^[16]、CNN-SVM方法^[17]、CNN-FTT方法^[18]。其中基于数据集扩展的方法对数据流样本随机选取固定数量的数据包映射为灰度图像作为补充样本加入现有数据集; CNN-SVM方法通过在源领域数据集上预训练CNN模型作为特征提取器, 并以SVM分类器替换全连接层实现识别结果的输出; CNN-FTT通过将预训练CNN中的部分层的参数与结构进行冻结, 并基于目标领域数据集实现剩余层参数的微调; 此外, 本文还以1)将通过源领域完备数据集训练生成的CNN模型直接用于目标领域样本分类的方法(本文称为CNN移植); 2)基于目标领域完备数据集重新训练生成的CNN模型用于目标领域样本分类的方法(称为CNN重构)作为参照。以上方法均基于本文2.2中定义的CNN结构, 实验相关参数依据表 3设置, 总训练轮数为60轮, 各类方法的在目标领域测试集(D_{S_test}⁽¹⁾、D_{S_test}⁽³⁾)上的整体准确率随训练轮次的变化情况如图 5所示。

图 5 各类方法在目标领域测试集上的整体准确率

图选项

通过观察可以发现，在2个目标领域测试集中，不同方法所获取的整体准确率变化趋势相近。以在测试集上的实验结果为例，其中采用CNN重构方法时，整体准确率上升速度最快，并在第20轮左右收敛于97%左右，在所有方法中最高。该类方法使用了完备的目标领域训练集进行训练，因此可认为具备了理想的训练条件。采用CNN移植方法时，随着训练轮数的增加，其整体准确率在第10轮左右达到最高约为40%，之后随着训练轮数的提升而持续下降，并在第60轮训练后降至20%以下，原因在于该方法中的CNN分类器基于源领域数据集进行训练，随着训练轮数的提升而出现了过拟合，导致其在目标领域的泛化性能逐渐恶化；而采用目标领域数据集扩充的方法时，尽管避免了过拟合现象的发生，但扩充过程难以保证对目标领域特征空间的覆盖，因此对分类准确率的提升效果并不理想，其可获得的最高分类准确率约为45%左右。

在3类迁移学习方法中，均以预训练后的CNN初始模型作为学习起点，因此在首轮训练后的分类准确率均明显高于其他3种方法，达到40%左右。其中，CNN-SVM方法保留了预训练CNN模型的主体结构，仅对替换全连接层的SVM模型进行重训练，因此收敛速度较快，但同时其整体准确率的收敛值较低，为70%左右。CNN-FFT则通过基于部分层

冻结的参数微调，优化了预训练CNN面向目标领域的特征提取能力，在一定程度上提升了整体准确率，其收敛值达到75%以上。本文所提FRT-CNN方法则通过逐层解冻结的CNN微调算法，进一步扩展了重训练的范围。由于在FT-CNN中待微调层共有3层(C1、FC1、FC2)，因此在逐层解冻结的微调过程中，整体准确率变化呈3个阶段，第一阶段为第1至第15轮左右，为C1层微调阶段，整体准确率收敛于65%左右；第二阶段为第16轮至第36轮左右，为FC1层微调阶段，整体准确率收敛值提升至70%左右；第三阶段为37轮至60轮，为FC2层微调阶段，整体准确率最终收敛于82%左右。

4 结论

人工智能为网络流量识别问题带了了全新的解决思路，然而在机载网络环境下，由于数据集获取困难，因此基于机器学习的流量识别方法难以获得实际应用。本文提出以迁移学习方法解决小样本条件下机载网络流量的识别问题，首先通过数据预处理将流量样本转换为灰度图作为卷积神经网络的输入，然后通过预训练过程实现卷积神经网络初始模型的构造，并在保留网络前部模型的条件下对后部模型进行重训练以构造FRT-CNN，从而实现机载网络流量的跨领域学习。为验证所提方法的可行性，本文在实际的机载网络数据集上进行了实验分析，结果表明本文所提方法可以实现异构化网络流量数据集之间知识的迁移，从而在目标领域数据集样本数量有限的条件下有效保证分类准确率。

参考文献

[1]	霍大军. 网络化集群作战研究[M]. 北京: 国防大学出版社, 2013. HUO Dajun. Operation of Network Swarm[M]. Beijing: National Defense University Press, 2013. (in Chinese)
[2]	梁一鑫, 程光, 郭晓军. 机载网络体系结构及其协议栈研究进展[J]. 软件学报, 2016, 27(1): 96-111. LIANG Yixin, CHENG Guang, GUO Xiaojun. Research Progress on Architecture and Protocol Stack of the Airborne Network[J]. Journal of Software, 2016, 27(1): 96-111. (in Chinese)
[3]	NGUYEN T T T, ARMITAGE G. A Survey of Techniques for Internet Traffic Classification Using Machine Learning[J]. IEEE Communications Surveys & Tutorials, 2009, 10(4): 56-76.
[4]	MOORE A W, ZUEV D. Internet Traffic Classification Using Bayesian Analysis Techniques[J]. ACM Sigmetrics Performance Evaluation Review, 2005, 33(1): 50. DOI:10.1145/1071690.1064220
[5]	WU K, KE J. A Scheme of Real-Time Traffic Classification in Secure Access of Power Enterprise Based on Improved Naïve Bayesian Classification Algorithm[C]//IEEE International Conference on Software Engineering & Service Science, 2017
[6]	徐鹏, 林森. 基于C4.5决策树的流量分类方法[J]. 软件学报, 2009, 20(10): 2692-2704. XU Peng, LIN Sen. Internet Traffic Classification Using C4.5 Decision Tree[J]. Journal of Software, 2009, 20(10): 2692-2704. (in Chinese)
[7]	TONG Da, QU Y R, PRASANNA V K. Accelerating Decision Tree Based Traffic Classification on FPGA and Multicore Platforms[J]. IEEE Trans on Parallel & Distributed Systems, 2017, 28(11): 3046-3059.
[8]	CAO Jie, FANG Zhiyi, QU Guannan, et al. An Accurate Traffic Classification Model Based on Support Vector Machines[J]. Networks, 2017, 27(1): e1962.
[9]	SUN Guanglu, CHEN Teng, SU Yangyang, et al. Internet Traffic Classification Based on Incremental Support Vector Machines[J]. Mobile Networks & Applications, 2018, 23(14): 1-8.
[10]	WANG Wei, ZHU Ming, ZENG Xuewen. Malware Traffic Classification Using Convolutional Neural Network for Representation Learning[C]//2017 International Conference on Information Networking(ICOIN), 2017: 712-717
[11]	WANG Wei, ZHU Ming, WANG Jinlin, et al. End-to-End Encrypted Traffic Classification with One Dimensional Convolution Neural Networks[C]//2017 IEEE International Conference on Intelligence and Security Informatics(ISI), 2017
[12]	王勇, 周慧怡, 俸皓, 等. 基于深度卷积神经网络的网络流量分类方法[J]. 通信学报, 2018, 39(1): 14-23. WANG Yong, ZHOU Huiyi, FENG Hao, et al. Network Traffic Classification Method Basing on CNN[J]. Journal on Communications, 2018, 39(1): 14-23. (in Chinese)
[13]	PAN Sinno Jialin, YANG Qiang. A Survey on Transfer Learning[J]. IEEE Trans on Knowledge & Data Engineering, 2010, 22(10): 1345-1359.
[14]	SHIN H C, ROTH H R, GAO M, et al. Deep Convolutional Neural Networks for Computer Aided Detection:CNN Architectures, Dataset Characteristics and Transfer Learning[J]. IEEE Trans on Medical Imaging, 2016, 1(1): 1285-1298.
[15]	周飞燕, 金林鹏, 董军. 卷积神经网络研究综述[J]. 计算机学报, 2017, 40(6): 1-23. ZHOU Feiyan, JIN Linpeng, DONG Jun. Review of Convolutional Neural Network[J]. Chinese Journal of Computers, 2017, 40(6): 1-23. (in Chinese)
[16]	李勤, 师维, 孙界平, 等. 基于神经网络的网络流量识别技术研究[J]. 四川大学学报, 2017, 54(5): 959-964. LI Qin, SHI Wei, SUN Jieping, et al. The Research of Network Traffic Identification Based on Convolutional Neural Network[J]. Journal of Sichuan University, 2017, 54(5): 959-964. (in Chinese)
[17]	SHARIF Razavian A, AZIZPOUR H, SULLIVAN J, et al. CNN Feature Off-the-Shelf: an Astounding Baseline for Recognition[C]//Proceeding of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, UH, USA, 2014: 806-813
[18]	JASON Yosinski, JEFF Clune, YOSHUA Bengio, et al. How Transferable Are Features in Deep Neural Networks?[C]//Advances in Neural Information Processing System 27, Montreal, Canada, 2014: 3320-3328

Airborne Network Traffic Identification Method under Small Training Samples

LYU Na¹, ZHOU Jiaxin¹, CHEN Zhuo¹, CHEN Wu²

1. School of Information and Navigation, PLA Air Force Engineering University, Xi'an 710077, China;
2. School of Cybersecurity, Northwestern Polytechnical University, Xi'an 710072, China

Abstract: Due to the high cost and difficulty of traffic data set acquisition and the high time sensitivity of traffic distribution, the machine learning-based traffic identification method is difficult to be applied in airborne network environment. Aiming at this problem, a method for airborne network traffic identification based on the convolutional neural network under small traffic samples is proposed. Firstly, the pre-training of the initial model for the convolutional neural network is implemented based on the complete data set in source domain, and then the retraining of the convolutional neural network is realized through the layer frozen based fine-tuning learning algorithm of convolutional neural network on the incomplete dataset in target domain, and the convolutional neural network model based feature representing transferring(FRT-CNN) is constructed to realize online traffic identification. The experiment results on the actual airborne network traffic dataset show that the proposed method can guarantee the accuracy of traffic identification under limited traffic samples, and the classification performance is significantly improved comparing with the existing small-sample learning methods.

Keywords: traffic identification convolutional neural network transfer learning airborne network

西北工业大学主办。

文章信息

吕娜, 周家欣, 陈卓, 陈旿

LYU Na, ZHOU Jiaxin, CHEN Zhuo, CHEN Wu

小训练样本条件下的机载网络流量识别方法

Airborne Network Traffic Identification Method under Small Training Samples

西北工业大学学报, 2020, 38(5): 1129-1137.

Journal of Northwestern Polytechnical University, 2020, 38(5): 1129-1137.

文章历史

收稿日期: 2019-11-20

文章信息

文章历史

相关文章

工作空间