预测与健康管理系统(prognosis and health management, PHM))旨在通过模型和算法监测、预测和管理系统的健康状态。如今设备朝着大型化、复杂化方向发展,故障问题不可避免。作为PHM的核心研究问题之一,剩余寿命预测(remaining useful life, RUL)可以为设备建立最佳维护策略提供决策支持[1]。
对于复杂的系统,例如涡轮发动机,由于其结构复杂,故障模式多种多样以及操作条件的不确定性,难以建立物理失效模型[2]。基于数据驱动的方法无需先验知识和复杂的物理建模过程[3],逐渐成为RUL预测的主流方法。通过分析设备的传感器监测数据,从而挖掘设备性能下降的内在规律。
机器学习具有强大的函数映射能力和数据处理能力,在基于数据驱动的RUL预测中得到了广泛应用,如支持向量回归(support vector regression, SVR)[4],深度置信网络(deep belief network, DBN)[5]和深度可分离卷积网络(deep separable convolutional network, DSCN)[6]的预测方法。然而这些方法没有很强的特征提取能力。Babu等[7]首次尝试使用卷积神经网络(convolutional neural network, CNN)预测发动机的RUL,提高了自动提取多维特征的能力。然后,Li等[8]通过使用深度CNN(DCNN)结构以及时间窗口数据处理来提高预测精度。为了使CNN模型学习更详细的特征,Li等[9]提出了具有不同卷积核大小的DCNN(MS-DCNN)。但是,这些方法忽略了传感器状态监测数据的时间相关性。
对于时间序列的学习,LSTM网络使用门控机制和递归单元结构,具有很强的信息存储能力,同时也避免了递归神经网络的梯度消失问题。Zheng等[10]通过LSTM模型来预测航空发动机的RUL。由于时间序列中的随机性和非平稳性,仅LSTM网络无法获得更好的结果。所以Kong等[11]提出CNN和长短时记忆网络(long short-term memory, LSTM))融合的算法,来学习空间时间特征。Xia等[12]提出了一种基于卷积双向长短时记忆且具有多个时间窗口的整体框架(MTW CNN-BLSTM ensemble)。但是对于高维空间数据的潜在特征和有效信息提取能力不足,RUL预测受到模型精度的影响。
因此,本文提出了一种基于多尺度深度卷积神经网络和长短时记忆网络融合(multi-scale deep convolutional neural network and long short-term memory, MSDCNN-LSTM)的剩余寿命预测方法来提高预测精度。首先通过最小-最大标准化和滑动时间窗口处理原始传感器监测数据;然后MSDCNN模型对处理后的数据进行不同尺度特征学习,LSTM增强了设备退化期间时间序列的记忆能力,并实现RUL预测;最后在商用模块化航空推进系统仿真(commercial modular aero-propulsion system simula-tion, C-MAPSS)数据集上证明了所提出方法的有效性。
1 MSDCNN模型CNN有局部感知和参数共享的特点,在特征提取方面有很大的优势。用于监测设备运行状态的多个传感器采集到的数据包含大量信息,因此使用MSDCNN来提取更多详细特征。MSDCNN由多层MSCNN组成。一维MSCNN结构图如图 1所示。
在本研究中, 输入数据是二维向量, 用长和宽表示: 长为特征数量, 宽为每个特征的时间序列。二维数据经过时间窗口处理后, 得到的每个样本尺寸表示为(Nw, m), 其中Nw表示窗口大小, m表示特征数量。一维多尺度卷积层包括与输入样本卷积的多尺度卷积核和生成的特征映射图。一维卷积核是二维向量, 长为设置的不同尺度卷积核F1, F2, F3, 宽与输入数据的宽度相同(m), 卷积核的个数均为Fn。F1, F2, F3同时对输入数据沿时间序列方向进行卷积操作, 步长为1。为了使多尺度卷积后的输出保持相同的维度, 使用了零填充的方法。在卷积操作后均使用激活函数来增加模型的非线性。每个尺度的卷积操作表示为
(1) |
式中: ϕ表示非线性激活函数; wu, v和bu, v分别表示第u个尺度中第v个的卷积核的权重和偏置项。
每个尺度的卷积核得到的特征图可以表示为
(2) |
最后每个尺度得到的特征图拼接在一起作为下一层的输入。因此, 每个样本经MSCNN模型处理, 得到的输出尺寸为(Nw, Fn×3)。MSCNN模型的多尺度结构, 可以对空间不同尺度特征提取, 以便获取更详细的特征。
2 LSTM模型LSTM模型适用于处理时间序列信息, 广泛用于机器学习, 语音识别和自然语言处理等领域[13]。LSTM模型可以更好地学习时间序列长短期之间的关系, 它由输入层、隐藏层和输出层组成, 有3个门控单元和记忆单元, 如图 2所示。
图 2中,
当前的临时记忆单元
(3) |
记忆单元: 此刻保留着重要长期记忆的细胞状态
(4) |
输入门: 有选择地将新信息记录到单元中
(5) |
遗忘门: 选择性地遗忘单元状态中的信息
(6) |
输出门
(7) |
输出
(8) |
式中: σ表示sigmoid激活函数; wxc, whc, wxi, whi, wci, wxf, whf, wcf, wxo, who, wco表示权重; bc, bi, bf, bo表示偏置项。LSTM中包含很多神经元, 神经元彼此交换信息以实现时间连接以提取数据的时间依赖性特征, 并在每一层后面添加激活函数。此外, 每个神经元的输出不仅在下一刻循环进入自身, 还与其他神经元共享。使用Adam优化算法更新模型的权重。最后, 在LSTM模型后添加一个神经元, 代表RUL的输出值。
3 基于MSDCNN-LSTM的剩余寿命预测方法 3.1 数据处理多个传感器监测到的数据维度高, 具有不同量纲, 所以首先使用最小-最大标准化方法将数据统一到[-1, 1]的范围内。假设传感器监测到的数据为X=[X1, X2, …, Xi, …, Xn]∈Rm×n, 其中m为传感器的数量, n为时间序列的长度。设备运行到第i个周期时对应m维传感器测量值可以表示为Xi=[xi, 1, xi, 2, …, xi, j, …, xi, m]∈Rm×1。每个测量值xi, j经过最小-最大标准化处理[14], 可以表示为
(9) |
式中:
标准化后的数据经过时间窗口处理。由于监测数据是多变量时间序列, 包含更多的信息。所以通过时间窗口的大小来确定输入模型序列的尺寸, 处理过程如图 3所示。大小为Nw的窗口沿着时间序列滑动, 每滑动一个单元将会反馈滑块内的数据, 这些数据作为预测模型的输入。
在数据处理过程中, 时间窗口得到的数据之间的连接可以表示为[8]
(10) |
式中: Xi: i+Nw-1表示从第i个时间周期开始的长度为Nw的序列; ⊕表示窗口内每行数据的连接, 形成一个长序列。因此, 预测模型的输入尺寸是Nw×m, 为了得到更多的数据, 滑动窗口的步长设为1。
3.2 MSDCNN-LSTM融合模型经过时间窗口处理得到的多维传感器数据作为MSDCNN-LSTM融合模型的输入, 融合模型流程如图 4所示。MSDCNN和LSTM同时对输入数据进行处理, 其中MSDCNN由3层MSCNN组成。每一层MSCNN通过设置不同大小的卷积核可实现多尺度特征提取, 然后整合到一起作为下一层的输入。Flatten将MSDCNN-LSTM模型处理后的多维数据一维化, 最后设置Dense层为一个单元, 代表输出的RUL值。
3.3 减少过拟合减少过拟合主要体现在两部分: 在融合模型中添加L2正则化项和在验证集中使用early stopping方法。由于模型参数多, 样本数量少, 在训练集上训练好的模型其泛化能力较差。L2正则化是基于L2范数, 可以有效解决过拟合问题。在每一个多尺度卷积层和LSTM层加入L2正则化, 公式表示为[9]
(11) |
式中: Co表示RMSE损失函数; λ为正则项系数; w为权重; n为权重参数的数量。
同时, 取训练集后5%的数据作为验证集, early stopping用于在验证集上验证模型的性能。实验设置当验证误差在连续10个Epoch没有下降趋势时, 训练过程将通过early stopping提前终止。
4 实验结果及分析 4.1 实验数据集及设置本文实验在配置为Intel(R) Xeon(R) CPU E5-2620 v4 @ 2.10 GHz.NVIDIA GeForce TITAN XP的服务器上进行。使用C-MAPSS数据集来验证所提出的方法。C-MAPSS数据集根据操作条件和故障模式分为FD001, FD002, FD003和FD004 4个子集, 如表 1所示。每个子集分为训练集和测试集, 其中FD002和FD004有6个操作条件, FD003和FD004有2个故障模式。并采用分段线性函数表示真实RUL值, 最大剩余寿命值设为125。
子数据集 | 训练集引擎单元 | 测试集引擎单元 | 操作条件 | 故障模式 |
FD001 | 100 | 100 | 1 | 1 |
FD002 | 260 | 259 | 6 | 1 |
FD003 | 100 | 100 | 1 | 2 |
FD004 | 249 | 248 | 6 | 2 |
为验证本文方法的有效性, 使用PHM领域普遍使用的Score函数和均方根误差函数RMSE作为评价指标。Score函数为[14]:
RMSE为对称函数, 对于超前和滞后效果是一样的。然而Score函数是非对称函数, 它对滞后预测更为敏感, 因为滞后预测通常会带来更严重的后果, 所以给予比超前预测更强的惩罚。因此, 使用这2个指标可以全面衡量算法的性能。Score和RMSE的值越低, 模型的预测能力越好。
4.2 预测模型结果观察到FD001子集内有7个传感器数值无变化。为了节省计算资源, 剔除无意义的数据, 得到14个传感器为2, 3, 4, 7, 8, 9, 11, 12, 13, 14, 15, 17, 20, 21。
多尺度卷积核的大小对实验精度有重要影响, 本文使用了3种尺度的卷积核, 经过大量实验, 当中间卷积核为大小为12时可以取得较好结果。为了验证卷积核大小对实验结果的影响, 以12为中心, 公差为d, d=0, 1, 2, 3, 4, 5, 6, 7, 在FD001数据集上进行对比实验。如图 5所示, 横轴为卷积核之间的公差, 纵轴为2种评价指标RMSE和Score, 可以看出, 当d=5时, RMSE和Score均取得了最小值, 因此本实验选择的多尺度卷积核大小分别为7, 12和17。
为了证明提出的MSDCNN-LSTM融合模型的有效性, 以FD001数据集为例进行分析。模型具体的参数设置见表 2。
参数 | 值 | 参数 | 值 | |
m | 14 | L2正则化 | 0.01 | |
FD001到FD004的Nw | 30/20/30/15 | λ | 1 | |
F1/F2/F3 | 7/12/17 | 边缘填充 | same | |
Fn | 35 | 优化器 | Adam | |
LSTM神经元数目 | 64 | 学习率 | 0.001 | |
MSDCNN的激活函数 | tanh | 批次 | 512 | |
LSTM的激活函数 | relu | 无进度轮次 | 10 | |
LSTM层数 | 1 | MSCNN层数 | 3 |
图 6展示了FD001数据集上随机选出4个引擎单元的预测结果。由图可以看出MSDCNN模型其多尺度结构能够有效提取发动机退化的详细特征, 即使刚开始运转时难以预测, 预测值也更接近于设置值125。随着运行周期的增加, LSTM可以有效获取时间序列前后之间的关系。结合二者优势, 融合模型同时在时间和空间上学习特征, 从图中可以看出其预测趋势稳定, 能够较好地拟合真实退化曲线, 有效地提高了RUL预测精度。所以提出的模型有较强的空间详细特征提取能力并增强了时间序列的记忆能力。
为了比较模型在全部测试集上的预测效果, 图 7给出了FD001测试集上所有引擎单元根据RUL值从小到大排序后的预测结果。由图可以看出, 发动机刚开始运转时, RUL值较大, 预测误差也相对较大。在发动机经过长时间运行或将要发生故障时, 退化信息较为明显, 预测性能显著增强。提出的融合模型体现出较好的预测效果。
图 8显示了4个数据集的测试引擎误差分布直方图。横坐标表示预测RUL与实际RUL之间的差值, 纵坐标表示与误差区域相对应的发动机的数量。FD001和FD003的预测误差分布主要在[-20, 30]之间, FD002和FD004预测误差分布主要在[-40, 40]之间。根据表 1, 数据集FD002和FD004包含了6个操作条件的数据, 因此带来更大的预测挑战。由公式(12)可知Score对于滞后预测给予了更强的惩罚, 误差大于零部分值越大, 得到的Score分数就越高, 从图可以看出本文提出的模型对于误差大于零的部分提升效果明显, 因此能显著降低Score值。
4.3 模型对比分析为了证明提出的MSDCNN-LSTM融合模型的可行性,同近几年的方法进行比较。与深度置信网络(deep belief network, DBN)[5]、CNN[7]、LSTM[10]、DCNN[8]、CNN-LSTM[11]和MS-DCNN[9]方法对比结果如表 3所示。
方法 | FD001 | FD002 | FD003 | FD004 | |||||||
RMSE | Score | RMSE | Score | RMSE | Score | RMSE | Score | ||||
DBN[5] | 15.21 | 417.59 | 27.12 | 9 031.64 | 14.71 | 442.43 | 29.88 | 7 954.51 | |||
CNN[7] | 18.45 | 1 290 | 30.29 | 13 600 | 19.82 | 1 600 | 29.16 | 7 890 | |||
LSTM[10] | 16.14 | 338 | 24.49 | 4 450 | 16.18 | 852 | 28.17 | 5 550 | |||
DCNN[8] | 12.61 | 273.7 | 22.36 | 10 412 | 12.64 | 284.1 | 23.31 | 12 466 | |||
CNN-LSTM[11] | 16.13 | 303 | 20.46 | 3 440 | 17.12 | 1420 | 23.26 | 4 630 | |||
MS-DCNN[9] | 11.44 | 196.22 | 19.35 | 3 747 | 11.67 | 241.89 | 22.22 | 4 844 | |||
MSDCNN-LSTM | 13.19 | 247.69 | 18.44 | 1 520.01 | 12.74 | 210.95 | 21.28 | 2 684.65 |
由表 3可以看出,尽管MS-DCNN模型在子集FD001和FD003的RMSE上取得了更高的预测精度,但是所提出的MSDCNN-LSTM模型结果与其相差很小,并且在复杂多操作条件子集FD002和FD004上预测精度显著提升。结果表明,所提出的融合模型对于故障模式和运行条件复杂的数据敏感,并可以有效提高RUL预测精度。这对于多维度故障特征越来越复杂的设备RUL预测具有重要意义。因此,所提出的方法在预测任务中非常有前景。
5 结论本文提出一种基于MSDCNN-LSTM的RUL预测方法,通过MSDCNN模型提取空间中不同尺度的详细特征,并利用LSTM模型拟合复杂系统多传感器数据的时序性和非线性关系,可以有效解决数据维度高和时间序列长期依赖的问题。在C-MAPSS数据集上,与其他最新方法比较,验证了本文提出的方法对于航空发动机剩余寿命预测的有效性,尤其对于操作条件复杂的子集FD002和FD004提升效果明显。
在未来,我们将提高模型在简单数据集下的工作性能,使模型可以更广泛地应用于更多操作系统。虽然模型的性能表现出很高的优势,但在实际应用中数据丢包现象十分严重,非常有必要在小样本的情况下进一步讨论模型的预测能力,以实现工程应用的目标。
[1] | RODRIGUES L R. Remaining useful life prediction for multiple-component systems based on a system-level performance indicator[J]. IEEE/ASME Trans on Mechatronics, 2017, 23(1): 141-150. |
[2] | ELTHALJI I, JANTUNEN E. A summary of fault modelling and predictive health monitoring of rolling element bearings[J]. Mechanical Systems and Signal Processing, 2015, 60: 252-272. |
[3] | QIN S J. Survey on data-driven industrial process monitoring and diagnosis[J]. Annual Reviews in Control, 2012, 36(2): 220-234. DOI:10.1016/j.arcontrol.2012.09.004 |
[4] | KHELIF R, CHEBELMORELLO B, MALINOWSKI S, et al. Direct remaining useful life estimation based on support vector regression[J]. IEEE Trans on Industrial Electronics, 2017, 64(3): 2276-2285. DOI:10.1109/TIE.2016.2623260 |
[5] | ZHANG C, LIM P, QIN A K, et al. Multiobjective deep belief networks ensemble for remaining useful life estimation in prognostics[J]. IEEE Trans Neural Netw Learn Syst, 2017, 28(10): 2306-2318. DOI:10.1109/TNNLS.2016.2582798 |
[6] | WANG B, LEI Y, LI N, et al. Deep separable convolutional network for remaining useful life prediction of machinery[J]. Mechanical Systems and Signal Processing, 2019, 134: 106330. DOI:10.1016/j.ymssp.2019.106330 |
[7] | BABU G S, ZHAO P, LI X L. Deep convolutional neural network based regression approach for estimation of remaining useful life[C]//International Conference on Database Systems for Advanced Applications, Cham, 2016: 214-228 |
[8] | LI X, DING Q, SUN J Q. Remaining useful life estimation in prognostics using deep convolution neural networks[J]. Reliability Engineering & System Safety, 2018, 172: 1-11. |
[9] | LI H, ZHAO W, ZHANG Y, et al. Remaining useful life prediction using multi-scale deep convolutional neural network[J]. Applied Soft Computing, 2020, 89: 106113. DOI:10.1016/j.asoc.2020.106113 |
[10] | ZHENG S, RISTOVSKI K, FARAHAT A K, et al. Long short-term memory network for remaining useful life estimation[C]//IEEE International Conference on Prognostics and Health Management, 2017: 88-95 |
[11] | KONG Z, CUI Y, XIA Z, et al. Convolution and long short-term memory hybrid deep neural networks for remaining useful life prognostics[J]. Applied Sciences, 2019, 9(19): 4156. DOI:10.3390/app9194156 |
[12] | XIA T, SONG Y, ZHENG Y, et al. An ensemble framework based on convolutional bi-directional LSTM with multiple time windows for remaining useful life estimation[J]. Computers in Industry, 2020, 115: 103182. DOI:10.1016/j.compind.2019.103182 |
[13] | KURATA G, RAMABHADRAN B, SAON G, et al. Language modeling with highway LSTM[C]//2017 IEEE Automatic Speech Recognition and Understanding Workshop, 2017: 244-251 |
[14] | SARANYA C, MANIKANDAN G. A study on normalization techniques for privacy preserving data mining[J]. International Journal of Engineering and Technology, 2013, 5(3): 2701-2704. |