本技术涉及可靠性分析领域,尤其涉及一种基于强化学习集成框架的设备剩余使用寿命预测方法。
背景技术:
1、工业设备在长期运行中发生失效或故障是无法完全避免的。这些失效和故障如果不能得到有效处置,可能造成生产中断、人员伤亡,甚至公众安全危害。工业设备的剩余使用寿命预测是系统可靠性分析的重要组成部分。预测工业设备的剩余使用寿命有助于工厂及时发现设备的退化或异常,以便采取必要的维护和修复措施,确保设备处于良好工作状态。同时,通过合理的剩余使用寿命预测,工厂可以更有效地规划和预测维护需求,避免不必要的维护,降低维护成本。
2、传统的设备剩余使用寿命预测是基于经典物理模型的。基于经典物理模型的方法具有很好的可解释性,但要求建模者具有良好的理论和技术知识,以准确理解和描述复杂的工业系统。此外,物理建模通常要求精确的物理参数和实验数据,这对于复杂工业设备可能难以获取。因此,基于经典物理模型的剩余使用寿命预测方法在实际工业场景下很少直接应用。
3、随着机器学习技术的飞速发展,基于数据驱动的方法逐渐被引入到设备剩余使用寿命预测任务中。其中,常见的方法有基于卷积神经网络的预测方法,基于循环神经网络的预测方法,以及基于transformer模型的预测方法等。这些方法各有优势,卷积神经网络能够有效捕捉局部特征;循环神经网络可以记住历史运行信息,即能对时序数据进行建模,因此循环神经网络在捕获序列数据中的时间依赖性方面表现出色;而transformer借助多头注意力机制允许模型关注输入序列中不同监测时间点的运行状态信息,从而在建模长期依赖性上更具优势。目前主流的数据驱动方法是针对不同工业设备独立设计、训练最优剩余使用寿命预测模型。因此,不同的工业设备的最优剩余使用寿命预测方法是有差异的。例如,有的设备采用卷积神经网络的方法来预测剩余使用寿命是最优的,有的设备采用循环神经网络的方法来预测剩余使用寿命是最优的。在最新的研究中,发现即使是同一种设备在不同的工作状态下,最优剩余使用寿命的预测方法也可能有差异。
4、针对这种情况,本发明提出一种基于强化学习集成框架的设备剩余使用寿命预测方法。本发明提出的预测方法的特点是在每个监测时间点,首先采用多个独立训练的剩余使用寿命预测模型(称为基础模型)来预测当前设备的剩余使用寿命;然后通过一个基于强化学习优化的集成策略生成在当前监测时间点,参与集成预测的每个基础模型的权重;最后基于权重将所有基础模型的预测剩余使用寿命进行加权求和,得到最终的设备剩余使用寿命预测值。大量实验表明,这种基于强化学习集成框架的设备剩余使用寿命预测方法能大幅提升预测准确性。
技术实现思路
1、本发明的目的是提供一种基于强化学习集成框架的设备剩余使用寿命预测方法。该方法能够在每个监测时间点动态集成各个基础模型预测的设备剩余使用寿命,以使最终预测值更贴近设备真实的剩余使用寿命。为实现上述发明目的,本发明提供的设备剩余使用寿命预测方法主要包括两个阶段:第一个阶段用于训练各个设备剩余使用寿命预测基础模型,以及利用强化学习算法优化集成策略;第二个阶段是利用第一个阶段训练的基础模型和集成策略进行实际的设备剩余使用寿命预测。图1展示了本发明所述的基于强化学习集成框架的设备剩余使用寿命预测方法的示意图。
2、第一个阶段的具体步骤如下:
3、步骤1:基于实验或仿真系统,收集设备在不同工作状态从正常运行到完全失效的运行状态数据;初始时设备均是正常运行状态,监测系统通过传感器周期地采集设备运行状态的相关数据并记录,在某个随机时间点给设备增加一个破坏或损伤,监测系统继续周期地记录设备运行状态数据,直到设备完全失效停止工作,形成一组设备运行状态数据记录,如图2所示,在图2中,时间点t是设备完全失效或停止工作的监测时间点,s1,s2,...,sn表示设备的n个工作状态参数,x1,x2,...,xm表示设备的m个运行状态参数;重复实验或仿真k次,得到k组不同工作状态下相同型号设备的运行状态数据记录;
4、步骤2:基于设备的运行状态数据记录,构建剩余使用寿命预测模型训练与集成策略优化的训练数据集,训练样本的构建方法如下:
5、步骤2.1:对k组运行状态数据的每个参数进行归一化处理,使每个参数的取值范围限制在[0,1];
6、步骤2.2:基于滑动窗口方法划分训练样本,滑动窗口的大小为w,移动步长为1,则一个包含t个监测时间点的设备运行状态数据记录可以划分为t-w+1个样本,所有的工作状态参数和运行状态参数作为这个样本的特征,样本的标签是样本包含的监测数据中最后一个监测时间点t到设备完全失效的时间点t的监测周期数rt,rt=t-t;
7、步骤3:利用训练数据集分别训练d个剩余使用寿命预测模型作为集成的基础模型,d个剩余使用寿命预测模型可以选择不同的方法实现,包括但不限于基于卷积神经网络的方法、基于循环神经网络的方法、基于transformer模型的方法等;
8、步骤4:利用训练数据集,通过强化学习算法优化集成策略,方法如下:
9、步骤4.1:构建优化集成策略需要的经验池,方法如下:
10、步骤4.1.1:对于训练样本t,代理首先利用步骤3训练的d个剩余使用寿命预测基础模型来预测该样本对应的设备剩余使用寿命,d个基础模型的预测值记为
11、步骤4.1.2:基于基础模型的预测值,构建训练样本t对应的状态,记为这里pt是d个基础模型预测值的算术平均值;
12、步骤4.1.3:基于状态st,代理利用强化学习算法的策略网络来生成训练样本t对应的监测时间点t的集成决策,即生成一个d维度的连续动作向量,记为这里表示基础模型i参与集成时的权重;
13、步骤4.1.4:基于基础模型的预测值和代理生成的每个基础模型参与集成的权重,计算下一个状态st+1,这里pt′表示最终的设备剩余使用寿命预测值,它是所有基础模型预测剩余使用寿命的加权求和,由公式(1)计算;
14、
15、步骤4.1.5:代理根据公式(2)定义的奖励函数计算对于训练样本t做出的集成决策的奖励rt,这里pt′表示最终的剩余使用寿命预测值,pt表示d个基础模型预测值的算术平均值,rt表示训练样本t的真实剩余使用寿命;
16、
17、步骤4.1.6:根据步骤4.1.1-4.1.5计算的信息构建一条四元组的经验,记为<st,at,rt,st+1>,将经验加入到经验池;
18、重复步骤4.1.1-4.1.6,将训练样本中所有的样本构建为经验,加入经验池;
19、步骤4.2:利用强化学习算法优化集成策略;
20、通过上述步骤,完成d个剩余使用寿命预测基础模型的训练,完成集成策略的优化。
21、在第二个阶段,应用d个剩余使用寿命预测基础模型和优化的集成策略,在每个监测时间点计算设备的剩余使用寿命预测值,具体步骤如下:
22、步骤5:使用当前监测时间点k采集的工作状态参数和运行状态参数,按照步骤2的方法构建测试样本;首先利用步骤2.1的方法,对采集的工作状态参数和运行状态参数进行归一化处理;如果当前有记录的监测时间点数大于等于w个,则取当前监测时间点之前的w-1个时间点采集的工作状态参数和运行状态参数与当前时间点采集的工作状态参数和运行状态参数一起构成测试样本;如果当前有记录的监测时间点数小于w个,则利用有记录的第1个监测时间点采集的工作状态参数和运行状态参数补足w个监测时间点的工作状态参数和运行状态参数;
23、步骤6;将构建的测试样本的特征输入到d个剩余使用寿命预测基础模型中,分别预测当前设备的剩余使用寿命,记为
24、步骤7:基于d个剩余使用寿命预测值,构建当前监测时间点k的状态sk,这里表示d个剩余使用寿命预测值的算数平均值;
25、步骤8:将状态sk输入到优化后的集成策略(强化学习算法的策略网络)中,得到连续动作向量
26、步骤9:利用公式(3)计算设备的剩余使用寿命预测值,这里表示在监测时间点k基础模型i参与集成时的权重,表示基础模型i的剩余使用寿命预测值。
27、
1.一种基于强化学习集成框架的设备剩余使用寿命预测方法,其特征在于,包括以下步骤:
