基于设备状态的维护策略研究

时间:2022-09-30 09:18:14

基于设备状态的维护策略研究

摘 要:本文研究生产企业中单台衰变设备基于状态的维护策略,建立马尔科夫决策过程模型,通过强化学习中的Q学习算法,使总成本最小化,获得基于每个状态的维护策略,并通过实例进行了验证。

关键词:维护策略;Q学习算法;马尔科夫决策过程;质量状态

DOI:10.16640/ki.37-1222/t.2016.23.182

0 引言

本文提出一种考虑设备状态和距离上次预防性维护时间的维护模式,同时设备状态由设备加工的产品质量信息为参考依据,以最小化设备运行成本为目标函数,建立多个设备状态、多种行动的马尔可夫模型[1,2],并采用Q学习对单台设备生产模型进行求解,得到近似最优的维护策略。

1 单台衰变设备建模

本文利用一个连续时间、离散状态的马尔科夫决策过程模型呈现单一设备的衰变过程。如图1所示。

2 基于值迭代的Q学习维护策略

采用强化学习中基于值迭代的Q学习方法进行求解[3,4,5],其步骤如下:

(1)初始化Q(s,a)为(0,0)

(2)反复执行以下步骤:初始化s值。每一次仿真进行:根据Q中的状态s选择一个行动a,执行行动a,观察得到的即时回报r和新的状态s’,其迭代公式为:

(1)

3 仿真实例分析

应用基于值迭代的Q学习求解模型的步骤如下: 1)初始化所有全局参数;2)设置循环次数;3)开始仿真。仿真流程图如图2所示。

单一衰变设备系统的基本参数如表1所示。

M: 生产设备 Co: 设备M生产单个产品的成本 Cp: 单位时间内设备M的预防维护成本 Cc: 单位时间内设备M的修理成本

R: 设备M生产一个好产品的收益 ave_reward: 生产系统的平均收益 MTTF: 设备M的平均故障时间 y(t): 设备M加工的好产品比例 a: 设备M预防维护的成功率,也即预防维护速率 b: 不合格产品数 t: 自上次维护以来的时间

在仿真过程中,设备以线性模式衰变,y(t)=1-t/(MTTF),t为距离上次维护以来的时间,随着tt的增加,设备生产好产品的概率不断降低。通过基于值迭代的Q学习对单设备系统进行学习后,得到表2中的结果。

其中,“0”表示继续生产,“1”表示进行预防维护。b=0时,设备总是在生产的,t服从马尔科夫模型下的均匀分布,表示的是单位时间。当t为1和2,b=1时,系统采取了预防维护;而t=4,5,6,b

参考文献 :

[1]王文义,张洪芳.维修策略的概念、方法和模型(I)[J].北京: 机械工业出版社,1997,6(02):95-98.

[2]陈洪根.设备维护改进实施决策模型[J].系统工程理论与实践,20n,31(05):954-960.

[3]Wang H.A survey of maintenance policies of deteriorating systems. European Journal of Operational Research,2002,139:469-489.

[4]Aissani N,Beldjilali B,Trentesaux D. Dynamic Scheduling of maintenance tasks in the petroleum industry:A reinforcement approach[J].Engineering Applications of Artificial Intelligence,22.7(2009):1089-1103.

[5]Arapostathis A,Borkar V S,Fernández-Gaucherand E, et al.Discrete-time controlled Markov processes with average cost criterion: a survey[J].SIAM Journal on Control and Optimization,31.2(1993):282-344.

基金项目:2014沈阳航空航天大学生创新创业训练计划项目 项目编号:DCX140410

上一篇:发电厂环保监测信息管理系统设计方式分析 下一篇:浅谈移动塔台全挂车总体结构