DP算法与最大值原理的关系及其优越性

时间：2022-09-08 06:38:52

DP算法与最大值原理的关系及其优越性

摘要在最优控制中变分法、最大值原理以及动态规划（DP）是经常用到的理论方法，其中，DP法不仅是性能指标取极值最优控制问题的必要条件而且还是充分条件。本文给出了充分条件的证明，显示出DP法的优越性。DP法与最大值原理有着密切的联系，从DP法的HJB方程直接推导得出了最大值原理。

关键词变分法；最优；自动控制

中图分类号O232 文献标识码A 文章编号 1674-6708（2011）56-0106-02

The Advantage of DP in Optimal Control and Relation between DP and Maximum Principles

SHEN Hua-jing

Machine Electron Department，Ceramic Institute，Jingdezhen 333000，Jiangxi Province，China

Abstract In the methods of optimal control，Calculus of variation 、Maximum principles and DP are usually used．DP is not only the necessary-condition which performance target gets the extremum in the optimal control problem，but also is the sufficient-condition．The sufficient-necessary-condition that the paper demonstrated shows the advantage of DP in the optimal control．There are consanguineous relation between DP and Maximum principles，which the paper demonstrated from HJB equation of DP to Maximum principles．

Keywords Calculus of variation；Optimal control；Auto-control

0 引言

最优控制属于最优化[1]的范畴，因此，最优控制与最优化有其共同的性质和理论基础。最优控制通常是针对控制系统本身而言的，目的在于使一个机组、一台设备、或一个生产过程实现局部最优，是讨论具有动态系统约束条件的积分型泛函的极值问题，其中，常用的有变分法[2]、最大值原理[3]以及动态规划（DP）法。设计最优控制系统中常用的动态规划（DP）法的不仅是性能指标取极值的最优控制问题的必要条件而且还是充分条件，显示出在解决最优控制问题中其它方法所不具有的优越性。

1 DP法的优越性

变分法和最大值原理是性能指标取极小值的最优控制问题的必要条件，并不是充分条件。实际问题中通常要求实现最小值的最优控制[4]U*(t)，这在最优控制确实存在，只有证明必要条件得到的U*(t)是唯一的才能认定，而具有多个最优曲线在求最优控制的实际问题中是常见的。因此，只是必要而不充分的变分法和最大值原理给实现最小值的最优控制U*(t)带来了不确定性。而要证明通过必要条件得到的U*(t)是唯一的，有时候是非常难做到的。我们首先给出DP法对性能指标取极值的最优控制问题给出的必要条件，然后再给出充分条件的证明。

1.1 必要条件

已知连续系统状态方程为：,，其中,而――允许控制集。若U*(t)使：

取极小值，是时，的最优值函数，并设，f和f0均是偏导数存在且在其定义域上的连续函数，则沿最优控制U*(t)和最优轨线X*(t)，最优代价函数V*(X,t)满足HJB方程：

实现极小值。

这是DP法较变分法和最大值原理优越的地方之一。因为这一充要条件表明：在较强条件下，用DP法求得的U*(t)若使其满足最优值函数的HJB方程，它一定就是最优控制。DP法还有一优点：DP法的基本递推方程及HJB方程可以求得最优控制的反馈形式，这在实际应用上，将为实现最优自动控制带来方便。

2 DP法与最大值原理的关系

设最优值函数V*(X,t)具有二阶连续偏导数，最优控制函数的偏导数当沿最优轨线时，可视为t的函数，即令：，此时HJB方程中的Hv函数与最大值原理中的H函数就一致了，即：最大值[5]。HJB方程的前一半就是最大值原理中的控制方程：

这样我们就从HJB[6]的后一半推出了最大值原理中的协态方程，说明：其一，在最优值函数V*(X,t)具有二阶连续偏导数的情况下，DP法的HJB方程可以推的出最大值原理，它们之间有着密切的关系，其二，HJB方程的简化形式在最大值原理中对应的H函数的性质，即定常系统t1可动时，。

3 结论

动态规划（DP）法的是性能指标取极值的最优控制问题的充分必要条件，得到的U*(t)即就是最优控制，而且还可以得到最优控制的反馈形式，显示出在解决最优控制问题中其它方法所不具的优越性。DP法的HJB方程我们推导出了最大值原理，说明DP法与最大值之间有着本质上的密切联系。

参考文献

[1]陈树勋.分系统最优化与总系统最优化的关系探讨[J].系统工程理论与实践，1996，2.

[2]张汝清，高行山．随机变量的变分原理及有限元法[J].应用数学和力学，1992，5.

[3]丁俊堂.一类半线性抛物边值问题的最大值[J].数学物理学报，2004，1.

[4]Deng Y, Wang G.Necessary conditions for optimal control problems governed by some nonlinear parabolic differential equations[J].PanAmerican Mathematical Journal，1998.

[5]李国勇.最优控制理论及参数优化[M].北京：国防工业出版社，2006.

[6]XIANG Xiao ling.OPTIMAL CONTROL OF A CLASS OF DISTRIBUTED PARAMETER DELAY SYSTEMS[J].Systems Science and Mathematical Sciences，2000.

DP算法与最大值原理的关系及其优越性

热门推荐 更多>

热门推荐更多>