基于滑模的事件触发近似最优控制方法研究.pdf
摘要
非线性系统的最优控制问题是控制领域重要的研究课题之一。随着计算机技
术的进步和发展,非线性系统也越来越复杂,传统的非线性控制理论难以满足日
益增加的控制要求。自适应动态规划(AdaptiveDynamicProgramming,ADP)方法
结合了动态规划、强化学习和神经网络等技术,成功地解决了传统动态规划求解
过程中出现的“维数灾难”问题,为非线性系统最优控制问题的求解提供了新的
方法和思路。但是,在已有的ADP控制方法中仍存在能够改进的地方:(1)在传
统的ADP方法中,其性能指标函数的设计大部分是基于控制量、状态量或误差
量,采用这种性能指标函数的方法其系统响应速度仍有待改进。(2)ADP方法在
求解过程中需要已知非线性系统完整的数学模型,而对于越来越复杂的非线性系
统来说,通过已有的线性化技术和非线性理论很难得知准确且完整的数学模型,
这为ADP方法的实际应用带来了限制。(3)非线性系统的外部未知扰动会对系统
控制产生影响,严重时甚至造成不可逆的损失和伤害。因此,在实现基本控制目
标的情况下解决上述问题是非常有意义的课题。本文的主要工作如下:
(1)针对连续时间非线性系统,本文提出了一种基于滑模变量的事件触发
ADP控制方法。该方法将线性滑模变量设计到了二次型性能指标函数之中,引
入了事件触发机制,得到了基于神经网络的事件触发最优控制输入,实现了非线
性系统的最优控制。
(2)针对系统模型部分未知以及控制输入受限的非线性系统,考虑使用积分
强化学习(IntegralReinforcementLearning,IRL)技术解决模型部分未知的问题,使
用双曲正切函数限制控制输入的取值范围,在非二次型性能指标函数中加入线性
滑模变量以加快系统的响应速度。在保证系统稳定性的前提下,设计一个事件触
发条件,以节省通信资源。据我们所知,目前还没有IRL方法、滑模控制和事件
触发控制的融合控制方法研究。
(3)在上述控制策略的基础上,进一步考虑到非线性系统可能存在的外部未
知扰动。首先,基于双人零和博弈的思想,将控制输入和未知扰动分别视为极小
值者和极大值者,基于贝尔曼最优性原理得到最优控制输入和扰动策略。其次,
将上述策略中的线性滑模变量换为递归终端滑模变量,用来进一步加快非线性系
统的响应速度。然后,通过事件触发控制和神经网络技术设计出事件触发控制输
入,并利用李雅普诺夫稳定性理论证明了该控制方法能够保证系统的稳定性。最
后,与基于线性滑模的控制策略进行对比,验证了该方法的有效性。
关键词:自适应动态规划,积分强化学习,滑模控制,事件触发,神经网络
Abstract
Theoptimalcontrolproblemofnonlinearsystemsisoneoftheimportant
researchissuesinthefieldofcontrol.Withtheimprovementanddevelopmentof
computertechnology,nonlinearsystemisalsomoreandmorecomplicated,the
traditionalnonlinearcontroltheoryishardtosatisfytheincreasingcontrol
requirements.Theadaptivedynamicprogrammingmethodcombinesthetechniques
ofdynamicprogramming,reinforcementlearningandneuralnetwork,which
successfullysolvestheproblemofdimensiondisasterthatoccursintheprocessof
traditionaldynamicprogramming,andprovidesanewmethodandideaforthe
solutionoftheop