基于强化学习的离散事件系统不透明性监督控制研究.pdf
广西师范大学硕士研究生学位论文
基于强化学习的离散事件系统不透明性监督控制研究
研究生姓名:黄丽导师姓名:张慧敏
学科:软件工程研究方向:离散事件系统年级:2021级
摘要
离散事件系统(DiscreteEventSystem,DES)是一类具有离散状态空间并由事件驱动
状态发生转移的动态系统,广泛应用于动力系统、交通控制和工业制造等领域。在发达
的网络信息时代,安全和隐私成为DES面临的重要问题。不透明性是这类动态系统的
一种信息流属性,对于掌握系统结构并具有部分观察能力的恶意入侵者,如果入侵者能
够直接推断出系统秘密信息,表明系统处于透明状态,因此需要对系统强制不透明,强
制不透明就是将违反不透明性的系统转换为不透明的系统。
近几十年来,监督控制理论(SupervisoryControlTheory,SCT)广泛应用于离散事件系
统强制不透明性问题研究中,SCT从给定的系统模型和不透明性需求规范出发,通过构
建一个具有最大可允许行为的监督控制器来保证系统的不透明性。然而,实际系统的形
式化模型较难构建,从而难以直接应用SCT生成控制器。强化学习(Reinforcement
Learning,RL)作为一种在实践中学习策略的方法,不需要依赖环境模型也能够学习到策
略,为缺乏系统模型时的不透明性监督控制问题提供了新的解决方案。本文针对系统的
形式化模型未知的情况,对不同的应用场景下的DES不透明性监督控制问题展开研究,
主要工作如下:
(1)针对只有一个入侵者的部分可观系统当前状态不透明性控制问题,在缺少系统形
式化模型的情况下,提出了基于强化学习的保证系统当前状态不透明的监督控制策略生
成方法。首先,建立与受控系统相关联的马尔科夫决策过程(MarkovDecisionProcess,
MDP);其次,在学习过程中动态构造当前状态估计器来验证系统是否违反当前状态不
透明性,并动态构建系统与观测器的同步积结果;然后,采用无模型强化学习算法来学
习保证系统当前状态不透明的监督控制策略;最后,在实验与分析部分通过一个简单示
例说明方法的具体实现过程,并对柔性汽车制造系统实例进行仿真实验,从学习过程中
系统行为暴露秘密的概率以及平均累积奖励两个方面对实验结果进行分析,说明该方法
的正确性和有效性,并通过事件概率分布敏感性实验验证不同的事件概率分布不会影响
本方法的适用性。
(2)针对多个拥有不同观测能力的入侵者协同推断部分可观系统秘密信息的情形,本
文假设入侵者团队采用基于交集协议的协同方式来通讯协作,提出了一种基于深度强化
学习的方法来解决缺乏系统形式化模型时的协同不透明性监督控制问题。首先,构造与
I
广西师范大学硕士研究生学位论文
受控系统相关联的MDP;其次,在学习过程中逐步完善基于交集协议的协同当前状态
不透明性验证机制,实现多入侵者通讯协作推断系统秘密的仿真过程;采用深度Q网络
算法学习保证系统协同当前状态不透明的监督控制策略;最后,在实验与分析部分给出
简单示例说明方法的具体实现过程,并对自动引导小车系统实例进行仿真实验,通过对
学习过程中系统暴露秘密的概率以及平均奖励的实验结果进行分析,说明该方法的正确
性和有效性。
与现有基于SCT的不透明监督控制研究相比,本文提出的方法能够在缺乏系统形
式化模型的情况下为DES生成保证系统不透明性的监督控制策略,为缺乏系统模型下
的不透明性监督控制问题研究提供了新的解决方案。
关键词:离散事件系统;有限状态自动机;不透明性;监督控制;强化学习
II
广西师范大学硕士研究生学位论文
ResearchonOpacitySupervisoryControlofDiscreteEvent
SystemsBasedonReinforcementLearning
Graduatestu