基于深度强化学习的移动机器人路径规划方法研究.pdf
摘要
路径规划作为移动机器人领域的关键技术之一,对确保机器人操作的安全性、提
高作业效率及增强智能行为水平具有显著影响。传统路径规划算法面对未知环境缺
乏自主学习能力,存在实时性差、路径冗余、依赖高精度传感器等问题。深度强化学
习算法因不依赖先验地图信息且拥有自主学习能力,在未知环境下的移动机器人路
径规划任务中得到了广泛应用。本文面向静态环境和拥挤环境(即动态人群环境)两
种移动机器人路径规划任务场景,针对当前深度强化学习算法在移动机器人路径规
划应用中存在的学习效率低、规划能力不强的问题提出了两种算法,使移动机器人能
够自主、高效地完成路径规划任务。本文研究内容主要如下:
(1)针对深度强化学习算法在移动机器人路径规划应用中存在的学习效率低、
决策效果差的问题,本文在SAC(SoftActor-Critic)算法基础上提出了ARL-DSAC
算法,首先提出辅助奖励函数,用于提升算法在路径规划中的探索效率,进而提高算
法学习效率。其次结合所提出的奖励,采用离散动作空间的SAC算法。最后修改SAC
网络架构,引入长短期记忆LSTM(LongShort-TermMemory)网络,综合利用历史
状态、当前状态做出更优的决策,进一步提高算法规划能力。实验结果表明,ARL-
DSAC算法有更高的学习效率和成功率,且泛化能力有所提升。
(2)针对移动机器人在拥挤环境训练过程中存在样本利用率低、严重依赖专家
经验的问题,本文从样本质量和样本利用率两个角度考虑,在基于社交图的双决斗深
度Q网络SG-D3QN(SocialGraph-basedDoubleDuelingDeepQ-network)算法基础
上提出CPMP-SGD3QN算法。首先提出候选动作模块,结合传统路径规划算法最优
互反避碰ORCA(OptimalReciprocalCollisionAvoidance)算法,与SG-D3QN算法
并行运行生成两个候选动作,设计动作选择策略从两个候选动作中选出最优动作执
行,提高训练初期样本质量,并在一定程度上增加安全性。其次引入多步(Multi-step)
思想和优先经验回放技术,提出分阶段多步优先经验回放方法,提高学习效率和样本
利用率。实验结果表明,提出的算法有效提高了学习效率,增强了移动机器人面对不
同数量行人的避障能力。
关键词:深度强化学习;路径规划;移动机器人;静态环境;拥挤环境
I
目录
摘要I
ABSTRACTII
1绪论1
1.1研究背景与意义1
1.2国内外研究现状2
1.2.1传统路径规划算法2
1.2.2基于强化学习的路径规划算法3
1.3研究内容及章节安排6
1.3.1研究内容6
1.3.2章节安排6
2相关知识9
2.1深度强化学习基础9
2.1.1神经网络9
2.1.2深度强化学习算法分类10
2.2路径规划基础14
2.2.1跳点搜索算法15
2.2.2最优互反避碰算法16
2.2.3基于社交图的双决斗深度Q网络16
2.3本章小结17
3静态环境下的移动机器人路径规划算法19
3.1状态空间与动作空间设计19
3.2奖励函数设计21
3.2.1环境奖励21
3.2.2信息熵21
3.2.3辅助奖励22
3.3基于LSTM的网络结构设计24
3.4算法流程与步骤24
3.5仿真环境及参数设计26
3.6仿真结果与分析27