基于深度强化学习的智能机器人避障决策模型.pdf
第38卷第3期新乡学院学报..2021年3月
Vol.38No.3JournalofXinxiangUniversityMar.2021
基于深度强化学习的智能机器人避障决策模型
凌涛
(安徽三联学院基础实验教学中心,安徽合肥230601)
摘要:神经网络算法避障决策模型的权值训练不理想,会导致智能机器人避障决策精度差,故设计一种基于深度
强化学习的智能机器人避障决策模型。首先,根据机器人的位置建立绝对坐标系和相对坐标系,分析其运动状态,求
解机器人中心点的运动速度。其次,通过马尔科夫决策序列的迭代过程,建立深度强化学习卷积网络模型,并设置模
型中各层的参数。最后,使用深度强化学习算法对模型进行训练并设置奖惩函数。避障实验结果表明:在单一方向存
在障碍物的情况下,所设计的模型与传统模型均有较好的避障精度;在多方向存在障碍物以及复杂环境下,所设计
模型可提高机器人的避障精度。
关键词:深度强化学习;机器人避障;决策模型
中图分类号:TP242.6文献标识码:A文章编号:2095-7726(2021)03-0064-04
近年来,智能机器人的自学习和自适应能力不在进行避障决策时,主要依赖自身定位以及对障碍
断提高,其中在有障碍物的复杂环境下实现机器人物的距离、方向等信息的识别⑹。机器人在移动过程
的智能避障决策也成为目前一个重点研究方向。机中有直行和转弯2种状态,-K坐标系(相对坐标
器人避障决策模型是机器人避障的重要依据,它主系)是以机器人的速度方向为坐标轴正方向。这2个
要负责机器人的路径规划和动作执行lx】。决策模型坐标系都能够表示机人的位置,转换关系为
使机器人在一个复杂的动态变化的环境中可以依靠=+xrcos0R+xsin0R,(】)
自身携带传感器的局部感知,轨迹偏离的程度最低,=%+%sinR+qcosOr,
并安全地绕过障碍物,达到目的地。传统的决策模型其中,毘、%为机器人在相对坐标系中的坐标,兀、y为
机器人在绝对坐标系中的坐标⑺。
应用的是神经网络算法,但这种权值训练结果不理
想⑶,机器人避障精度差。为此,本文设计一种基于
深度强化学习的智能机器人避障决策模型。
1避障决策模型设计
1.1分析智能机器人运动状态
智能机器人的形态多样,本文仅以非完整约束
下的两轮差速驱动机器人为例进行研究。机器人整
体为刚性结构,运动范围可近似看作二维平面。假设
图1机器人运动状态
2个轮子受到的阻力相同且不存在与地面之间的相
对滑动,旋转中心与质心重合,忽略摩擦力以及承重机器人的运动需要以一定的差分驱动算法(如
负载等影响因素,得出的机器人在运动过程中的状Lyapunov直接法⑻等)为基础。由刚体力学可知,机
态如图1所示45]。器人的运动学方程可以表示为
在图1中,点C为机器人的运动旋转中心,坐标_i1_
22X-
为(xR,yR),机器人的移动方向与X轴的夹角为%,
11
那么机器人的位姿可以表示