文档详情

基于深度强化学习的智能机器人避障决策模型.pdf

发布:2025-04-04约1.11万字共4页下载文档
文本预览下载声明

第38卷第3期新乡学院学报..2021年3月

Vol.38No.3JournalofXinxiangUniversityMar.2021

基于深度强化学习的智能机器人避障决策模型

凌涛

(安徽三联学院基础实验教学中心,安徽合肥230601)

摘要:神经网络算法避障决策模型的权值训练不理想,会导致智能机器人避障决策精度差,故设计一种基于深度

强化学习的智能机器人避障决策模型。首先,根据机器人的位置建立绝对坐标系和相对坐标系,分析其运动状态,求

解机器人中心点的运动速度。其次,通过马尔科夫决策序列的迭代过程,建立深度强化学习卷积网络模型,并设置模

型中各层的参数。最后,使用深度强化学习算法对模型进行训练并设置奖惩函数。避障实验结果表明:在单一方向存

在障碍物的情况下,所设计的模型与传统模型均有较好的避障精度;在多方向存在障碍物以及复杂环境下,所设计

模型可提高机器人的避障精度。

关键词:深度强化学习;机器人避障;决策模型

中图分类号:TP242.6文献标识码:A文章编号:2095-7726(2021)03-0064-04

近年来,智能机器人的自学习和自适应能力不在进行避障决策时,主要依赖自身定位以及对障碍

断提高,其中在有障碍物的复杂环境下实现机器人物的距离、方向等信息的识别⑹。机器人在移动过程

的智能避障决策也成为目前一个重点研究方向。机中有直行和转弯2种状态,-K坐标系(相对坐标

器人避障决策模型是机器人避障的重要依据,它主系)是以机器人的速度方向为坐标轴正方向。这2个

要负责机器人的路径规划和动作执行lx】。决策模型坐标系都能够表示机人的位置,转换关系为

使机器人在一个复杂的动态变化的环境中可以依靠=+xrcos0R+xsin0R,(】)

自身携带传感器的局部感知,轨迹偏离的程度最低,=%+%sinR+qcosOr,

并安全地绕过障碍物,达到目的地。传统的决策模型其中,毘、%为机器人在相对坐标系中的坐标,兀、y为

机器人在绝对坐标系中的坐标⑺。

应用的是神经网络算法,但这种权值训练结果不理

想⑶,机器人避障精度差。为此,本文设计一种基于

深度强化学习的智能机器人避障决策模型。

1避障决策模型设计

1.1分析智能机器人运动状态

智能机器人的形态多样,本文仅以非完整约束

下的两轮差速驱动机器人为例进行研究。机器人整

体为刚性结构,运动范围可近似看作二维平面。假设

图1机器人运动状态

2个轮子受到的阻力相同且不存在与地面之间的相

对滑动,旋转中心与质心重合,忽略摩擦力以及承重机器人的运动需要以一定的差分驱动算法(如

负载等影响因素,得出的机器人在运动过程中的状Lyapunov直接法⑻等)为基础。由刚体力学可知,机

态如图1所示45]。器人的运动学方程可以表示为

在图1中,点C为机器人的运动旋转中心,坐标_i1_

22X-

为(xR,yR),机器人的移动方向与X轴的夹角为%,

11

那么机器人的位姿可以表示

显示全部
相似文档