文档详情

基于深度强化学习的智能机器人避障决策模型.pdf

发布：2025-04-04约1.11万字共4页下载文档

文本预览下载声明

第38卷第3期新乡学院学报..2021年3月

Vol.38No.3JournalofXinxiangUniversityMar.2021

基于深度强化学习的智能机器人避障决策模型

凌涛

（安徽三联学院基础实验教学中心，安徽合肥230601）

摘要：神经网络算法避障决策模型的权值训练不理想，会导致智能机器人避障决策精度差，故设计一种基于深度

强化学习的智能机器人避障决策模型。首先，根据机器人的位置建立绝对坐标系和相对坐标系，分析其运动状态，求

解机器人中心点的运动速度。其次，通过马尔科夫决策序列的迭代过程，建立深度强化学习卷积网络模型，并设置模

型中各层的参数。最后，使用深度强化学习算法对模型进行训练并设置奖惩函数。避障实验结果表明：在单一方向存

在障碍物的情况下，所设计的模型与传统模型均有较好的避障精度；在多方向存在障碍物以及复杂环境下，所设计

模型可提高机器人的避障精度。

关键词：深度强化学习；机器人避障；决策模型

中图分类号：TP242.6文献标识码：A文章编号：2095-7726（2021）03-0064-04

近年来，智能机器人的自学习和自适应能力不在进行避障决策时，主要依赖自身定位以及对障碍

断提高，其中在有障碍物的复杂环境下实现机器人物的距离、方向等信息的识别⑹。机器人在移动过程

的智能避障决策也成为目前一个重点研究方向。机中有直行和转弯2种状态，-K坐标系（相对坐标

器人避障决策模型是机器人避障的重要依据，它主系）是以机器人的速度方向为坐标轴正方向。这2个

要负责机器人的路径规划和动作执行lx】。决策模型坐标系都能够表示机人的位置，转换关系为

使机器人在一个复杂的动态变化的环境中可以依靠=+xrcos0R+xsin0R,（】）

自身携带传感器的局部感知，轨迹偏离的程度最低，=%+%sinR+qcosOr,

并安全地绕过障碍物，达到目的地。传统的决策模型其中，毘、％为机器人在相对坐标系中的坐标，兀、y为

机器人在绝对坐标系中的坐标⑺。

应用的是神经网络算法，但这种权值训练结果不理

想⑶,机器人避障精度差。为此，本文设计一种基于

深度强化学习的智能机器人避障决策模型。

1避障决策模型设计

1.1分析智能机器人运动状态

智能机器人的形态多样，本文仅以非完整约束

下的两轮差速驱动机器人为例进行研究。机器人整

体为刚性结构，运动范围可近似看作二维平面。假设

图1机器人运动状态

2个轮子受到的阻力相同且不存在与地面之间的相

对滑动，旋转中心与质心重合,忽略摩擦力以及承重机器人的运动需要以一定的差分驱动算法（如

负载等影响因素，得出的机器人在运动过程中的状Lyapunov直接法⑻等）为基础。由刚体力学可知，机

态如图1所示45］。器人的运动学方程可以表示为

在图1中，点C为机器人的运动旋转中心，坐标_i1_

22X-

为（xR,yR）,机器人的移动方向与X轴的夹角为％,

那么机器人的位姿可以表示

显示全部

相似文档