基于保守Q学习的离线强化学习算法研究.pdf
文本预览下载声明
基于保守Q学习的离线强化学习算法研究中文摘要
基于保守Q学习的离线强化学习算法研究
中文摘要
离线强化学习中智能体无需与环境交互,而是从一个固定的数据集中采样数据进
行学习,是目前强化学习领域的一个研究热点,已被广泛应用于自动驾驶,智慧医疗,
以及机器人控制等领域。对价值函数更新进行保守正则化处理,使智能体倾向于选择
数据集内的动作是离线强化学习常用的方法。经典的离线强化学习方法保守
显示全部