一类基于启发式搜索的 激励学习算法.ppt
文本预览下载声明
一类基于启发式搜索的 激励学习算法 报告人:苏姗 主要内容 激励学习的基本介绍 时间差分算法和SARSA算法 基于启发式的激励学习 实验结果和分析 总结 激励学习的基本介绍 机器学习包括有监督学习,无监督学习和激励学习。激励学习与有监督学习不同,在学习中,agent不被告知哪个动作是最好的,而是让它自己与未知环境交互,不断地试错,从环境中得到奖惩信息,积累经验,然后让agent自己判断哪个动作是最好的。 激励学习的基本介绍 最优控制策略 :S?A 激励学习的基本介绍 折算累积回报: 状态-动作的值函数: 最优策略: 时间差分算法和SARSA算法 蒙特卡罗算法 更新准则: 常量 的蒙特卡罗算法, 是学习率,一次迭代之后才能得到折扣累积回报总和(即值函数的真实值)对估计的值函数进行更新。 时间差分算法和SARSA算法 时间差分(temporal difference) 结合了动态规划和蒙特卡罗算法,一方面TD算法在环境模型未知的情况下可以直接从agent的经验中学习,另一方面TD算法利用估计的值函数进行迭代。 时间差分算法和SARSA算法 TD(0)算法 一步TD算法,agent获得的瞬时奖赏值仅向后回退一步,即只迭代的修改了相邻状态的估计值 更新规则: 时间差分算法和SARSA算法 SARSA算法 是一种典型的TD算法。 在动作at+1的选择上不同。SARSA算法采用随机概率的方法,一定程度上避免了Q学习中易陷入局部最优的问题。 基于启发式的激励学习 启发式搜索 评估函数f(x):从初始结点s0约束的经过结点x到达目标结点sr的所有路径中最小路径代价的估计值。 一般形式:f(x)=g(x)+h(x) 基于启发式的激励学习 一般形式:f(x)=g(x)+h(x) g(x) h(x) s0 x sr g(x)是从初始节点s0到x点的实际代价; h(x)是从x点到目标节点的最优路径的评 估代价。 基于启发式的激励学习 激励学习虽然适合处理环境模型未知的情况,但是只能从环境中得到才奖惩函数。 对于激励学习,在求解初期,简单的启发信息会加速智能体的搜索速度。 提出基于启发式的激励学习: H-SARSA 基于启发式的激励学习 设置一个总控制器C,包括两个子控制器c1(启发式)和c2(SARSA),每个控制器有两个参数:优先权M和选择概率P。 首先比较优先级,如果相同再比较选择概率,值较大的控制器所决定的动作将被总控制器所选择,作为智能体的下一步动作。 基于启发式的激励学习 Mh初始为一个不小的非负常量,Ph初始设为不小的常量(0Ph1),Ms=0,Ps=0。 求解初期,agent经验很少, Ms Mh。随着经验的增加,agent学习能力加强,Ms增加。当Ms= Mh时,转入激励学习为主,启发式为辅的阶段。 实验结果和分析 agent从S点出发,在尽可能短的时间内到达G点。 到达G点,r=1000; 经过可通行区域r=-0.02; 经过不可通行区域和边 界r=-5。 S 图一 20*20迷宫 G h(x):当前位置和目标位置的最短距离 实验结果和分析 实验结果和分析 总结 存在的问题:实验中参数是人为调整的 应用:在中国象棋博弈中,把数据库与 激励学习结合起来。 谢 谢 * * 返回 St+1状态最大的值函数 时间差分 返回 更新规则 Ms Mh Ps Ph 返回 返回 返回 * * *
显示全部