《机器学习与Python实践》课件_13-强化学习.pptx
强化学习课程大纲;课程大纲-强化学习基础;两种人工智能任务类型;决策和预测的不同;序列决策(SequentialDecisionMaking)
;强化学习定义;强化学习交互过程;在与动态环境的交互中学习;课程大纲-强化学习基础;随机过程;随机过程;马尔可夫过程;马尔可夫决策过程;MDP五元组;MDP的动态性;MDP的动态性;REVIEW:在与动态环境的交互中学习;和动态环境交互产生的数据分布;占用度量和策略;占用度量和策略;占用度量和累计奖励;课程大纲-强化学习基础;MDP中智能体的目标和策略;价值函数的Bellman等式;最优价值函数;价值迭代和策略迭代;价值迭代;价值迭代例子:最短路径;策略迭代;策略迭代;举例:策略评估;举例:策略评估;举例:策略评估;价值迭代vs.策略迭代;课程大纲-强化学习基础;模型无关的强化学习;值函数估计;蒙特卡罗方法;蒙特卡罗方法;蒙特卡罗价值估计;蒙特卡罗价值估计;增量蒙特卡罗更新;时序差分学习;蒙特卡罗vs.时序差分(MCvs.TD);驾车回家的例子;驾车回家的例子(MCvs.TD);蒙特卡罗(MC)和时序差分(TD)的优缺点;蒙特卡罗(MC)和时序差分(TD)的优缺点(2);随机游走的例子;随机游走的例子;蒙特卡罗的值更新;时序差分的值更新;动态规划的值更新;课程大纲-强化学习基础;动作值函数Q;SARSA;使用SARSA的在线策略控制;SARSA算法;SARSA示例:WindyGridworld;SARSA示例:WindyGridworld;Q学习;离线策略学习;Q学习;使用Q学习的离线策略控制;Q学习控制算法;Q学习控制算法;SARSA与Q学习对比实验;课程大纲-强化学习基础;参数化值函数近似;基于随机梯度下降(SGD)的值函数近似;特征化状态;线性状态值函数近似;蒙特卡罗状态值函数近似;时序差分状态值函数近似;状态-动作值函数近似;线性状态-动作值函数近似;时序差分状态-动作值函数近似;时序差分状态-动作值函数近似;时序差分学习参数更新过程;课程大纲-强化学习基础;参数化策略;基于策略的强化学习;策略梯度;单步马尔可夫决策过程中的策略梯度;似然比(LikelihoodRatio);策略梯度定理;蒙特卡罗策略梯度(REINFORCE);蒙特卡罗策略梯度(REINFORCE);PuckWorld冰球世界示例;REINFORCE存在的问题;Actor-Critic;Actor-Critic训练;A2C:AdvantageousActor-Critic;A2C:AdvantageousActor-Critic;本课总结:强化学习基础