机器学习 课件 12.2马尔可夫决策过程.pdf
马尔可夫决策过程——MDP
自编码
MDP基本概念
1
马尔可夫决策过程——MDP
MDP基本概念
•强化学习的基本框架
马尔可夫决策过程——MDP
MDP基本概念
•马尔科夫性Markovproperty
马尔可夫决策过程——MDP
MDP基本概念
•马尔科夫性Markovproperty
•系统的下一个状态仅与当前状态有关,而与以前的状态无
1
关。
马尔可夫决策过程——MDP
MDP基本概念
•马尔科夫性Markovproperty
•系统的下一个状态仅与当前状态有关,而与以前的状态无
1
关。
•即|=|,…,
111
马尔可夫决策过程——MDP
MDP基本概念
•马尔科夫性Markovproperty
•系统的下一个状态仅与当前状态有关,而与以前的状态无
1
关。
•即|=|,…,
111
马尔可夫决策过程——MDP
MDP基本概念
•马尔科夫过程Markovprocess
马尔可夫决策过程——MDP
MDP基本概念
•马尔科夫过程Markovprocess
•马尔科夫过程是一个二元组,且满足:是有限状态集合,
状态转移概率。
•状态转移概率矩阵为:
1⋯
=⋮⋱⋮
1⋯
马尔可夫决策过程——MDP
MDP基本概念
•马尔科夫过程示例
0.9
娱乐睡觉1.0
0.10.50.2
0.50.80.6
课1课2课3考过
0.40.4
0.2论文0.4
马尔可夫决策过程——MDP
MDP基本概念
•马尔科夫过程示例
•课1-课2-课3-考过-睡觉
•课1-课2-睡觉
马尔可夫决策过程——MDP
MDP基本概念
•马尔科夫过程示例
•课1-课2-课3-考过-睡觉
•课1-课2-睡觉
——马尔科夫链Markovchain
——给定转移概率时,从某状
态出发存在多条马尔科夫链
马尔可夫决策过程——MDP
MDP基本概念
•马尔科夫决策过程Markovdecisionprocess
马尔可夫决策过程——MDP
MDP基本概念
•马尔科夫决策过程Markovdecisionprocess