文档详情

机器学习 课件 12.2马尔可夫决策过程.pdf

发布:2025-04-06约1.08万字共43页下载文档
文本预览下载声明

马尔可夫决策过程——MDP

自编码

MDP基本概念

1

马尔可夫决策过程——MDP

MDP基本概念

•强化学习的基本框架

马尔可夫决策过程——MDP

MDP基本概念

•马尔科夫性Markovproperty

马尔可夫决策过程——MDP

MDP基本概念

•马尔科夫性Markovproperty

•系统的下一个状态仅与当前状态有关,而与以前的状态无

1

关。

马尔可夫决策过程——MDP

MDP基本概念

•马尔科夫性Markovproperty

•系统的下一个状态仅与当前状态有关,而与以前的状态无

1

关。

•即|=|,…,

111

马尔可夫决策过程——MDP

MDP基本概念

•马尔科夫性Markovproperty

•系统的下一个状态仅与当前状态有关,而与以前的状态无

1

关。

•即|=|,…,

111

马尔可夫决策过程——MDP

MDP基本概念

•马尔科夫过程Markovprocess

马尔可夫决策过程——MDP

MDP基本概念

•马尔科夫过程Markovprocess

•马尔科夫过程是一个二元组,且满足:是有限状态集合,

状态转移概率。

•状态转移概率矩阵为:

1⋯

=⋮⋱⋮

1⋯

马尔可夫决策过程——MDP

MDP基本概念

•马尔科夫过程示例

0.9

娱乐睡觉1.0

0.10.50.2

0.50.80.6

课1课2课3考过

0.40.4

0.2论文0.4

马尔可夫决策过程——MDP

MDP基本概念

•马尔科夫过程示例

•课1-课2-课3-考过-睡觉

•课1-课2-睡觉

马尔可夫决策过程——MDP

MDP基本概念

•马尔科夫过程示例

•课1-课2-课3-考过-睡觉

•课1-课2-睡觉

——马尔科夫链Markovchain

——给定转移概率时,从某状

态出发存在多条马尔科夫链

马尔可夫决策过程——MDP

MDP基本概念

•马尔科夫决策过程Markovdecisionprocess

马尔可夫决策过程——MDP

MDP基本概念

•马尔科夫决策过程Markovdecisionprocess

显示全部
相似文档