强化学习基本过程

强化学习基本要素

  • 模型
  • 政策
  • 价值

深度学习不同点

  • 没有标签,只有反馈
  • 学习的过程来自于试错
  • 学习的反馈有延迟
  • 动作会影响数据
  • 观察数据有时间的关联

马尔科夫基本过程(MDP)

马尔科夫过程的下一状态只取决于当前状态

马尔科夫奖励过程

  • S:state
  • R: Reward,$R(s_t=s)$
  • Discount factor $\gamma\in [0,1]$
  • P:dynamics/transition model

Horizon

  • Number of maximum time steps in each episode
  • Can be infinite,otherwise called finite Markov (reward) Process

Return

可以看出随着时间变化,奖励值会衰减,只有离开某个状态才能获得奖励,所以奖励来自于未来的状态

state value function Vt(s) for a MRP

Expected

Discount Factor $\gamma$

可以作为强化学习的超参数调整

  • 当$\gamma=0$,奖励只取决于当前状态

Bellman equation

Bellman方程描述了状态的迭代关系

也可以写为矩阵的形式

我们可以通过矩阵求逆的过程求出V

矩阵求逆的计算量太大,所以我们一般用迭代的方法求解

  • 动态规划法
  • 蒙特卡洛采样法
  • Temporal-Difference learning

蒙特卡洛法

动态规划

马尔科夫决策过程

增加了一个动作

  • S:state
  • A: action
  • R: Reward,$R(s_t=s)$
  • Discount factor $\gamma\in [0,1]$
  • P:dynamics/transition model $P(s_{t+1}=s’|s_t=s,a_t=a$

Policy

  • policy决定了当前采取的策略
  • Policy:$\pi(a|s)=P(a_t=a|a_t=s)$
  • Policies are stationary (time-independent),$A_t~ \pi(a|s)$ for any t > 0
  • Given an MDP $(S,A, P,R,\gamma)$ and a policy $\pi$
  • The state sequence S1, S2,… is a Markov process $(S, P^\pi)$
  • The state and reward sequence S1,R2,S2, R2,… is a Markov reward
    process (S, PT,R”, ) where,

当policy$\pi$已知时,马尔科夫决策过程会转化为马尔科夫奖励过程


马尔科夫决策过程的下一状态先由当前状态采取的决策决定

State Value Function

action-value function

状态价值函数和动作价值函数的关系

Bellman Equation


$v^\pi$表示了采用policy$\pi$得到奖励的期望

马尔科夫决策过程的预测和控制

  • 预测
    • 预测价值
  • 控制
    • 寻找最佳策略

predition

尝试所有策略,收敛后得到价值函数

optimal value function and policy

如何寻找最佳的policy?
最佳行为可以定义为

策略搜索的方法主要有以下两种

policy iteration

策略迭代算法有两个步骤

  • 估计当前政策价值函数
  • 采用贪心算法改进策略

policy improvwment
  • 计算当前策略价值
  • 计算新政策价值

value iteration