强化学习基础和马尔科夫决策过程
强化学习基本过程
强化学习基本要素
- 模型
- 政策
- 价值
深度学习不同点
- 没有标签,只有反馈
- 学习的过程来自于试错
- 学习的反馈有延迟
- 动作会影响数据
- 观察数据有时间的关联
马尔科夫基本过程(MDP)
马尔科夫过程的下一状态只取决于当前状态
马尔科夫奖励过程
- S:state
- R: Reward,$R(s_t=s)$
- Discount factor $\gamma\in [0,1]$
- P:dynamics/transition model
Horizon
- Number of maximum time steps in each episode
- Can be infinite,otherwise called finite Markov (reward) Process
Return
可以看出随着时间变化,奖励值会衰减,只有离开某个状态才能获得奖励,所以奖励来自于未来的状态
state value function Vt(s) for a MRP
Expected
Discount Factor $\gamma$
可以作为强化学习的超参数调整
- 当$\gamma=0$,奖励只取决于当前状态
Bellman equation
Bellman方程描述了状态的迭代关系
也可以写为矩阵的形式
我们可以通过矩阵求逆的过程求出V
矩阵求逆的计算量太大,所以我们一般用迭代的方法求解
- 动态规划法
- 蒙特卡洛采样法
- Temporal-Difference learning
蒙特卡洛法
动态规划
马尔科夫决策过程
增加了一个动作
- S:state
- A: action
- R: Reward,$R(s_t=s)$
- Discount factor $\gamma\in [0,1]$
- P:dynamics/transition model $P(s_{t+1}=s’|s_t=s,a_t=a$
Policy
- policy决定了当前采取的策略
- Policy:$\pi(a|s)=P(a_t=a|a_t=s)$
- Policies are stationary (time-independent),$A_t~ \pi(a|s)$ for any t > 0
- Given an MDP $(S,A, P,R,\gamma)$ and a policy $\pi$
- The state sequence S1, S2,… is a Markov process $(S, P^\pi)$
- The state and reward sequence S1,R2,S2, R2,… is a Markov reward
process (S, PT,R”, ) where,
当policy$\pi$已知时,马尔科夫决策过程会转化为马尔科夫奖励过程
马尔科夫决策过程的下一状态先由当前状态采取的决策决定
State Value Function
action-value function
状态价值函数和动作价值函数的关系
Bellman Equation
$v^\pi$表示了采用policy$\pi$得到奖励的期望
马尔科夫决策过程的预测和控制
- 预测
- 预测价值
- 控制
- 寻找最佳策略
predition
尝试所有策略,收敛后得到价值函数
optimal value function and policy
如何寻找最佳的policy?
最佳行为可以定义为
policy search
策略搜索的方法主要有以下两种
policy iteration
策略迭代算法有两个步骤
- 估计当前政策价值函数
- 采用贪心算法改进策略
policy improvwment
- 计算当前策略价值
- 计算新政策价值
value iteration
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 摸黑干活!
评论