强化学习算法

引言

在 强化学习基础 文章中我们提到动态规划方法。动态规划作为一种model-based的方法,使用场景具有非常的局限性。本文将从实际应用角度出发,介绍并对比几种model-free的方法。

算法

算法包括:

  • Value-based类

    • 蒙特卡洛MC
    • 时序差分TD:SARSA
    • 时序差分TD:Q-Learning
    • Deep Q-learning
    • Nature DQN
    • Double DQN
    • Prioritized DQN
    • Dueling DQN
  • Policy Gradient

    • reinforce
  • Policy Gradient + Value-based

    • Actor-Critic

image

image

image