强化学习

moc

[[什么是强化学习?]]

[[强化学习问题的基本概念]]

[[强化学习与 Markov Decision Process]]

[[强化学习的 Bellman Equation]]

[[Monte-Carlo 和 Temporal-difference]]

  • [[Temporal-difference]]

    • [[Q-Learning]]

    • [[Sarsa]]

[[On-Policy & Off-Policy]]

[[强化学习中不同的方法]]

  • [[价值函数]]

  • [[Value-base Learning]]

  • [[Policy-base Learning]]

    • [[Policy Gradient]]

      • [[策略梯度定理]]
    • 基础

      • [[REINFORCE]]

      • [[Actor-Critic]]

    • [[Policy Gradient with Baseline]]

      • [[REINFORCE with Baseline]]

      • [[Advantage Actor-Critic]] A2C

[[Q-Learning]] TD,value-base 方法,利用 critic 网络评价 actor 。

  • 通过 状态价值函数 Vπ(s)V^{\pi}(s) 衡量 预期的期望

  • [[DQN]] 相对于 Q-Learning 的改进点 :-> 用 NN 拟合 Q table

    • Q(s,a;θ)Q(s,a)Q(s, a ; \theta) \approx Q^*(s, a)
  • [[Noisy DQN]]

  • [[DQN 高估现象]]

    • [[DQN 中的自举]]

      • [[自举对 DQN 训练的影响]]
  • [[DQN 的改进]]

  • [[Continuous Actions]] action 是连续向量时,如何用 Q-Learning 解决。

  • [[为什么 DQN 不适用于连续空间?]]

[[Policy Gradient]]

  • 为什么要用蒙特卡洛搜索? :-> 解决搜索空间庞大的时候,很难对每一个操作都采样充分,利用搜索得到一个比较恰当的得分。

  • 前面介绍的 PG 属于 On-policy。每一次更新参数 $$\theta$$ 后,需要重新进行采样,时间开销大。

  • [[PPO]]

思考怎么定义采取动作后的 reward 和最大 reward 的差异以及用什么方法更新参数。

[[Sparse Reward]]

  • [[reward shaping]]
作者

Ryen Xiang

发布于

2024-07-30

更新于

2024-12-08

许可协议


网络回响

评论