强化学习

moc

[[什么是强化学习?]]

[[强化学习问题的基本概念]]

[[强化学习与 Markov Decision Process]]

[[强化学习的 Bellman Equation]]

[[Monte-Carlo 和 Temporal-difference]]

  • [[Temporal-difference]]
    • [[Q-Learning]]
    • [[SARSA]]

[[On-Policy & Off-Policy]]

[[强化学习中不同的方法]]

  • [[价值函数]]
  • [[Value-base Learning]]
  • [[Policy-base Learning]]
    • [[Policy Gradient]]
      • [[策略梯度定理]]
    • 基础
      • [[REINFORCE]]
      • [[Actor-Critic]]
    • [[Policy Gradient with Baseline]]
      • [[REINFORCE with Baseline]]
      • [[Advantage Actor-Critic]] A2C

[[Q-Learning]] TD,value-base 方法,利用 critic 网络评价 actor 。

  • 通过 {{c1 状态价值函数 $V^{\pi}(s)$}} 衡量 {{c2 预期的期望}}
  • [[DQN]] 相对于 Q-Learning 的改进点 → 用 NN 拟合 Q table
    • $Q(s, a ; \theta) \approx Q^*(s, a)$
  • [[Noisy DQN]]
  • [[DQN 高估现象]]
    • [[DQN 中的自举]]
      • [[自举对 DQN 训练的影响]]
  • [[DQN 的改进]]
  • [[Continuous Actions]] action 是连续向量时,如何用 Q-Learning 解决。
  • [[为什么 DQN 不适用于连续空间?]]

[[Policy Gradient]]

  • 为什么要用蒙特卡洛搜索? → 解决搜索空间庞大的时候,很难对每一个操作都采样充分,利用搜索得到一个比较恰当的得分。
  • 前面介绍的 PG 属于 On-policy。每一次更新参数 $$\theta$$ 后,需要重新进行采样,时间开销大。
  • [[PPO]]

思考怎么定义采取动作后的 reward 和最大 reward 的差异以及用什么方法更新参数。

[[Sparse Reward]]

  • [[Reward Shaping]]

[[advantage function]]

网络回响

作者

Ryen Xiang

发布于

2024-07-30

更新于

2026-02-17

许可协议


评论