强化学习

moc

[[什么是强化学习?]]

[[强化学习问题的基本概念]]

[[强化学习与 Markov Decision Process]]

[[强化学习的 Bellman Equation]]

[[Monte-Carlo 和 Temporal-difference]]

[[On-Policy & Off-Policy]]

[[强化学习中不同的方法]]

  • [[强化学习价值函数]]
  • [[Value-base Learning]]
  • [[Policy-base Learning]]
    • [[Policy Gradient]]
      • [[策略梯度定理的证明]]
    • 基础
      • [[REINFORCE]]
      • [[Actor-Critic]]
    • [[Policy Gradient with Baseline]]
      • [[REINFORCE with Baseline]]
      • [[Advantage Actor-Critic]] A2C

[[Q-Learning]] :<-> TD,value-base 方法,利用 critic 网络评价 actor 。
id:: 66659fef-459f-4f58-9bb5-a1efe7e00d0b

  • 通过状态价值函数 Vπ(s)V^{\pi}(s) :<-> 衡量预期的期望。
    id:: 66c0ade2-fb3b-43b7-bacd-847e911e2325
    • V 和 pi、s 相关。
  • [[DQN]] 相对于 Q-Learning 的改进点 :<-> 用 NN 拟合 Q table
    id:: 66a666be-96de-4c9d-b20c-e4bf024ff8c5
    • Q(s,a;θ)Q(s,a)Q(s, a ; \theta) \approx Q^*(s, a)
  • [[DQN 的改进]]
  • [[Continuous Actions]] action 是连续向量时,如何用 Q-Learning 解决。
  • [[为什么 DQN 不适用于连续空间?]]

[[Policy Gradient]]

  • 为什么要用蒙特卡洛搜索? :-> 解决搜索空间庞大的时候,很难对每一个操作都采样充分,利用搜索得到一个比较恰当的得分。
    id:: 66a8850e-4a13-476b-a729-7f2719caf8af
  • 前面介绍的 PG 属于 On-policy。每一次更新参数 $$\theta$$ 后,需要重新进行采样,时间开销大。
  • [[PPO]]

思考怎么定义采取动作后的 reward 和最大 reward 的差异以及用什么方法更新参数。

作者

Ryen Xiang

发布于

2024-07-30

更新于

2024-08-29

许可协议


网络回响

评论