2024-07-302026-02-17 智能路 3 分钟读完 (大约405个字) 0次访问

强化学习

moc

[[强化学习问题的基本概念]]

[[强化学习与 Markov Decision Process]]

[[强化学习的 Bellman Equation]]

[[Monte-Carlo 和 Temporal-difference]]

[[On-Policy & Off-Policy]]

[[强化学习中不同的方法]]

[[Q-Learning]] TD，value-base 方法，利用 critic 网络评价 actor 。

通过 {{c1 状态价值函数 $V^{\pi}(s)$}} 衡量 {{c2 预期的期望}}
[[DQN]] 相对于 Q-Learning 的改进点 → 用 NN 拟合 Q table
- $Q(s, a ; \theta) \approx Q^*(s, a)$
[[Noisy DQN]]
[[DQN 高估现象]]
- [[DQN 中的自举]]
  - [[自举对 DQN 训练的影响]]
[[DQN 的改进]]
[[Continuous Actions]] action 是连续向量时，如何用 Q-Learning 解决。
[[为什么 DQN 不适用于连续空间？]]

[[Policy Gradient]]

思考怎么定义采取动作后的 reward 和最大 reward 的差异以及用什么方法更新参数。

[[Sparse Reward]]

强化学习

Ryen Xiang

2024-07-30

2026-02-17