强化学习
moc
[[强化学习问题的基本概念]]
[[强化学习与 Markov Decision Process]]
[[强化学习的 Bellman Equation]]
[[Monte-Carlo 和 Temporal-difference]]
- [[Temporal-difference]]
- [[Q-Learning]]
- [[SARSA]]
[[On-Policy & Off-Policy]]
[[强化学习中不同的方法]]
- [[价值函数]]
- [[Value-base Learning]]
- [[Policy-base Learning]]
- [[Policy Gradient]]
- [[策略梯度定理]]
- 基础
- [[REINFORCE]]
- [[Actor-Critic]]
- [[Policy Gradient with Baseline]]
- [[REINFORCE with Baseline]]
- [[Advantage Actor-Critic]] A2C
- [[Policy Gradient]]
[[Q-Learning]] TD,value-base 方法,利用 critic 网络评价 actor 。
- 通过 {{c1 状态价值函数 $V^{\pi}(s)$}} 衡量 {{c2 预期的期望}}
- [[DQN]] 相对于 Q-Learning 的改进点 → 用 NN 拟合 Q table
- $Q(s, a ; \theta) \approx Q^*(s, a)$
- [[Noisy DQN]]
- [[DQN 高估现象]]
- [[DQN 中的自举]]
- [[自举对 DQN 训练的影响]]
- [[DQN 中的自举]]
- [[DQN 的改进]]
- [[Continuous Actions]] action 是连续向量时,如何用 Q-Learning 解决。
- [[为什么 DQN 不适用于连续空间?]]
[[Policy Gradient]]
- 为什么要用蒙特卡洛搜索? → 解决搜索空间庞大的时候,很难对每一个操作都采样充分,利用搜索得到一个比较恰当的得分。
- 前面介绍的 PG 属于 On-policy。每一次更新参数 $$\theta$$ 后,需要重新进行采样,时间开销大。
- [[PPO]]
思考怎么定义采取动作后的 reward 和最大 reward 的差异以及用什么方法更新参数。
[[Sparse Reward]]
- [[Reward Shaping]]