强化学习
moc
[[强化学习问题的基本概念]]
[[强化学习与 Markov Decision Process]]
[[强化学习的 Bellman Equation]]
[[Monte-Carlo 和 Temporal-difference]]
[[Temporal-difference]]
[[Q-Learning]]
[[Sarsa]]
[[On-Policy & Off-Policy]]
[[强化学习中不同的方法]]
[[价值函数]]
[[Value-base Learning]]
[[Policy-base Learning]]
[[Policy Gradient]]
- [[策略梯度定理]]
基础
[[REINFORCE]]
[[Actor-Critic]]
[[Policy Gradient with Baseline]]
[[REINFORCE with Baseline]]
[[Advantage Actor-Critic]] A2C
[[Q-Learning]] TD,value-base 方法,利用 critic 网络评价 actor 。
通过 状态价值函数 $V^{\pi}(s)$ 衡量 预期的期望
[[DQN]] 相对于 Q-Learning 的改进点 :-> 用 NN 拟合 Q table
- $Q(s, a ; \theta) \approx Q^*(s, a)$
[[Noisy DQN]]
[[DQN 高估现象]]
[[DQN 中的自举]]
- [[自举对 DQN 训练的影响]]
[[DQN 的改进]]
[[Continuous Actions]] action 是连续向量时,如何用 Q-Learning 解决。
[[为什么 DQN 不适用于连续空间?]]
[[Policy Gradient]]
为什么要用蒙特卡洛搜索? :-> 解决搜索空间庞大的时候,很难对每一个操作都采样充分,利用搜索得到一个比较恰当的得分。
前面介绍的 PG 属于 On-policy。每一次更新参数 $$\theta$$ 后,需要重新进行采样,时间开销大。
思考怎么定义采取动作后的 reward 和最大 reward 的差异以及用什么方法更新参数。
[[Sparse Reward]]
- [[reward shaping]]