强化学习
moc
[[强化学习问题的基本概念]]
[[强化学习与 Markov Decision Process]]
[[强化学习的 Bellman Equation]]
[[Monte-Carlo 和 Temporal-difference]]
-
[[Temporal-difference]]
-
[[Q-Learning]]
-
[[Sarsa]]
-
[[On-Policy & Off-Policy]]
[[强化学习中不同的方法]]
-
[[价值函数]]
-
[[Value-base Learning]]
-
[[Policy-base Learning]]
-
[[Policy Gradient]]
- [[策略梯度定理]]
-
基础
-
[[REINFORCE]]
-
[[Actor-Critic]]
-
-
[[Policy Gradient with Baseline]]
-
[[REINFORCE with Baseline]]
-
[[Advantage Actor-Critic]] A2C
-
-
[[Q-Learning]] TD,value-base 方法,利用 critic 网络评价 actor 。
-
通过 状态价值函数 衡量 预期的期望
-
[[DQN]] 相对于 Q-Learning 的改进点 :-> 用 NN 拟合 Q table
-
[[Noisy DQN]]
-
[[DQN 高估现象]]
-
[[DQN 中的自举]]
- [[自举对 DQN 训练的影响]]
-
-
[[DQN 的改进]]
-
[[Continuous Actions]] action 是连续向量时,如何用 Q-Learning 解决。
-
[[为什么 DQN 不适用于连续空间?]]
[[Policy Gradient]]
-
为什么要用蒙特卡洛搜索? :-> 解决搜索空间庞大的时候,很难对每一个操作都采样充分,利用搜索得到一个比较恰当的得分。
-
前面介绍的 PG 属于 On-policy。每一次更新参数 $$\theta$$ 后,需要重新进行采样,时间开销大。
-
[[PPO]]
思考怎么定义采取动作后的 reward 和最大 reward 的差异以及用什么方法更新参数。
[[Sparse Reward]]
- [[reward shaping]]