强化学习
moc
[[什么是强化学习?]]
[[强化学习问题的基本概念]]
[[强化学习与 Markov Decision Process]]
[[强化学习的 Bellman Equation]]
[[Monte-Carlo 和 Temporal-difference]]
[[On-Policy & Off-Policy]]
[[强化学习中不同的方法]]
- [[强化学习价值函数]]
- [[Value-base Learning]]
- [[Policy-base Learning]]
- [[Policy Gradient]]
- [[策略梯度定理的证明]]
- 基础
- [[REINFORCE]]
- [[Actor-Critic]]
- [[Policy Gradient with Baseline]]
- [[REINFORCE with Baseline]]
- [[Advantage Actor-Critic]] A2C
- [[Policy Gradient]]
[[Q-Learning]] :<-> TD,value-base 方法,利用 critic 网络评价 actor 。
id:: 66659fef-459f-4f58-9bb5-a1efe7e00d0b
- 通过状态价值函数 :<-> 衡量预期的期望。
id:: 66c0ade2-fb3b-43b7-bacd-847e911e2325- V 和 pi、s 相关。
- [[DQN]] 相对于 Q-Learning 的改进点 :<-> 用 NN 拟合 Q table
id:: 66a666be-96de-4c9d-b20c-e4bf024ff8c5 - [[DQN 的改进]]
- [[Continuous Actions]] action 是连续向量时,如何用 Q-Learning 解决。
- [[为什么 DQN 不适用于连续空间?]]
[[Policy Gradient]]
- 为什么要用蒙特卡洛搜索? :-> 解决搜索空间庞大的时候,很难对每一个操作都采样充分,利用搜索得到一个比较恰当的得分。
id:: 66a8850e-4a13-476b-a729-7f2719caf8af - 前面介绍的 PG 属于 On-policy。每一次更新参数 $$\theta$$ 后,需要重新进行采样,时间开销大。
- [[PPO]]
思考怎么定义采取动作后的 reward 和最大 reward 的差异以及用什么方法更新参数。