2020-09-062024-09-08 智能路 3 分钟读完 (大约438个字) 0次访问

李宏毅强化学习课程笔记 Sparse Reward

我的笔记汇总：

Reward Shaping

如果 reward 分布非常稀疏的时候，actor 会很难学习，所以刻意设计 reward 引导模型学习。

Curiosity Intrinsic Curiosity module (ICM)

在原来 Reward 函数的基础上，引入 ICM 函数。ICM 鼓励模型去探索新的动作。最后 ICM 和 Reward 和越大越好。

鼓励探索新动作之后，会导致系统风险变大。对比预测的下一个状态和真正的状态的差异程度进行抑制。

Feature Ext 对状态进行抽取，过滤没有意义的内容。
Network 1 预测下一个状态，然后再和真实状态计算 diff 程度。
Network 2 预测 action，和真实的 action 进行对比。如果两个 action 接近，说明 f 可以进行特征提取。重要程度计算。

Curriculum Learning

规划学习路线，从简单任务学习。

Reverse Curriculum Generation

Hierarchical Reinforcement Learning

对 agent 分层，高层负责定目标，分配给底层 agent 执行。如果低一层的agent没法达到目标，那么高一层的agent会受到惩罚（高层agent将自己的愿景传达给底层agent）。

如果一个agent到了一个错误的目标，那就假设最初的目标本来就是一个错误的目标（保证已经实现的成果不被浪费）

李宏毅强化学习课程笔记 Sparse Reward

https://blog.xiang578.com/post/reinforce-learnning-basic-sparse-reward.html

作者

Ryen Xiang

发布于

2020-09-06

更新于

2024-09-08

许可协议

algorithm, Reinforcement Learning

李宏毅强化学习课程笔记 Sparse Reward

Reward Shaping

Curiosity Intrinsic Curiosity module (ICM)

Curriculum Learning

Hierarchical Reinforcement Learning

作者

发布于

更新于

许可协议

相关文章

网络回响

评论

目录

最新文章

李宏毅强化学习课程笔记 Sparse Reward

Reward Shaping

Curiosity Intrinsic Curiosity module (ICM)

Curriculum Learning

Hierarchical Reinforcement Learning

作者

发布于

更新于

许可协议

相关文章

李宏毅强化学习课程笔记 Actor Critic

李宏毅强化学习课程笔记 Imitation Learning

李宏毅强化学习课程笔记 PG PPO Q-Learing

网络回响

评论

目录

最新文章