2026-02-172026-02-17 随手记 5 分钟读完 (大约807个字) 0次访问

@PPO中有了reward model 为何还要有critic model？

问题 #card

传统 PPO 中的 RM 在哪里？#card
- 这里「环境」就是 RM，它负责建模智能体外部的世界，给出「奖励信号」。
[[reward model]] 在 LLM 应用环境中，我们应用 PPO 算法，是把 LLM 当成智能体，但什么是环境呢？似乎不像下围棋、玩游戏这种传统 RL 场景中那样容易定义，奖励从何而来呢？#card
- 那我们就训练一个 RM 来充当这样角色，它最主要的目标就是给 LLM 这个智能体以「奖励信号」，这个奖励代表了 LLM 的决策（输出响应）有多符合人类的期望或偏好。

Critic 是 LLM 这个智能体的「内部组件」，它的任务是 #card

Critic 是智能体的一部分

如果你对 Actor-Critic 这个经典的 RL 框架有所了解，那就很容易理解了，PPO 就是采用了 Actor-Critic 框架的一种算法，其中 Critic 的作用就是 → 计算优势函数 (Advantage Function)，从而减少策略梯度估计的方差，使训练更稳定、高效。
RM 是 {{c1 外部的奖励信号，是外部环境给与智能体的真实响应}} ——虽然在 LLM 的这个场景里，我们没有特别准确的外部环境建模，退而求其次用另一个训练好的 RM 模型来代替了——而 Critic 是 {{c1 智能体内心对自己答案的评价}} 。

确实可以，其实在 Actor-Critic 框架之前，RL 算法就是这样的，不要「基线」了而已。代价就是 {{c1 方差比较大，训练不稳定 }} 。
近来 LLM 领域的 RL 后训练里，会经常使用一种叫做 GRPO 的算法，是对 PPO 的一个改良。它其实是通过另一种更简单的「估算基线」的方法，取代了 Critic：就是 → 采样多次，用 RM 评价的平均值来充当这个「基线」。

Critic 不是提供额外的奖励来源，而是 {{c1 通过学习预测未来的期望回报}} ，提供了一个动态的基准，用来校准 RM 提供的原始奖励信号，生成更稳定、信息量更大的 Advantage 信号，从而稳定并加速 PPO 的训练。