2025-06-072025-06-08 随手记 4 分钟读完 (大约526个字) 0次访问

问题来了：为什么RL是work的，如何设计更有效的RL方法？

关于第一点，ds(deepseek)在少量数据上做RL微调就能很大程度上改善模型表现。实验结果如下图所示

RL改善的指标是 $\mathrm{Maj} @ \mathrm{~K}$ 而不是 Pass＠K，说明RL改善的是 :-> 模型TopK的结果的能力而不是模型的基础能力。
[[Reasoning-Decision Alignment]]也是类似的，通过一系列 偏好对齐 策略来提升模型推理表现。

第二点，如何设计高效的RL算法？

数据层面，只用了指令微调阶段的问题然后做采样。#card
- 这这可能也是GRPO值改进 $\mathrm{Maj} @ \mathrm{~K}$ 的原因，未来需要尝试分布之外(out-of-distribution)的问题提示，同时优化采样策略。
- 另外有效的推断技术决定了策略模型的探索效率，也是可能的改进点。
算法层面，所有方法都根据奖励信号来进行训练(增加或降低对应的token条件概率)，但奖励信号并不总是可靠的，尤其在极端复杂的任务上。#card
- 因此需要探索对奖励信号噪音比较鲁棒的RL算法。
- ds提到像WEAK-TO-STRONG的对齐方法能够有效提升模型的基础能力。
奖励函数，ds认为在RL中奖励模型有三个改进方向
- 如何改进奖励模型的泛化能力使得奖励模型能够处理out-of-distribution问题，否则RL只能提升LLM的特定数据分布的能力而不是基础能力
- 如何衡量奖励模型的不确定度，有了不确定度，可以将weak奖励模型提升为 weak-to-strong学习算法。
- 如何构建 细粒度的过程奖励 模型，对于一个问题等最后的token输出后判断答案质量是容易的，但对于推断过程中的奖励还不能很好的建模

问题来了：为什么RL是work的，如何设计更有效的RL方法？

https://blog.xiang578.com/post/logseq/问题来了：为什么RL是work的，如何设计更有效的RL方法？.html

作者

Ryen Xiang

发布于

2025-06-07

更新于

2025-06-08

许可协议

网络回响

评论