为什么要探索与利用

在CV、NLP、语音识别等领域好像从来没有探索与利用这个概念。为什么在推荐、广告中就需要了呢?#card

  • 原因在于是否可以直接获取真值。常见的CV任务是分类一个物体是什么,例如,识别一幅猫的图像,真值就是猫,人可以直接说出这些任务的真值。

  • 但是在推荐中是不行的,就算针对是你朋友的用户推荐一系列视频,你也无法确切地说他就会点击哪些。

  • 所以,无法直接得到结果,就只能通过探索来收集真值,这也是为什么在强化学习中总是提到探索与利用问题的原因。

  • 代理和环境的交互是复杂且未知的,有时动作的空间很大,如果不探索,我们就无法获取当前动作对环境的影响是什么,更不用说输出改进的决策了。

作者

Ryen Xiang

发布于

2025-06-07

更新于

2025-06-07

许可协议


网络回响

评论