为什么要探索与利用
在CV、NLP、语音识别等领域好像从来没有探索与利用这个概念。为什么在推荐、广告中就需要了呢?#card
原因在于是否可以直接获取真值。常见的CV任务是分类一个物体是什么,例如,识别一幅猫的图像,真值就是猫,人可以直接说出这些任务的真值。
但是在推荐中是不行的,就算针对是你朋友的用户推荐一系列视频,你也无法确切地说他就会点击哪些。
所以,无法直接得到结果,就只能通过探索来收集真值,这也是为什么在强化学习中总是提到探索与利用问题的原因。
代理和环境的交互是复杂且未知的,有时动作的空间很大,如果不探索,我们就无法获取当前动作对环境的影响是什么,更不用说输出改进的决策了。