探索与利用问题的难点
(1)利用占主导,但探索必须执行的情形。#card
比如新物料和老物料,新物料即使再差也必须曝光,平台必须让作者和商家进来,继续创作或付费。
但是排序模型的特点是利用为主(想一想精排模型的特点,一个没有过往正样本的新物料在排序中是否能高于过往正样本很多的老物料呢?),相比于老物料,新物料一定吃亏。
这时需要有策略或其他手段强行保住新物料的量,那么长期来看利用亏多少给探索就是个问题。实
际中我们可以观察物料的新、老程度来判断探索与利用二者的比重。
(2)如何平衡长期和短期收益?#card
这里的典型例子是用户兴趣的探索,用户的兴趣是未知的,当前系统已经知道他对游戏感兴趣,那么对其他兴趣,如直播这种强相关的是否感兴趣呢?做饭、农业等是否感兴趣呢?
给当前用户推荐这些内容,有可能给他打开新世界的大门,让他的体验变得更好,但在短期内也可能会造成用户反感,要如何平衡一个不确定的长期收益和短期收益的关系,又如何估计长期收益呢?
(3)目前拿到性能的点有多置信?#card
比如前面在多任务上的权重,CEM“投针”的过程就是探索,可每个点占据的流量并不多,出于迭代考虑,每个点收集数据的时间也不长,那么得到的数据就有噪声的影响。
如果观测到的这一轮最好的点比上一轮最好的点没提升多少,那有没有可能上一个点是一个被流量埋没的好点呢?
此时应该怎么办?是否要,或者以什么形式把它再拿回来尝试呢?