@Mobius: Towards the next generation of query-ad matching in Baidu's sponsored search
搜索广告场景
-
Mobius的模型架构同样是双塔结构,不同于常规的二分类任务,这里可以认为是3个任务,user&query tower的输出向量和ad tower的输出向量分别分成三份,分别对应计算向量匹配分,#card
- 相应地分别预测点击、不点击以及是否为高点击的相关性badcase。
-
三个任务的logist输出经过softmax层归一化得到u-q-ad的pair对各任务的概率。通过这种方式,Mobius实际上将样本标签分成了三个类:#card
- 高点击但不相关、相关&低点击率、相关&高点击率,实现在相关性基础上的CTR建模。
模型使用历史点击日志作为基础数据集(<user/query,ad,clicked/unclicked> 对)。为了实现上述的三分类,还需要一个是否为badcase的label。这里使用相关性Teacher模型(预先训练好的)根据阈值来判断pair对是否相关,随后将样本送到CTR模型(Neural Click Model),进而找到低相关且高点击的样本作为badcase。得到bad标签后,进行CTR模型训练和参数更新,由此循环迭代,伪代码如下:#card
@Mobius: Towards the next generation of query-ad matching in Baidu's sponsored search