@Embedding-based Retrieval in Facebook Search
- 除了主要的文本特征,还增加了user和doc的位置、社交关系的side info增强 query和doc 的匹配能力。
- 模型的训练目标#card
-
为双塔输出向量的距离,使正样本对距离尽可能小(相似度分数尽可能大),负样本对距离尽可能大(相似度分数尽可能小)。
-
基线模型的样本构造也比较简单,使用query-doc的点击pair对作为正样本对,负样本有两种选择:#card
-
随机负采样:对每一个query随机从doc池中采样相应比例的负样本。
-
曝光未点击的样本:对于每一个query,随机从session内曝光未点击的样本作为负样本。
-
文中实验显示前者的效果明显强于后者,原因在于后者使得训练样本和后续预测样本有明显的分布不一致,即存在严重的样本选择偏差问题。
向量召回问题
-
候选集离线训练和线上服务的压力
-
matching 问题
[[新召回往往会存在后链路低估的问题,如何克服这个问题带来增量?]] #card
-
将召回生成的embedding作为ranking阶段的特征,可以直接将embedding作为特征或者计算query和doc的embedding各种相似度,通过大量实验证明,consine similarity有较好的结果。
-
为了解决向量召回准确率较低的问题,将向量召回的结果直接进行人工标注,然后再基于标注的结果进行训练。这种方法比较暴力并且效率比较低。
Ref
@Embedding-based Retrieval in Facebook Search
https://blog.xiang578.com/post/logseq/@Embedding-based Retrieval in Facebook Search.html