粗排样本选择

粗排训练样本选择最简单的可以复用精排模型的样本,#card

  • 一方面复用链路节省资源,

  • 另一方面方便与精排特征对齐,维护简单以及便于联合优化;

然而如上提到的,粗排和精排样本的打分空间分布并不一致,直接使用精排样本训练粗排模型,将会使得粗排模型对于大量少曝光的样本打分存在偏差。#card

  • 常见的缓解方法可以尝试增加随机样本做负样本(或者同类目等限制下随机负采样增加样本难度);

另一种思路则是使粗排尽可能推荐精排偏好的商品,具体实现可以将精排排序topN的样本作为正样本,其他为负样本等方法,#card

  • 此外精排模型蒸馏也可以理解为该思路的一种实现方式。

  • 样本选择空间偏差问题解的决方法不止如此,且无标准答案,很多时候还是需要不断实验改进,才能找到适合自己场景的样本选择方法。

作者

Ryen Xiang

发布于

2025-04-20

更新于

2025-04-20

许可协议


网络回响

评论