粗排样本选择
粗排训练样本选择最简单的可以复用精排模型的样本,#card
-
一方面复用链路节省资源,
-
另一方面方便与精排特征对齐,维护简单以及便于联合优化;
然而如上提到的,粗排和精排样本的打分空间分布并不一致,直接使用精排样本训练粗排模型,将会使得粗排模型对于大量少曝光的样本打分存在偏差。#card
- 常见的缓解方法可以尝试增加随机样本做负样本(或者同类目等限制下随机负采样增加样本难度);
另一种思路则是使粗排尽可能推荐精排偏好的商品,具体实现可以将精排排序topN的样本作为正样本,其他为负样本等方法,#card
-
此外精排模型蒸馏也可以理解为该思路的一种实现方式。
-
样本选择空间偏差问题解的决方法不止如此,且无标准答案,很多时候还是需要不断实验改进,才能找到适合自己场景的样本选择方法。