batch 内负采样

示意图 #card
image.png

优点 #card
image.png

缺点是容易造成样本选择偏差(Sample Selection Bias,SSB)#card

  • 这是因为,召回的正样本来自点击数据,而被点击的多是热门物料。

  • 再加上一个Batch的大小有限,其中的热门物料就更加集中,与召回要被应用于整个物料库的数据环境差距较大。

  • 换句话说,Batch内负采样所采集到的负样本都是Hard Negative(大多数用户都喜欢热门物料),缺少与用户兴趣毫不相关的Easy Negative。

作者

Ryen Xiang

发布于

2025-06-07

更新于

2025-06-22

许可协议


网络回响

评论