热门打压

DONE 推荐系统传统召回是怎么实现热门item的打压? - 知乎 (zhihu.com)

  • 利用 user embedding 去搜索 knn 的 item embedding

  • [[石塔西]]

    • 召回(负)样本的艺术:随机采样得到

    • pairwise loss

      • 预测的目标是MatchScore(user, item+)要远高于MatchScore(user, item-)
    • 分成 item- 和 item+,需求不同

      • 参考[[Word2Vec]]采集正负 item使用的概率公式

      • 降低热门item成为item+的可能性 #card

        • Ppos(wi)=(z(wi)a+1)az(wi)P_{p o s}\left(w_{i}\right)=\left(\sqrt{\frac{z\left(w_{i}\right)}{a}}+1\right) \cdot \frac{a}{z\left(w_{i}\right)}

        • 罕见 item 只要被点击就一定是正样本,热门 item 降低频率

        • {{embed skip gram 样本进行抽样:词频高的词(the)会在样本中大量出现,远远超过需要的训练样本数。
          }}

      • 提升热门item成为item-的概率 #card

        • 热门 item 当成是 item- 是hard negative

        • 冷门 item 是 easy negative

        • Pneg(wi)=f(wi)bwf(w)bP_{n e g}\left(w_{i}\right)=\frac{f\left(w_{i}\right)^{b}}{\sum_{w^{\prime}} f\left(w^{\prime}\right)^{b}}

          • b 等于0 不打压

          • b=1 打压最厉害

        • {{embed NEG:负向样本太多,选取部分负样本来更新。可以作为 HS 的一种替代。
          }}

  • inverse probability weighting,对样本热度重调权

  • 多路召回不需要打压,还是要区分场景

    • 视频、微博等内容平台
  • 热门样本样本单独召回

    • [[RP]] 高热库
作者

Ryen Xiang

发布于

2024-10-05

更新于

2025-04-30

许可协议


网络回响

评论