2025-06-072025-06-07 随手记 2 分钟读完 (大约357个字) 0次访问

利用 user embedding 去搜索 knn 的 item embedding
[[石塔西]]
- 召回(负)样本的艺术：随机采样得到
- pairwise loss
  - 预测的目标是MatchScore(user, item+)要远高于MatchScore(user, item-)
- 分成 item- 和 item+，需求不同
  - 参考[[Word2Vec]]采集正负 item使用的概率公式
  - 降低热门item成为item+的可能性 #card
    - $P_{p o s}\left(w_{i}\right)=\left(\sqrt{\frac{z\left(w_{i}\right)}{a}}+1\right) \cdot \frac{a}{z\left(w_{i}\right)}$
    - 罕见 item 只要被点击就一定是正样本，热门 item 降低频率
    - {{embed skip gram 样本进行抽样：词频高的词(the)会在样本中大量出现，远远超过需要的训练样本数。

}}

    + 

  + 提升热门item成为item-的概率 #card
    + 热门 item 当成是 item- 是hard negative

    + 冷门 item 是 easy negative

    + $P_{n e g}\left(w_{i}\right)=\frac{f\left(w_{i}\right)^{b}}{\sum_{w^{\prime}} f\left(w^{\prime}\right)^{b}}$

      + b 等于0 不打压

      + b=1 打压最厉害

    + {{embed  NEG：负向样本太多，选取部分负样本来更新。可以作为 HS 的一种替代。

}}

inverse probability weighting，对样本热度重调权
多路召回不需要打压，还是要区分场景
- 视频、微博等内容平台
热门样本样本单独召回
- [[RP]] 高热库

作者

Ryen Xiang

发布于

2025-06-07

更新于

2025-06-07

热门打压

作者

发布于

更新于

许可协议

网络回响

评论

最新文章