辨析对比学习与向量化召回

对比学习与向量化召回的区别

  • 首先,向量召回属于有监督学习,对比学习属于自监督学习 #card

    • 这些正样本都来源于用户反馈(标注)​。

      • 在I2I召回中,被同一个用户点击过的物料在向量空间中是相近的。

      • U2I召回中,用户与其点击过的物料在向量空间是相近的。

    • 对比学习不需要用户标注。

      • 用户与其增强版本,物料与其增强版本,

      • 这些正样本都是我们根据一定规则制造出来的。

  • 其次,向量召回重点关注的是负样本。#card

    • 大型推荐系统中的用户反馈源源不断,正样本从来都不是问题。

    • 而对于对比学习,重点、难点恰恰是如何制造正样本。

      • 也就是给定用户或物料,如何增强出与其相似的用户或物料信息。
    • 推荐模型中的特征以类别特征为主,高维、稀疏且相互关联(比如被一个用户点击过的多个物料之间可能存在时序、因果关系)​,简单粗暴地“增强”​,反而降低了产生的正样本的可信度。

    • 因此,阅读将对比学习应用于推荐场景的文章时,重点是看其“数据增强”方法有何创新,其他方面如负样本策略、模型结构、损失设计往往都是向量召回中的常规套路,无甚新意。

  • 最后,向量化召回是主任务,比如替用户找到他喜欢的物料,对推荐效果负直接责任。#card

    • 而对比学习的目的,仅仅是为了纠正模型对小众用户、冷门物料这些少数群体的偏见。

    • 对比学习作为辅助任务,只存在于训练阶段,并不上线,间接影响推荐效果。

作者

Ryen Xiang

发布于

2025-06-07

更新于

2025-06-13

许可协议


网络回响

评论