向量化召回统一建模框架

如何定义正样本,即哪些q和t在向量空间内应该相近;

  • 取决于不同的召回场景

    • I2I召回。 q 和 t 是物料。 #card

      • 比如我们认为同一个用户在同一个会话(session,间隔时间较短的用户行为序列)交互过(例如点击,观看,购买等)的两个物料,在向量空间是相近的。这体现的是两个物料的相似性。
    • U2I召回。 qq 是用户,tt 是物料。#card

      • 一个用户与其交互过的物料在向量空间中应该是相近的。这体现的是用户与物料的匹配性。
    • U2U召回。 qqtt 都是用户。#card

      • 比如使用孪生网络,qq 是用户一半的交互历史,tt 是同一用户另一半交互历史,二者在向量空间应该是相近的,这体现的是同一性。

如何定义负样本,即哪些q和t在向量空间内应该较远;#card

  • [[负样本主要靠随机采样]]

  • hard negative

如何将q和t映射成Embedding;#card

  • 排序鼓励交叉,召回要求解耦。

如何定义优化目标,即损失函数。#card

  • 多分类的Softmax Loss,只要求把正样本的概率值预测得越高越好。正样本来自用户真实反馈,负样本往往未曾想用户曝光过。

    • nce loss

      • [[Noise Contrastive Estimation]]
    • Sampled Softmax Loss

  • LTR 思想,把用户喜欢的排在前面,最求排序的相对准确

作者

Ryen Xiang

发布于

2025-04-30

更新于

2025-04-30

许可协议


网络回响

评论