2025-06-072025-06-07 随手记 3 分钟读完 (大约436个字) 0次访问

向量化召回统一建模框架

如何定义正样本，即哪些q和t在向量空间内应该相近；

取决于不同的召回场景
- I2I召回。 q 和 t 是物料。 #card
  - 比如我们认为同一个用户在同一个会话（session，间隔时间较短的用户行为序列）交互过（例如点击，观看，购买等）的两个物料，在向量空间是相近的。这体现的是两个物料的相似性。
- U2I召回。 $q$ 是用户，$t$ 是物料。#card
  - 一个用户与其交互过的物料在向量空间中应该是相近的。这体现的是用户与物料的匹配性。
- U2U召回。 $q$ 和 $t$ 都是用户。#card
  - 比如使用孪生网络，$q$ 是用户一半的交互历史，$t$ 是同一用户另一半交互历史，二者在向量空间应该是相近的，这体现的是同一性。

如何定义负样本，即哪些q和t在向量空间内应该较远；#card

[[负样本主要靠随机采样]]
hard negative

如何将q和t映射成Embedding；#card

排序鼓励交叉，召回要求解耦。

如何定义优化目标，即损失函数。#card

多分类的Softmax Loss，只要求把正样本的概率值预测得越高越好。正样本来自用户真实反馈，负样本往往未曾想用户曝光过。
- nce loss
  - [[Noise Contrastive Estimation]]
- Sampled Softmax Loss
LTR 思想，把用户喜欢的排在前面，最求排序的相对准确
- Pairwise Loss
- [[Marginal Hinge Loss]]
- [[Bayesian Personalized Ranking Loss]]

向量化召回统一建模框架

https://blog.xiang578.com/post/logseq/向量化召回统一建模框架.html

作者

Ryen Xiang

发布于

2025-06-07

更新于

2025-06-07

许可协议

网络回响

评论