向量化召回统一建模框架
如何定义正样本,即哪些q和t在向量空间内应该相近;
-
取决于不同的召回场景
-
I2I召回。 q 和 t 是物料。 #card
- 比如我们认为同一个用户在同一个会话(session,间隔时间较短的用户行为序列)交互过(例如点击,观看,购买等)的两个物料,在向量空间是相近的。这体现的是两个物料的相似性。
-
U2I召回。 是用户, 是物料。#card
- 一个用户与其交互过的物料在向量空间中应该是相近的。这体现的是用户与物料的匹配性。
-
U2U召回。 和 都是用户。#card
- 比如使用孪生网络, 是用户一半的交互历史, 是同一用户另一半交互历史,二者在向量空间应该是相近的,这体现的是同一性。
-
如何定义负样本,即哪些q和t在向量空间内应该较远;#card
-
[[负样本主要靠随机采样]]
-
hard negative
如何将q和t映射成Embedding;#card
- 排序鼓励交叉,召回要求解耦。
如何定义优化目标,即损失函数。#card
-
多分类的Softmax Loss,只要求把正样本的概率值预测得越高越好。正样本来自用户真实反馈,负样本往往未曾想用户曝光过。
-
nce loss
- [[Noise Contrastive Estimation]]
-
Sampled Softmax Loss
-
-
LTR 思想,把用户喜欢的排在前面,最求排序的相对准确
-
Pairwise Loss
-
[[Marginal Hinge Loss]]
-