2025-04-202025-04-20 随手记 4 分钟读完 (大约551个字) 0次访问

@Towards Personalized and Semantic Retrieval: An End-to-End Solution for E-commerce Search via Embedding Learning

除了基础的相关性特征（如query token和item title token），本文方案（DPSR）增加了多种个性化特征以提升模型对个性化信息的关注，

用户侧包括：#card
- User Profile：用户画像特征，如用户性别、年龄、消费能力、区域等，用于刻画用户的静态基础特征。
  User History Events：用户历史行为特征，如历史点击商品、搜索query、类目品牌偏好、点击率、成交率等。
商品侧个性化特征包括：#card
- 商品品类、品牌、邮寄类型，又如商品、店铺历史表现等。通过增加个性化特征，模型能够捕获用户偏好和商品除文本语义之外的属性特征。

模型采用经典的双塔架构，包括user/query tower和item tower两个模块。各特征离散化后通过embedding average或concat映射到固定维度后拼接，并经过DNN网络分别得到user和item的特征向量。此外，在user/query tower模块使用了multi-head来提取更加多样的特征（有点模型ensemble的感觉）。#card

item tower和user/query multi-head使用attention的方式进行匹配分数融合
Multi-head的attention仅在训练阶段计算，在线检索时，每个head将分别进行召回并通过内积分数截断同样数量的商品进行统一排序。

文章训练数据的构造比较简单直觉：#card

使用用户点击数据为正样本（10亿级别）。
负样本同样没有使用曝光未点击的商品，因为未被点击的商品不一定不相关。
- random negatives、in-batch negatives，二者合并作为负样本参与训练 $N_i=N_{\text {rand }} \cup N_{\text {batch }}$
- 文章指出随着rand负样本比例的增加，商品的个性化（或热度）逐渐变强，更容易点击/成交，相应地相关性也会一定程度下降。

@Towards Personalized and Semantic Retrieval: An End-to-End Solution for E-commerce Search via Embedding Learning

https://blog.xiang578.com/post/logseq/@Towards Personalized and Semantic Retrieval: An End-to-End Solution for E-commerce Search via Embedding Learning.html

作者

Ryen Xiang

发布于

2025-04-20

更新于

2025-04-20

@Towards Personalized and Semantic Retrieval: An End-to-End Solution for E-commerce Search via Embedding Learning

作者

发布于

更新于

许可协议

网络回响

评论

最新文章