2024-06-092026-02-17 随手记 3 分钟读完 (大约498个字) 0次访问

@基于超网络的实时可控重排模型

链接：淘宝推荐场景的利器：融合复杂目标且支持实时调控的重排模型如何灵活调节多目标之间的权重。

对应论文：[[2023]] Controllable Multi-Objective Re-ranking with Policy Hypernetworks

摘录

动机
- 强化学习的 reward function 由多个指标线性加权求和得到，加权参数 w 代表对各个目标之间的倾向。
- 动态指定 preference weights，给定任一一个 w，都能生成最好的序列。
- 准备多套 w，对应不同的业务目标。

方法
- 核心 Hypernet 和 conditional training
- 预测
  - 根据用户和 candidate item 信息实时指定 w，Hypernetwork 根据 w 生成参数给重排模型（DNN 最后几层的 w 和 b）。
  - 图中重排模型黄色参数对 w 敏感，蓝色参数对 w 不敏感。
- 训练
  - 每一个 sample 或 batch 从事先指定的 distibution 中随机采样一个 w。
  - 重排模型生成序列给 evaluator 评估，reward 转化成一个 gradient，同时更新 hypernet 和重排模型相关的参数。

结果
- a
  - x 轴点击 utility 的权重，y 轴是线上真实回收出来的样本的点击平均值。
  - 蓝色折线真实值，橙色一次拟合。
  - utility 权重增大，点击率明显上升。重排模型能够依据给定的 w 生成不一样的序列。
- b 冷启内容占比
- c 店铺多样性
- d 组间排序的 utility，表示来自不同 group 的内容，大致要按照 group 的优先级排序。
- 右边是 ab 结果，实验方案线上超参调节，指标有提升。

@基于超网络的实时可控重排模型

https://blog.xiang578.com/note/wx_MzU1NTMyOTI4Mw_2.html

作者

Ryen Xiang

发布于

2024-06-09

更新于

2026-02-17

许可协议

web, Alibaba, ReRank, DataFun

评论