@基于超网络的实时可控重排模型

链接:淘宝推荐场景的利器:融合复杂目标且支持实时调控的重排模型 如何灵活调节多目标之间的权重。

对应论文:[[KDD/2023]] Controllable Multi-Objective Re-ranking with Policy Hypernetworks

摘录

  • 动机

    • 强化学习的 reward function 由多个指标线性加权求和得到,加权参数 w 代表对各个目标之间的倾向。

    • 动态指定 preference weights,给定任一一个 w,都能生成最好的序列。

    • 准备多套 w,对应不同的业务目标。

image.png

  • 方法

    • 核心 Hypernet 和 conditional training

    • 预测

      • 根据用户 和 candidate item 信息实时指定 w,Hypernetwork 根据 w 生成参数给重排模型(DNN 最后几层的 w 和 b)。

      • 图中重排模型黄色参数对 w 敏感,蓝色参数对 w 不敏感。

    • 训练

      • 每一个 sample 或 batch 从事先指定的 distibution 中随机采样一个 w。

      • 重排模型生成序列给 evaluator 评估,reward 转化成一个 gradient,同时更新 hypernet 和重排模型相关的参数。

image.png

  • 结果

    • a

      • x 轴点击 utility 的权重,y 轴是线上真实回收出来的样本的点击平均值。

      • 蓝色折线真实值,橙色一次拟合。

      • utility 权重增大,点击率明显上升。重排模型能够依据给定的 w 生成不一样的序列。

    • b 冷启内容占比

    • c 店铺多样性

    • d 组间排序的 utility,表示来自不同 group 的内容,大致要按照 group 的优先级排序。

    • 右边是 ab 结果,实验方案线上超参调节,指标有提升。

image.png

@基于超网络的实时可控重排模型

https://blog.xiang578.com/note/wx_MzU1NTMyOTI4Mw_2.html

作者

Ryen Xiang

发布于

2024-06-09

更新于

2024-10-05

许可协议


网络回响

评论