2024-06-012024-10-05 随手记 6 分钟读完 (大约849个字) 0次访问

@多目标排序在快手短视频推荐中的实践

链接：多目标排序在快手短视频推荐中的实践 (qq.com)，郑东，快手推荐算法技术总监

想法

分享主要内容是排序机制和重排，还看不太懂。

摘录

用户反馈
- 隐式正反馈
- 显式正反馈
- 隐式负反馈
- 显式负反馈
多目标精排
- 手工融合和简单模型融合
  - 多个预估值融合成单一的排序分
  - 树模型规则 ensemble 融合
    - 利用特征得到组合 label
    - 上下滑无负样本，通过拷贝正样本实现对目标无偏估计
    - RuleFit，用树来做打分规则

+ #### 超参 Learn To Rank

  + dnn 拟合组合收益，通过学习线性加权的超参数去拟合最终组合收益

    + photo_top，24维，各种个性化预估值

    + user_top，24 维，用户特征(比如对用户划分不同的时间窗口：过去1分钟、5分钟、15分钟、...、2小时，每个时间窗内，对推荐给他的视频，根据用户的反馈拼接成一个向量，这些反馈包括有效播放、点赞、关注、分享、下载、观看时长等，最后，将各时间窗口对应的反馈向量和ID类特征一起输入到用户侧网络。)

+ #### 端到端Learn To Rank

  + pointwise 更复杂特征和网络结构，模型表达力更强。

  + pairwise

    + 样本构造，一次请求 6 个视频，针对每个目标都构造偏序对

    + dnn 打分，sigmoid 变换，交叉熵损失产出 loss

      + $\begin{gathered}s_{i j}=\sigma\left(s_i-s_j\right) \\ \operatorname{loss}{ }_{l i k e}^{i j}=y_{i j} \cdot \log \left(s_{i j}\right)+\left(1-y_{i j}\right) \log \left(1-s_{i j}\right)\end{gathered}$

    + 不同目标 loss 线性加权，从而兼顾多个目标的权重

    + 效果上看做对不同目标的 auc 加权求和，auc 本质上是一个偏序的关系。

复杂多目标：Ensemble Sort和在线自动调参
- Ensemble Sort
  - 常规加权融合有问题
  - 个子项分内做 Normalize 优化，把子项分转化为序，再转化成一个分数。
- 在线自动调参
  - 离线学习 Learn2Rank

  + 在线自动调参

    + CEM

  + 噪声

重排序
- Listwise Rerank
  - 上下滑场景采用 rerank 可以获得组合收益，如果排列用户喜欢和不喜欢的视频，可以提升用户浏览数量。
  - 离线评估，左边表格，做 transformer 后推荐结果的 auc 和 dnn 基线，下图位次增加 auc 逐渐提升

+ ####  强化学习 Rerank

  + 贪心选择，LSTM 建模前序特征

  + 策略梯度， [[GAE]]

  + 使用仿真器训练

    + on-policy 训练更加稳定

+ #### [[端上重排]]

  + 端上网络结构使用 [[TFLite]]

  + 模型特征和结构

    + Transformer 建模用户实时反馈和各种序列

总结和展望
- 帕累托最优

@多目标排序在快手短视频推荐中的实践

https://blog.xiang578.com/note/wx_MzU1NTMyOTI4Mw.html

作者

Ryen Xiang

发布于

2024-06-01

更新于

2024-10-05

许可协议

@多目标排序在快手短视频推荐中的实践

想法

摘录

用户反馈

多目标精排

手工融合和简单模型融合

复杂多目标：Ensemble Sort和在线自动调参

Ensemble Sort

重排序

Listwise Rerank

总结和展望

作者

发布于

更新于

许可协议

相关文章

网络回响

评论

目录

最新文章

@多目标排序在快手短视频推荐中的实践

想法

摘录

用户反馈

多目标精排

手工融合和简单模型融合

复杂多目标：Ensemble Sort和在线自动调参

Ensemble Sort

重排序

Listwise Rerank

总结和展望

作者

发布于

更新于

许可协议

相关文章

@基于超网络的实时可控重排模型

@重排序在快手短视频推荐系统中的演进

@淘宝推荐场景的利器：融合复杂目标且支持实时调控的重排模型

@the concept-descriptor note taking technique

@didi food中的智能补贴实战漫谈

网络回响

评论

目录

最新文章