搜广推大模型

LLM 应用范式

  • 当成 ranker 使用排序商品集合
  • 进行用户和商品理解
  • 建模 LLM 的建模思路或模型结构

技术路径

  • 生成式架构,基于类LLM的Transformer架构,结合高效的FlashAttention算子实现自回归内容生成。#card
    • Meta 使用[[HSTU]] 通过千亿级参数扩展验证了推荐Scaling law效果
    • [[OneRec]] 快手,采用Encoder-Decoder+MoE混合设计,结合DPO优化与奖励模型实现CTR/CVR与生成任务的多目标兼容。
  • 堆叠式架构,通过生成式技术赋能传统推荐框架 #card
    • [[HLLM]] 字节 构建Item/User双塔LLM分别处理特征提取与行为预测
    • 阿里 [[LUM]] 采用预训练三阶段策略平衡模型容量与推理时延
  • 判别式
    • 字节 [[RankMixer]]
  • 混合式架构
    • [[MTGR]]

相关文章

  • [[google TIGER]] 2023,通过 [[Semantic ID]] + 生成式模型实现高效、泛化的序列推荐
  • [[@Semantic IDs for Industrial Recommendation: Mitigating the Curse of Large and Dynamic ID Spaces]] 2025 Meta,基于语义 ID 增强推荐系统
  • [[@Actions Speak Louder than Words: Trillion-Parameter Sequential Transducers for Generative Recommendations]] **实现Scaling Law + 统一序列4All,**仍然采用的是原始ID,而非Sematic ID
  • [[OneRec]] 采用预训练Pre-Train(传统模型) + Post-Train(RL强化学习),第一次引入了SematicID(Encoder仍然是ItemID;Decoder才是SematicID),用户静态画像/短期实时/正反馈/LifeLong行为。
    • [[RQ-Kmeans]] 分词器
  • [[@Towards Large-scale Generative Ranking]] 2025.3 小红书发现业务(即推荐首页) GenRank
    • 1)SIM(长序列检索)、PPNet(场景个性化)、PLE(多业务) 等模块在生成式与传统范式中表现相当,表明兼容性良好。
    • 2)内容嵌入(Content Embeddings,预训练Embs)在生成式范式下的 AUC 提升是传统范式的两倍以上,因架构一致性更能发挥其能力。
    • 3)实时统计特征(如窗口特征)仍有效,虽然HSTU 曾提出生成式推荐模型本身可充分表达统计模式(可移除部分特征)。
  • [[@GR-LLMs: Recent Advances in Generative Recommendation Based onLarge Language Models]] 2025年7月 阿里巴巴-高德 一篇综述
  • [[@Towards An Efficient LLM Training Paradigm for CTR Prediction]] 2025.3 meta ai
    • 1)传统研究多采用 “滑动窗口” 训练范式,为每个用户交Item互构建独立的训练提示,导致计算复杂度随交互序列长度呈 O (mn²) 增长(m 为交互总数,n 为上下文长度)。由于 LLMs 使用文本描述而非 ID 表示交互,上下文长度显著增加,进一步放大了计算负担,亟需更高效的训练范式。
    • 2)动态目标隔离(DTI)范式,通过流式提示构建和窗口化因果注意力机制,将计算复杂度降至 O (m/k・(n+k) n),实现训练效率提升。
  • [[MTGR]] 2025.5 美团
  • [[RankMixer]] 2025.7 字节
    • 传统判别式,RankMixer 以 “高并行性 + 高效特征交互” 为核心,通过三大模块实现规模化能力,
    • 整体架构由输入层特征 token 化、L 个 RankMixer 块(含多头 token 混合 + 逐 tokenFFN)、输出层均值池化组成。
  • [[@Exploring Scaling Laws of CTR Model for Online Performance Improvement]] 美团,SUAN算法由多层Unified Attention Block(简记为UAB)堆叠而成。
  • [[@GPR: Towards a Generative Pre-trained One-Model Paradigm for Large-Scale Advertising Recommendation]] 2025.11 腾讯,将广告推荐重构为端到端生成任务的单模型框架(召回-精排,不涉及拍卖)

ReLLa

为什么推荐大模型用 encoder-decoder #card

  • encoder 可以使用所有场景数据建模用户信息,
  • decoder 只能用本场景的数据

推荐大模型和搜索大模型区别 #card

  • 电商搜索有类目信息,可以当成 codebook 的第一级?
  • 酒店搜索有城市信息,可以当成 codebook 的第一级?

范式

  • 预测下一个 item embedding
  • 预测下一个 cluster

重排

  • “User Feedback Alignment for LLM-powered Exploration in Large-scale Recommendation Systems.”
  • “CoRanking:
    Collaborative Ranking with Small and Large Ranking Agents.”

问题

  • 如何判断现在模型的 gpu 效率?

参考

作者

Ryen Xiang

发布于

2026-02-17

更新于

2026-03-15

许可协议


网络回响

评论