@OneRec: 希望更多的人来研究端到端推荐
链接: OneRec: 希望更多的人来研究端到端推荐 - 知乎
当前的推荐模型架构,广义scaling law最明显的仅在:#card
- 行为序列长度
- 打分候选集。
如果坚信广义的scaling law,模型算力投入越大,效果越好,我们要回答三个问题:#card
其实这条路还有很多事情可以做,希望有更多的同行进来一起走这条路,我们目前正在研究的主要是几个问题:
大方向:
端到端之后,RL特别有效。但什么是好的推荐结果,本身是一个没定义好的问题,#card
因此reward system是一个推荐领域非常值得研究的问题。
可能有些观点会认为learning2rank已经研究过这些了,不过我认为还有挺大的研究空间吧。
毕竟以前那些RL 做learning2rank的工作,只能影响重排,解空间太小了,对系统影响都很小。挺多结论在端到端系统上会变化。
更明显和solid的模型尺寸scaling law。#card
这个我们重构完模型结构设计后有一些进展,看起来还比较promising,估计很快OneRecV2出来就有更清晰的scaling law了。
顺利的话,还挺期待的。这样我们就有机会画出一条线,横轴是公司需要投入的计算成本金额,纵轴是提升的业务数据。大伙儿去申请机器就变得容易了:)
怎么把推荐行为模态和其他多模态在一个LLM基座上对齐。#card
这个还是挺关键的,如果能对齐的话推荐模型就可以在文本空间进行推理思考, 做深度检索,才会让模型达到一个新的高度。
这本身也是我们做OneRec的终极目标。我们有一些思路,看到了眉目,目前可以告诉大家推荐行为模态和LLM肯定是能实现对齐的。但当下进展太小了,就不拿出来贻笑大方了。
还是open到底,把一些更细节一点的迭代也share出来吧,如果大家做得更快就太好了,我们直接用。估计V2就一起和大家见面了,还有一些可能比较小但是作用较大的事也在迭代:
现在的tokenizer其实很简单,我们做了一套端到端的tokenizer方案,目前看也是有提升的。#card
- 这里的一个关键是不能做残差的编码,得做类似llm的平行tokenizer,不然模型的检索空间会很小,永远都不可能思考。
现在生成的模型结构里,除了没办法做target item的attention之外,target item本身的feature也没办法加进去,比如视频的作者信息。#card
我们在做一个item rag,用生成token的前缀去检索相关的item list然后做feature总结。
user rag就不太需要做了,本身新模型结构里能把序列长度拉到上万没啥成本。更长的部分准备用压缩和sparse att的方法。
@OneRec: 希望更多的人来研究端到端推荐
https://blog.xiang578.com/post/logseq/@OneRec: 希望更多的人来研究端到端推荐.html