@搜推算法常见面试问题第一期:序列建模

1 序列都有哪些组织方式,序列哪些特征是重要的?如何判断新增序列的有效性及收敛情况?如果实际序列小于最大长度,如何padding是最合理的?#card
2[[搜推算法的序列建模需要做self-attention吗?]]
3⃣️ 长序列在什么场景下提升会更大?长序列一般的建模方式有哪些?#card

  • 长序列在任何场景的提升都很大吧。。。重要资源够,

  • 长序列的方式有硬建模sim和soft的方式,

    • sim就是舍弃序列中和打分商品类目不一样的商品,缩短序列长度减少计算量,

    • soft的方式有很多fancy的论文,比如eta,cta

4⃣️ 在Attention计算的过程中,Mutli-head机制起到了什么作用,能否举例说明?#card

  • Multihead主要起到了把商品表征映射到高维空间,再在高维空间做切片(对齐语义)后根据相似度做聚合的作用

5⃣️ 序列建模在用户冷启场景下,没有用户行为有什么好的解决办法吗?#card

  • 对于大体量的工业界日志来说,用户id的embedding映射可能是多对一的,理论上可以缓解一定冷启动问题

6⃣️ 相对NLP/CV等任务通常多层Transformer的堆叠,搜推往往只有一层,为什么这么操作?#card

  • 搜推还是主要考虑打分商品和序列商品的相似性计算吧,而不是序列里商品之间的交互

7⃣️ 序列建模与GNN有什么区别?序列做宽/深分别在什么场景下收益比较大?#card

  • 序列和gnn的区别,不会,序列感觉是又宽又深最好,搜索场景宽(长)一点好吧,因为要根据query从序列里面取,长度越长,能覆盖的query越多吧

做Target Attention的时候如果KV只使用部分序列的特征有什么优劣?#card

  • target attention是q去和k match,再去乘 v的值,q和k只用部分特征会导致match的不够准吧,v只用部分特征会导致只提取序列里一部分的兴趣

9 [[序列建模可以建模联合概率吗]]?即P(target|trigger1,trigger2)#card

  • 条件概率:自回归或者上下文编码捕捉条件依赖

  • 联合概率本质是通过链式法则分解为多个条件概率的乘积

10 序列建模与传统的协同过滤在建模上的优劣分别有哪些?#card

  • 序列建模可以用在排序里,输出做dnn的输入,cf只能计算相似度,表征太单调,只能做召回
作者

Ryen Xiang

发布于

2024-11-27

更新于

2025-04-23

许可协议


网络回响

评论