2025-03-202025-04-21 随手记 5 分钟读完 (大约775个字) 0次访问

Query 类目预测

基于统计

用户搜索query后点击/购买商品的类目分布，可以反映出该query的类目预测分布。#card
- 基于此，可以使用频率统计的方法（如query点击/成交频次或成交率）得到query的类目的分布，并通过拍阈值、规则过滤等方式，筛选出相对准确的query类目预测结果。
除了利用点击行为，还可以进一步引入时间衰减因子和session信息：#card
- 给近时间的行为更高的权重；短session内更换query，给最后的query点击行为更高的权重。
而对于行为较少的长尾query，则可以通过其他辅助行为信息进行补充，如同session的query挖掘：#card
- 同一个session的query往往具有相同的意图，其类目预测结果也往往一致。
- 如果session中有头部query，则头部query的类目预测结果可以拓展到session中的长尾query。

基于内容

无监督方式#card
- 可以通过贝叶斯统计、互信息、LDA等方式从商品内容中聚合得到类目关键词及其权重，对query term按各类目下的关键词进行加权求和，得到高置信的类目预测结果。
有监督方式则#card
- 基于人工标注数据或基于点击行为的弱监督数据，通过文本分类的方法训练类目预测模型。
同样对于长尾的query，基于内容的方法可#card
- 以通过丢词、关键词匹配、编辑距离、word2vec距离等方式映射到头部query，得到其类目预测结果。
- 此外基于头部query训练的分类模型，往往也可以有足够的泛化能力适应长尾query。

基于特征融合

基于统计和内容的方式可以产出很多帮助query类目预测的统计特征或文本特征，而基于众多的特征再训练一个分类器（如LR/GBDT/DNN等）进行特征融合，往往可以更加准确的预测query类目。 #card
- 这种特征融合的模型可作为一个判别器，进一步判断基于统计和内容方法得到的类目候选是否准确。
常见的特征如： #card
- Query点击、加购、成交等行为商品类目统计频次/概率、Query下所有类目的归一化分布、比例等。
- Query召回类目下的商品数、占Query的商品数比例、占类目下的总商品比例。
- 类目所属的一级类目、领域等。
- Query成交价格和商品类目成交价格匹配程度。
- 子模型分数，如基于文本内容的类目预测模型的预测分数。
- Query词命中类目关键词分布加权分数

Query 类目预测

https://blog.xiang578.com/post/logseq/Query 类目预测.html

作者

Ryen Xiang

发布于

2025-03-20

更新于

2025-04-21

许可协议

网络回响

评论