Query 类目预测
基于统计
-
用户搜索query后点击/购买商品的类目分布,可以反映出该query的类目预测分布。#card
- 基于此,可以使用频率统计的方法(如query点击/成交频次或成交率)得到query的类目的分布,并通过拍阈值、规则过滤等方式,筛选出相对准确的query类目预测结果。
-
除了利用点击行为,还可以进一步引入时间衰减因子和session信息:#card
- 给近时间的行为更高的权重;短session内更换query,给最后的query点击行为更高的权重。
-
而对于行为较少的长尾query,则可以通过其他辅助行为信息进行补充,如同session的query挖掘:#card
-
同一个session的query往往具有相同的意图,其类目预测结果也往往一致。
-
如果session中有头部query,则头部query的类目预测结果可以拓展到session中的长尾query。
-
基于内容
-
无监督方式#card
- 可以通过贝叶斯统计、互信息、LDA等方式从商品内容中聚合得到类目关键词及其权重,对query term按各类目下的关键词进行加权求和,得到高置信的类目预测结果。
-
有监督方式则#card
- 基于人工标注数据或基于点击行为的弱监督数据,通过文本分类的方法训练类目预测模型。
-
同样对于长尾的query,基于内容的方法可#card
-
以通过丢词、关键词匹配、编辑距离、word2vec距离等方式映射到头部query,得到其类目预测结果。
-
此外基于头部query训练的分类模型,往往也可以有足够的泛化能力适应长尾query。
-
基于特征融合
-
基于统计和内容的方式可以产出很多帮助query类目预测的统计特征或文本特征,而基于众多的特征再训练一个分类器(如LR/GBDT/DNN等)进行特征融合,往往可以更加准确的预测query类目。 #card
- 这种特征融合的模型可作为一个判别器,进一步判断基于统计和内容方法得到的类目候选是否准确。
-
常见的特征如: #card
-
Query点击、加购、成交等行为商品类目统计频次/概率、Query下所有类目的归一化分布、比例等。
-
Query召回类目下的商品数、占Query的商品数比例、占类目下的总商品比例。
-
类目所属的一级类目、领域等。
-
Query成交价格和商品类目成交价格匹配程度。
-
子模型分数,如基于文本内容的类目预测模型的预测分数。
-
Query词命中类目关键词分布加权分数
-