类别特征

特征编码 #card

  • 特征二元化
  • one-hot
  • [[离散化]]
    • 是否选择
      • 海量离散特征 + 简单模型
      • 少量连续特征 + 复杂模型
    • 分桶
    • 特性

类别特征处理

  • 特征交叉
    • 手动构造二阶或三阶交叉特征 #card
      • dnn 隐式交叉弱,不能很好拟合多项式交叉 pattern
      • 内积式交叉只能实现二阶
      • 外积式交叉的层数有限
    • 内积交叉 #card
      • [[DeepFM]] [[IPNN]] [[DLRM]]
      • 将特征映射到相同的高维空间,通过内积计算特征之间的相似度达到交叉的效果
      • 缺点
        • 不同类型的向量映射到同一个特征空间,与 [[FFM]] 思想相悖
        • 不同类型特征的维度是相同的
    • 外积交叉 #card
      • [[DCN]] [[@xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems]] [[OPNN]]
      • 表达能力比内积强
      • 不同 embedding size 的向量都能支持交叉
      • 缺点
        • 交叉项过多,样本不足容易造成过拟合
        • 计算复杂度高
  • 分桶 #card
    • 基于业务理解自定义分桶规则
      • 城市分成华东区、华南区
    • 基于特征的频次合并低频长尾部分
    • 决策树模型
  • 统计编码 #card
    • count encoding
      • 统计该类别不同行为类型、不同时间周期内的发生频次
    • Target encoding [[目标编码]]
    • Odds Ratio
    • weight of evidence
  • 特征哈希 Hash Trick #card
    • 避免维护映射表的麻烦

网络回响

作者

Ryen Xiang

发布于

2026-02-17

更新于

2026-02-17

许可协议


评论