类别特征

特征编码#card

  • 特征二元化

  • one-hot

  • [[离散化]]

    • 是否选择

      • 海量离散特征 + 简单模型

      • 少量连续特征 + 复杂模型

    • 分桶

    • 特性

类别特征处理

  • 特征交叉

    • 手动构造二阶或三阶交叉特征#card

      • dnn 隐式交叉弱,不能很好拟合多项式交叉 pattern

      • 内积式交叉只能实现二阶

      • 外积式交叉的层数有限

    • 内积交叉#card

      • [[DeepFM]] [[IPNN]] [[DLRM]]

      • 将特征映射到相同的高维空间,通过内积计算特征之间的相似度达到交叉的效果

      • 缺点

        • 不同类型的向量映射到同一个特征空间,与 [[FFM]] 思想相悖

        • 不同类型特征的维度是相同的

    • 外积交叉#card

      • [[DCN]] [[@xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems]] [[OPNN]]

      • 表达能力比内积强

      • 不同 embedding size 的向量都能支持交叉

      • 缺点

        • 交叉项过多,样本不足容易造成过拟合

        • 计算复杂度高

  • 分桶#card

    • 基于业务理解自定义分桶规则

      • 城市分成华东区、华南区
    • 基于特征的频次合并低频长尾部分

    • 决策树模型

  • 统计编码#card

    • count encoding

      • 统计该类别不同行为类型、不同时间周期内的发生频次
    • Target encoding [[目标编码]]

    • Odds Ratio

    • weight of evidence

作者

Ryen Xiang

发布于

2025-04-20

更新于

2025-04-20

许可协议


网络回响

评论