Feature Engineering

模型用来逼近 特征上限
[[特征设计原则四象限]]
[[特征设计]]

[[特征选择]]

  • 特征值之间的方差小,代表其 识别能力较弱

[[数据清洗]] 对异常数据进行清洗,最常见的异常有空值异常(缺省值处理)、数值溢出(数值异常处理)。

[[特征变换]]

使用方式

特征重要性分析和[[特征选择]]

特征抽取

  • 线性判别分析[[Fisher]]

  • [[PCA]]

  • [[自编码器]]

[[深度学习不需要特征工程?]]

Explicit Semantic Cross Feature Learning via Pre-trained Graph Neural Networks for CTR Prediction

  • 使用 GNN 构造 (用户特征,物料特征) 的交叉特征

  • 预估输入特征的 xtr

Ref

  • @探讨特征工程的方法论

    • [[类似 automl 的特征字典]]

    • 基于业务逻辑去做特征工程

    • 特征重要性表的特征工程思路

      • 利用 xgb/lgb 输出特征重要性,对重要性高的特征交叉

      • 通过 embedding 对物品进行泛化

  • 工业级推荐系统中的特征工程 - 知乎 (zhihu.com)

    • 误区

      • 深度学习不需要特征工程?

        • 模型可以学习 row-based 的特征变换,很难学习 column-based 特征变换(counting,tf-idf)
      • [[AutoML]] 工具取代特征工程?

      • 特征工程没有技术含量?

    • 搜广推场景下的特征工程

      • high-cardinality 属性表示位特征时的挑战

      • 对特征进行统计,分桶,然后再交叉

作者

Ryen Xiang

发布于

2024-10-05

更新于

2025-04-06

许可协议


网络回响

评论