Feature Engineering

模型用来逼近 {{c1 特征上限}}

[[特征设计原则四象限]]

[[特征设计]]

[[特征选择]]

  • 特征值之间的方差小,代表其 {{c1 识别能力较弱}}。

[[数据清洗]] 对异常数据进行清洗,最常见的异常有空值异常(缺省值处理)、数值溢出(数值异常处理)。

[[特征变换]]

使用方式

特征重要性分析和[[特征选择]]

特征抽取

  • ((62c2ceb3-0765-41bd-93ce-c614850a09a8))
  • [[PCA]]
  • [[自编码器]]

[[深度学习不需要特征工程?]]

Explicit Semantic Cross Feature Learning via Pre-trained Graph Neural Networks for CTR Prediction

  • 使用 GNN 构造 (用户特征,物料特征) 的交叉特征
  • 预估输入特征的 xtr

Ref

  • @探讨特征工程的方法论
    • [[类似 automl 的特征字典]]
    • 基于业务逻辑去做特征工程
    • 特征重要性表的特征工程思路
      • 利用 xgb/lgb 输出特征重要性,对重要性高的特征交叉
      • 通过 embedding 对物品进行泛化
  • 工业级推荐系统中的特征工程 - 知乎 (zhihu.com)
    • 误区
      • 深度学习不需要特征工程?
        • 模型可以学习 row-based 的特征变换,很难学习 column-based 特征变换(counting,tf-idf)
      • [[AutoML]] 工具取代特征工程?
      • 特征工程没有技术含量?
    • 搜广推场景下的特征工程
      • high-cardinality 属性表示位特征时的挑战
      • 对特征进行统计,分桶,然后再交叉

网络回响

作者

Ryen Xiang

发布于

2026-02-17

更新于

2026-02-17

许可协议


评论