Feature Engineering
模型用来逼近 {{c1 特征上限}}
- 特征值之间的方差小,代表其 {{c1 识别能力较弱}}。
[[数据清洗]] 对异常数据进行清洗,最常见的异常有空值异常(缺省值处理)、数值溢出(数值异常处理)。
[[特征变换]]
使用方式
- 特征加权
- [[SENET]]
- [[Attention]]
- [[CNN]]
- [[特征交叉]]
- [[Feature Hashing]]
- [[标签和权重如何使用?]]
- [[如何把相似的实体算作一类 one-hot ?]]
- [[类似 automl 的特征字典]]
特征重要性分析和[[特征选择]]
特征抽取
- ((62c2ceb3-0765-41bd-93ce-c614850a09a8))
- [[PCA]]
- [[自编码器]]
Explicit Semantic Cross Feature Learning via Pre-trained Graph Neural Networks for CTR Prediction
- 使用 GNN 构造 (用户特征,物料特征) 的交叉特征
- 预估输入特征的 xtr
Ref
- @探讨特征工程的方法论
- [[类似 automl 的特征字典]]
- 基于业务逻辑去做特征工程
- 特征重要性表的特征工程思路
- 利用 xgb/lgb 输出特征重要性,对重要性高的特征交叉
- 通过 embedding 对物品进行泛化
- 工业级推荐系统中的特征工程 - 知乎 (zhihu.com)
- 误区
- 深度学习不需要特征工程?
- 模型可以学习 row-based 的特征变换,很难学习 column-based 特征变换(counting,tf-idf)
- [[AutoML]] 工具取代特征工程?
- 特征工程没有技术含量?
- 深度学习不需要特征工程?
- 搜广推场景下的特征工程
- high-cardinality 属性表示位特征时的挑战
- 对特征进行统计,分桶,然后再交叉
- 误区
网络回响
Feature Engineering