Feature Engineering
模型用来逼近 特征上限
[[特征设计原则四象限]]
[[特征设计]]
- 特征值之间的方差小,代表其 识别能力较弱 。
[[数据清洗]] 对异常数据进行清洗,最常见的异常有空值异常(缺省值处理)、数值溢出(数值异常处理)。
[[特征变换]]
使用方式
-
特征加权
-
[[SENET]]
-
[[CNN]]
-
-
[[Feature Hashing]]
-
[[标签和权重如何使用?]]
-
[[如何把相似的实体算作一类 one-hot ?]]
特征重要性分析和[[特征选择]]
特征抽取
-
线性判别分析[[Fisher]]
-
[[PCA]]
-
[[自编码器]]
Explicit Semantic Cross Feature Learning via Pre-trained Graph Neural Networks for CTR Prediction
-
使用 GNN 构造 (用户特征,物料特征) 的交叉特征
-
预估输入特征的 xtr
Ref
-
@探讨特征工程的方法论
-
基于业务逻辑去做特征工程
-
特征重要性表的特征工程思路
-
利用 xgb/lgb 输出特征重要性,对重要性高的特征交叉
-
通过 embedding 对物品进行泛化
-
-
工业级推荐系统中的特征工程 - 知乎 (zhihu.com)
-
误区
-
深度学习不需要特征工程?
- 模型可以学习 row-based 的特征变换,很难学习 column-based 特征变换(counting,tf-idf)
-
[[AutoML]] 工具取代特征工程?
-
特征工程没有技术含量?
-
-
搜广推场景下的特征工程
-
high-cardinality 属性表示位特征时的挑战
-
对特征进行统计,分桶,然后再交叉
-
-
Feature Engineering
https://blog.xiang578.com/post/logseq/Feature Engineering.html