类别特征
特征编码#card
特征二元化
one-hot
[[离散化]]
是否选择
海量离散特征 + 简单模型
少量连续特征 + 复杂模型
分桶
特性
类别特征处理
特征交叉
手动构造二阶或三阶交叉特征#card
dnn 隐式交叉弱,不能很好拟合多项式交叉 pattern
内积式交叉只能实现二阶
外积式交叉的层数有限
内积交叉#card
[[DeepFM]] [[IPNN]] [[DLRM]]
将特征映射到相同的高维空间,通过内积计算特征之间的相似度达到交叉的效果
缺点
不同类型的向量映射到同一个特征空间,与 [[FFM]] 思想相悖
不同类型特征的维度是相同的
外积交叉#card
[[DCN]] [[@xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems]] [[OPNN]]
表达能力比内积强
不同 embedding size 的向量都能支持交叉
缺点
交叉项过多,样本不足容易造成过拟合
计算复杂度高
分桶#card
基于业务理解自定义分桶规则
- 城市分成华东区、华南区
基于特征的频次合并低频长尾部分
决策树模型
统计编码#card
count encoding
- 统计该类别不同行为类型、不同时间周期内的发生频次
Target encoding [[目标编码]]
Odds Ratio
weight of evidence
特征哈希 Hash Trick #card
- 避免维护映射表的麻烦