类别特征
特征编码#card
-
特征二元化
-
one-hot
-
[[离散化]]
-
是否选择
-
海量离散特征 + 简单模型
-
少量连续特征 + 复杂模型
-
-
分桶
-
特性
-
类别特征处理
-
特征交叉
-
手动构造二阶或三阶交叉特征#card
-
dnn 隐式交叉弱,不能很好拟合多项式交叉 pattern
-
内积式交叉只能实现二阶
-
外积式交叉的层数有限
-
-
内积交叉#card
-
[[DeepFM]] [[IPNN]] [[DLRM]]
-
将特征映射到相同的高维空间,通过内积计算特征之间的相似度达到交叉的效果
-
缺点
-
不同类型的向量映射到同一个特征空间,与 [[FFM]] 思想相悖
-
不同类型特征的维度是相同的
-
-
-
外积交叉#card
-
[[DCN]] [[@xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems]] [[OPNN]]
-
表达能力比内积强
-
不同 embedding size 的向量都能支持交叉
-
缺点
-
交叉项过多,样本不足容易造成过拟合
-
计算复杂度高
-
-
-
-
分桶#card
-
基于业务理解自定义分桶规则
- 城市分成华东区、华南区
-
基于特征的频次合并低频长尾部分
-
决策树模型
-
-
统计编码#card
-
count encoding
- 统计该类别不同行为类型、不同时间周期内的发生频次
-
Target encoding [[目标编码]]
-
Odds Ratio
-
weight of evidence
-