类别特征
特征编码 #card
- 特征二元化
- one-hot
- [[离散化]]
- 是否选择
- 海量离散特征 + 简单模型
- 少量连续特征 + 复杂模型
- 分桶
- 特性
- 是否选择
类别特征处理
- 特征交叉
- 手动构造二阶或三阶交叉特征 #card
- dnn 隐式交叉弱,不能很好拟合多项式交叉 pattern
- 内积式交叉只能实现二阶
- 外积式交叉的层数有限
- 内积交叉 #card
- [[DeepFM]] [[IPNN]] [[DLRM]]
- 将特征映射到相同的高维空间,通过内积计算特征之间的相似度达到交叉的效果
- 缺点
- 不同类型的向量映射到同一个特征空间,与 [[FFM]] 思想相悖
- 不同类型特征的维度是相同的
- 外积交叉 #card
- [[DCN]] [[@xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems]] [[OPNN]]
- 表达能力比内积强
- 不同 embedding size 的向量都能支持交叉
- 缺点
- 交叉项过多,样本不足容易造成过拟合
- 计算复杂度高
- 手动构造二阶或三阶交叉特征 #card
- 分桶 #card
- 基于业务理解自定义分桶规则
- 城市分成华东区、华南区
- 基于特征的频次合并低频长尾部分
- 决策树模型
- 基于业务理解自定义分桶规则
- 统计编码 #card
- count encoding
- 统计该类别不同行为类型、不同时间周期内的发生频次
- Target encoding [[目标编码]]
- Odds Ratio
- weight of evidence
- count encoding
- 特征哈希 Hash Trick #card
- 避免维护映射表的麻烦