数值特征
特征缩放
-
Log-based#card
- 针对幂律分布的特征(少量热门视频播放次数高)
-
[[Normalization]] 和 [[Regularization]]#card
-
标准化将样本属性值缩放到指定的范围
- 针对属性
-
正则化将样本的某个范数缩放到单位1
- 正对样本
-
-
Robust Scaling#card
-
解决其他特征变换方法把特征值压缩到一个非常狭窄的空间,失去特征区分度
-
-
IQR 四分位距,确定第三四分位和第一四分位的差值
-
特征分桶
-
为什么?
-
{{embed 数值特征离散化分桶
}} -
引入非线性
-
增强可解释性
-
对异常值不敏感,防止过拟合
-
分桶后可以对不同的桶做进一步的统计和组合
-
-
方法
-
无监督分桶#card
-
固定宽度(等宽)
-
分位数(等距)
-
对数转换并取整
-
-
有监督#card
-
卡方
-
决策树 [[GBDT+LR]]
-
-