数值特征
特征缩放
Log-based#card
- 针对幂律分布的特征(少量热门视频播放次数高)
[[Normalization]] 和 [[Regularization]]#card
标准化将样本属性值缩放到指定的范围
- 针对属性
正则化将样本的某个范数缩放到单位1
- 正对样本
Robust Scaling#card
解决其他特征变换方法把特征值压缩到一个非常狭窄的空间,失去特征区分度
$x_{\text {scaled }}=\frac{x-\operatorname{median}(x)}{\operatorname{IQR}}$
IQR 四分位距,确定第三四分位和第一四分位的差值
特征分桶
为什么?
- {{embed 数值特征离散化分桶
}}
+ 引入非线性
+ 增强可解释性
+ 对异常值不敏感,防止过拟合
+ 分桶后可以对不同的桶做进一步的统计和组合
方法
无监督分桶#card
固定宽度(等宽)
分位数(等距)
对数转换并取整
有监督#card
卡方
决策树 [[GBDT+LR]]