数值特征
特征缩放
- Log-based #card
- 针对幂律分布的特征(少量热门视频播放次数高)
- [[Normalization]] 和 [[Regularization]] #card
- 标准化将样本属性值缩放到指定的范围
- 针对属性
- 正则化将样本的某个范数缩放到单位1
- 正对样本
- 标准化将样本属性值缩放到指定的范围
- Robust Scaling #card
- 解决其他特征变换方法把特征值压缩到一个非常狭窄的空间,失去特征区分度
- $x_{\text {scaled }}=\frac{x-\operatorname{median}(x)}{\operatorname{IQR}}$
- IQR 四分位距,确定第三四分位和第一四分位的差值
特征分桶
- 为什么?
+- 引入非线性
- 增强可解释性
- 对异常值不敏感,防止过拟合
- 分桶后可以对不同的桶做进一步的统计和组合
- 方法
- 无监督分桶 #card
- 固定宽度(等宽)
- 分位数(等距)
- 对数转换并取整
- 有监督 #card
- 卡方
- 决策树 [[GBDT+LR]]
- 无监督分桶 #card