数值特征

特征缩放

  • Log-based #card
    • 针对幂律分布的特征(少量热门视频播放次数高)
  • [[Normalization]] 和 [[Regularization]] #card
    • 标准化将样本属性值缩放到指定的范围
      • 针对属性
    • 正则化将样本的某个范数缩放到单位1
      • 正对样本
  • Robust Scaling #card
    • 解决其他特征变换方法把特征值压缩到一个非常狭窄的空间,失去特征区分度
    • $x_{\text {scaled }}=\frac{x-\operatorname{median}(x)}{\operatorname{IQR}}$
    • IQR 四分位距,确定第三四分位和第一四分位的差值

特征分桶

  • 为什么?
    +
    • 引入非线性
    • 增强可解释性
    • 对异常值不敏感,防止过拟合
    • 分桶后可以对不同的桶做进一步的统计和组合
  • 方法
    • 无监督分桶 #card
      • 固定宽度(等宽)
      • 分位数(等距)
      • 对数转换并取整
    • 有监督 #card
      • 卡方
      • 决策树 [[GBDT+LR]]

网络回响

作者

Ryen Xiang

发布于

2026-02-17

更新于

2026-02-17

许可协议


评论