数值特征

特征缩放

  • Log-based#card

    • 针对幂律分布的特征(少量热门视频播放次数高)
  • [[Normalization]] 和 [[Regularization]]#card

    • 标准化将样本属性值缩放到指定的范围

      • 针对属性
    • 正则化将样本的某个范数缩放到单位1

      • 正对样本
  • Robust Scaling#card

    • 解决其他特征变换方法把特征值压缩到一个非常狭窄的空间,失去特征区分度

    • xscaled =xmedian(x)IQRx_{\text {scaled }}=\frac{x-\operatorname{median}(x)}{\operatorname{IQR}}

    • IQR 四分位距,确定第三四分位和第一四分位的差值

特征分桶

  • 为什么?

    • {{embed 数值特征离散化分桶
      }}

    • 引入非线性

    • 增强可解释性

    • 对异常值不敏感,防止过拟合

    • 分桶后可以对不同的桶做进一步的统计和组合

  • 方法

    • 无监督分桶#card

      • 固定宽度(等宽)

      • 分位数(等距)

      • 对数转换并取整

    • 有监督#card

      • 卡方

      • 决策树 [[GBDT+LR]]

作者

Ryen Xiang

发布于

2025-04-20

更新于

2025-04-20

许可协议


网络回响

评论