long-tailed

常用解决方法

  • 重采样 re-sampling

    • 过采样 oversampling,增加数量少的类别样本

      • 增加正样本使得正负样本数目接近

      • 原始正类之间插值来生成额外的正类

    • 欠采样 undersampling,剔除一些数量多的类别样本

      • 去除负样本使得正负样本数目接近

      • 将负样本划分成多个集合供不同的学习器使用

  • 数据合成

    • 样本增加高斯噪声 data smoothing

    • SMOTE

      • 随机选取一个正样本,然后用 k 近邻选取一个与其最相似的样本,取两个样本中值或者均值,作为新样本。
  • 重加权 re-weighting

    • 通过样本权重或者 loss 权重给数量多的类别降权,给数量少的类别加权。

    • [[F1 Reweight Loss]] 调节二分类模型 recall/precision 相对权重的损失函数

      • [[F1 Score]]

      • F_beta

        • Fβ=(1+β2) precision  recall (β2 precision )+ recall F_\beta=\left(1+\beta^2\right) \cdot \frac{\text { precision } \cdot \text { recall }}{\left(\beta^2 \cdot \text { precision }\right)+\text { recall }}
      • β\beta 大于 1,重 recall,小于 1 关注准确

  • 增加辅助任务

    • 引入自监督对比学习
  • 迁移学习 tranzsfer learning

  • 度量学习 metric learning

  • 阈值移动 threshold-moving

    • 二分类中将 0.1 当成是正样本

      • 模型倾向于样本多的部分
    • 再缩放 rescalling

  • 模型融合

    • 0.1 正样本,0.9 负样本,负样本拆成 9 份。利用负样本和正样本训练 9 个模型,加权得到最后的结果

分类机器学习中,某一标签占比太大(标签稀疏),如何学习? - 知乎 (zhihu.com)

  • 难易样本不均衡还是正负样本不均衡

    • [[Focal Loss]] 针对困难样本,标签稀疏不一定是困难样本。
作者

Ryen Xiang

发布于

2024-10-05

更新于

2024-10-05

许可协议


网络回响

评论