long-tailed
常用解决方法
-
重采样 re-sampling
-
过采样 oversampling,增加数量少的类别样本
-
增加正样本使得正负样本数目接近
-
原始正类之间插值来生成额外的正类
-
-
欠采样 undersampling,剔除一些数量多的类别样本
-
去除负样本使得正负样本数目接近
-
将负样本划分成多个集合供不同的学习器使用
-
-
-
数据合成
-
样本增加高斯噪声 data smoothing
-
SMOTE
- 随机选取一个正样本,然后用 k 近邻选取一个与其最相似的样本,取两个样本中值或者均值,作为新样本。
-
-
重加权 re-weighting
-
通过样本权重或者 loss 权重给数量多的类别降权,给数量少的类别加权。
-
[[F1 Reweight Loss]] 调节二分类模型 recall/precision 相对权重的损失函数
-
[[F1 Score]]
-
F_beta
-
大于 1,重 recall,小于 1 关注准确
-
-
-
增加辅助任务
- 引入自监督对比学习
-
迁移学习 tranzsfer learning
-
度量学习 metric learning
-
阈值移动 threshold-moving
-
二分类中将 0.1 当成是正样本
- 模型倾向于样本多的部分
-
再缩放 rescalling
-
-
模型融合
- 0.1 正样本,0.9 负样本,负样本拆成 9 份。利用负样本和正样本训练 9 个模型,加权得到最后的结果
分类机器学习中,某一标签占比太大(标签稀疏),如何学习? - 知乎 (zhihu.com)
-
难易样本不均衡还是正负样本不均衡
- [[Focal Loss]] 针对困难样本,标签稀疏不一定是困难样本。