集成学习
分类
Boosting 减少偏差
串行训练
逐步聚焦基分类器分错的样本,减少集成分类器的偏差。
Bagging 减少方差
并行训练
多次对训练样本进行采样,并分别训练多个不同的模型,然后做综合,减少集成分类器的方差。
[[stacking]] 提升预测精度
一个母模型整合多个子模型
子模型用整个训练集来训练,但是使用的算法不同,异质集成
基本步骤
找到误差相互独立的基分类器
训练基分类器
合并基分类器的结果
voting
-
[[Adaboost]] 对数据处理而非算法进行处理,使得下一次子模型使用的训练数据更加侧重上次预测不准的部分。
对分类正确的样本降低权重
对错误分类的样本升高或者保持权重不变
在模型融合过程中,根据错误率对基分类器进行加权融合,错误率低的分类器拥有更大话语权
基分类器
可否将随机森林中的基分类器,由决策树替换为线性分类器或K-近邻?请解释为什么?
Bagging 好处集成后的分类器方差比基分类器小
基分类器最好是不稳定的分类器,对样本分布比较敏感。
线性分类器或K-近邻都是比较稳定的分类器,bagging 并不能在原有的分类器基础上获得更好的表现。
- bagging 中对数据进行采样,可能导致他们比较难收敛,增大偏差。
可以将基分类器换成神经网络
[[Q - 集成学习是否能学到子分类器没有的新东西?]]
[[Ref]]