特征选择
过滤法#card
-
直接通过统计方法计算单特征和目标label的相关性,并选择topk,或通过卡阈值过滤掉一定数量的特征。
-
常见的特征相关性可以使用皮尔逊相关系数、卡方检验等方式度量。
迭代法通过迭代的方式进行特征选择,#card
- 如预先使用所有的特征训练LR模型,接着丢弃5%~10%的弱特征(对应权重低的特征),如此反复直到评价指标下降明显,剩下的特征则保留。
模型选择方法也比较直觉,#card
- 使用L1正则训练LR模型,如剔除权重为0的特征;或者训练LR模型,使用单特征输入计算单特征AUC衡量特征重要性;亦或者使用树模型进行自动特征工程,同样也是特征选择的一种,如经典的GBDT、GBDT+LR。