可解释性
可解释模型
- 线性回归、逻辑回归、决策树
特征重要性
-
Permutation Importance
- 要某个研究特征的重要性,将特征对应的数据打乱排序,观察 metric 或 loss 变化。如果变化不大,说明该特征重要性低
-
[[@A Unified Approach to Interpreting Model Predictions]] 通过 SHAP 计算每一个样本中的特征影响力
- [[@“Why Should I Trust You?”: Explaining the Predictions of Any Classifier]] LIME 与模型无关的局部可解释。假设非线性模型的局部是近似线性的,用线性模型的权重大小反应对应特征的重要程度。
-
XGBoost 特征重要性指标
get_score
方法- 特征在所有树中做为划分属性的次数
+ 特征作为划分属性时 loss 平均的降低量
+ 特征作为划分属性时对样本的覆盖度
单特征分析
-
Partial Dependence Plots 部分依赖图,通过改变部分变量的值而固定其余变量的方式研究部分变量与预测目标的关系。
-
开源工具包 pdpbox,同时改变多个样本的部分变量为相同值,然后求预测结果的平均值。
- x 是特征取值范围,y 轴代表预测结果。随着特征取值变大,y 逐渐增大然后收敛。
-
多特征分析
-
pdpbox 工具
- 颜色越浅这个概率越大
树模型可视化
- 通过
xgb.plot_tree
画出树的分裂过程
-
观察项
-
树的路径以及对应叶子节点权值是否符合业务常识
-
badcase 以及树结构有没有特点
-
不同特征在树中分布情况
-
那些特征经常是父子节点关系?那些特征经常出现同一个路径上?
-
Embedding 可视化
- [[t-SNE]] 降维聚类展示
基于反向传播可视化 CNN 网络
-
CAM
-
Grad-CAM
推荐系统
-
[[@打造工业级推荐系统(十):如何构建可解释的推荐系统]]
-
给定 item embedding 按相似度召回相似物品,观察 item 相关性
-
不同召回策略的结果做对比,观察相关性、新颖性、多样性。