流程
[[Gaussian Distribution]]
-
损失函数 (yi−f(xi))2
-
负梯度 yi−f(xi)
-
初始化 m∑yi
-
叶节点估计
[[AdaBoost]]
-
损失函数 e−(2y−1)f(x),y∈{1,0}
- 也可以是 e−yf(x),y∈{1,−1}
-
负梯度 (2y−1)e−(2y−1)f(x)
-
g=−(2y−1)e−(2y−1)f(x), h=(2y−1)2e−(2y−1)f(x)=e−(2y−1)f(x)
-
初始化 F0=21log∑P(y=−1∣x)∑P(y=1∣x)
-
叶节点估计 −hg=e−(2y−1)f(x)(2y−1)e−(2y−1)f(x)=2y−1
[[Bernoulli Distribution]]
-
gbdt 代码中 y∈{0,1}
-
logistics Regression 与对数损失函数转化
-
y∗=21,y∗∈{0,1}
-
eyF(x)+e−yF(x)=eF(x)+e−F(x),y∈{−1,1}
-
y∗logp(x)+(1−y∗)log(1−p(x))=21+ylogeF(x)+e−F(x)eF(x)+21−ylogeF(x)+e−F(x)e−F(x)
-
=21+ylogeF(x)+21−yloge−F(x)+21+ylogeF(x)+e−F(x)1+21−ylogeF(x)+e−F(x)1=yF(x)+logeF(x)+e−F(x)1
-
=logeyF(x)+e−yF(x)eyF(x)=log(1+e−2yF(x))
-
对数损失函数 log(1+e−2yf(x)),y∈{−1,1},F(x)=21logP(y=−1∣x)P(y=1∣x)
-
负梯度 1+e2yf(x)2y
-
初始化 F0=log∑P(y=−1∣x)∑P(y=1∣x)
-
叶节点估计 ∑xi∈Rjm∣yi~∣(2−∣yi~∣)∑xi∈Rjmyi~
-
single Newton-Raphson
-
log(1+e−2yf(x))
-
一阶导数 g=−1+e2yiFm−1(x)2yi
-
二阶导数 h=(1+e2yiFm−1(x))24yi2e2yiFm−1(x)
-
θ=−hg=∣yi~∣(2−∣yi~∣)yi~
-
∣yi~∣(2−∣yi~∣)=∣1+e2yiFm−1(x)2yi∣(2−∣1+e2yiFm−1(x)2yi∣)=(1+e2yiFm−1(x))2∣2yi∣(2∣1+e2yiFm−1(x)∣−∣2yi∣)=(1+e2yiFm−1(x))2∣4yi+4yie2yiFm−1(x)∣−4yi2=(1+e2yiFm−1(x))24yi2e2yiFm−1(x)
[[Poisson Distribution]]
-
概率密度函数:f(y;μ)=y!μye−μ
-
对数似然函数:l(y;μ)=∑i=1myilogμi−μi−log(yi!)
-
损失函数:L(yi,F(xi))=∑i=1mehW(x)−yilog(hW(xi))
-
负梯度:yi~=−[∂F(x)∂L(yi,F(xi))]F(x)=Fm−1(x)=yi−eFm−1(xi)
-
初始化 log(m∑i=1myi)
-
叶节点估计 log(∑i=1meFm−1(xi)∑i=1myi~)
[[Laplace Distribution]] MAE
-
损失函数 ∑i=1m∣yi−F(xi)∣
-
负梯度 yi~=−[∂F(x)∂L(yi,F(xi))]F(x)=Fm−1(x)=sign(yi−F(xi))
-
初始化 median(y)
-
叶节点估计 median(yi~)
MAPE
-
损失函数 ∑i=1myi∣yi−F(xi)∣
-
负梯度 yi~=−[∂F(x)∂L(yi,F(xi))]F(x)=Fm−1(x)=−yisign(yi−F(xi))
-
初始化 medianw(y)
-
叶节点估计 medianw(yi~)
-
证明:
[[SMAPE]]
-
解析解不好求,还是直接用 XGB 的二阶泰勒展开方便
-
损失函数 ∑i=1m2yi+F(xi)∣yi−F(xi)∣
-
负梯度 yi~=−[∂F(x)∂L(yi,F(xi))]F(x)=Fm−1(x)=−(yi+F(xi))24∗yi∗sign(yi−F(xi))
Ref