在机器学习任务中,需要最小化损失函数 L(θ) 来,其中 θ 是模型的参数。梯度下降法常用来求解无约束的最优化问题,它在选定的初始值 θ0 基础上不断迭代得到新的 θ 值,最终实现极小化损失函数。
迭代公式:θt=θt−1+Δθ
-
将 L(θt) 在 θt−1 处进行一阶泰勒展开:L(θt)=L(θt−1+Δθ)≈L(θt−1)+L′(θt−1)Δθ
-
要使 L(θt)<L(θt−1),取 Δθ=−αL′(θt−1)
-
其中 α 是步长,可以通过 line search 确定,但一般直接赋一个小的数。
See Also