SGD
每次迭代只采样一个样本
优化 learn-rate,自适应学习率
-
自适应学习率的方法:对不同的参数使用不同的学习率,参数更新频率和更新步长负相关
-
[[Annealing]],全局共享learn_rate 所有的参数以相同的幅度进行更新
-
随步衰减
-
指数衰减
-
1/t衰减
-
-
[[AdaGrad]],参数独立 learn_rate 更新幅度取决于参数本身
-
-
-
-
计算一个时间区间内的梯度值累积和 [[移动平均]]
-
AdaDelta 分母滑动区间 + 单位矫正
-
-
[[RMSProp]] 分子滑动区间
-
cache = decay_rate * cache + (1 - decay_rate) * dx**2
-
x += - learning_rate * dx / (sqrt(cache) + eps)
-
-
-
[[Adam]] 分子动量版
-
-
-
优化梯度方向,减小震荡
-
[[Momentum]]:强化相关方向的训练和弱化无关方向的震荡来加速 SGD 收敛
-
-
V[t+1] = rho * v[t] + dx;
-
x[t+1] = x[t] - learningRate * V[t+1]
-
-
Nesterov 梯度加速法
-
预判前方地形
-
-
梯度下降法 [[SGD]]
-
并行化,Scalable
-
Downpour SGD
-
Hogwild!
-