2019-05-182023-03-12 智能路 6 分钟读完 (大约955个字) 0次访问

ImageNet Classiﬁcation with Deep Convolutional Neural Networks(AlexNet)

作者以及相关性

使用 ReLU 作为激活函数：比 tanh 计算开销小，以及收敛速度快。根据问题的特点选择激活函数（大模型、大数据集）
Local Response Normalization(Norm Layers)：局部响应归一化层，后来很少使用。
在经过 ReLU 作用之后，对相同空间位置上（ ${b_{x,y}}$ ）的相邻深度（ ${b^j}$ ）的卷积结果做归一化。n 指定相邻卷积核数目，N 为该层所有卷积的数目。 ${k, n, \alpha, \beta}$ 都是超参数。本文使用 ${k=2, n=5, \alpha=10^{-4}, \beta = 0.75}$ , 分别降低 top-1 和 top-5 错误 1.4% 和 1.2%

b_{x, y}^{i}=a_{x, y}^{i} /\left(k+\alpha \sum_{j=\max (0, i-n / 2)}^{\min (N-1, i+n / 2)}\left(a_{x, y}^{j}\right)^{2}\right)^{\beta}

Pooling：s=2 < z=3，有部分重叠，作者通过实验发现这种方法可以更好地避免过拟合。
data augmentation：
- 对图像进行裁剪以及翻转，扩大数据。这种策略对测试带来影响，测试时裁剪出图片四个角落以及中间部分，得到 5 张图片，另外翻转得到 5 张图片，最后分类结果又这 10 图片的平均得分确定。
- 利用 PCA 改变 RGB 通道的强度。
Dropout：每次训练的时候，从模型中 sample 出一个小的模型，减少过拟合。

参数：dropout 0.5，batch size 128， SGD Momentum 0.9， Learning rate 1e-2 reduce by 10，L2 weight decay 5e-4
测试集上结果
取出 CONV1 相关的 filters卷积侧重点不同，GPU1 颜色无关，GPU2 颜色相关。多次实验发现都存在这种现象，说明使用多个 GPU 训练是必要的，模型可以捕捉更多信息。
取所有最后一个隐层向量，找到与测试图片欧拉距离最小的训练图片（下图中第一列为测试图片，之后几列是欧拉距离最小的训练集中图片）。肉眼可以发现，同一分类的图片有很大关联性。证明模型能学习图片之间的关系。

ImageNet Classiﬁcation with Deep Convolutional Neural Networks(AlexNet)

Ryen Xiang

2019-05-18

2023-03-12