
2.2.2 基于 ImageNet 的图像识别模型
AlexNet是2012年ImageNet挑战赛的冠军模型,第一作者是Alex,所以命名为AlexNet。从图2-4中可以看出,AlexNet可以分为上下两个部分,经过卷积得到特征图(feature map)后,模型分别经过上下两个子网络进行计算。总共有五个卷积层,分别是1个11×11、1个5×5、3个3×3卷积,部分卷积层后面使用了池化层,最后经过3个全连接层。AlexNet的贡献非常大,主要在于它的网络很深,证明了卷积神经网络(CNN)在复杂模型里也很有效,并且使用GPU训练这一复杂的模型是可以把时间控制在人类可接受范围内的,此外还使用了Dropout等技术。AlexNet模型极大地推动了深度学习的发展,让人们看到了深度学习的希望。

图2-4 AlexNet 模型结构示意图
在2014年的ImageNet挑战赛上,VGGNet深度学习网络成为人们关注的热点,因为它将AlexNet模型的错误率减少了一半以上。从图2-4中也可以看出,VGGNet学习网络的特点是连续的卷积层特别多。这里简单解释一下图2-5所示的表格含义。比如,conv3-64是指使用了3×3的卷积,通道数为64。同理,conv1-256的含义是1× 1的卷积,通道数是256。

图2-5 VGGNet 结构示意图
时间来到2015年,深度残差网络(Deep Residual Network,ResNet)赢得了ImageNet挑战赛的冠军。这个模型比以往的所有模型都要深,它可以训练100层,甚至1000层,错误率是VGGNet的一半左右,VGGNet的错误率为7%,ResNet的错误率为3.57%,并且ResNet的正确率首次超过了人类。在梯度反向传播的过程中,随着网络层增多,从最后一层反传到前面网络层的梯度会越来越小,所以网络层越多,模型越不好训练,而深度残差网络打破了这一魔咒。深度残差网络通过使用跳过连接(skip connection)使得梯度可以无损地向后传播,这样就可以训练深层模型了,如图2-6所示。

图2-6 ResNet的残差连接