论文笔记《Active Convolution: Learning the Shape of Convolution for Image Classification》
研究背景
近年来,深入学习在许多计算机视觉应用中取得了巨大的成功。传统的卷积神经网络(CNN)成为最近几年计算机视觉研究的主要方法。
AlexNet 迄今为止,关于CNN的大多数研究集中在开发诸如Inception , residual networks的这种网络结构上。 卷积单元通常设置为3*3,5*5,11*11 这种固定的卷积单元。但是卷积层是CNN的核心,却很少有研究针对卷积单元本身。
CNN模型 | Layers | convolutions | Contribution | ILSVRC top-5 error |
AlexNet | 8层(5 +3) | 33 , 55 , 1111 | Dropout ReLU | 16.4% |
VGGNet | 16层(13+3) | 11,33 | 11卷积核 更深的网络效果更好 | 7.3% |
GoogleNet | 22层 | 11 , 33 , 55 | Inception | 6.7% |
ResNet | 152 | 11 , 33 , 77 | shortcut | 3.57% |
研究内容
在本文中,提出了一种新的卷积单元。和传统的卷积单元及其变形不同,这种卷积单元并不具有一个固定的感受野,并且它能为不同的卷积层获得不同的感受野。
由于卷积单元的形状可变,因此称它为主动卷积单元ACU(Active Convolution Unit)。这种新的卷积单元没有固定的形状,它的形状是在训练的过程中学习得到的。因此我们可以定义任何形式的卷积。
一,**ACU**的优点
ACU*的**优点*:更灵活的结构 à 更强的表达能力**
1,ACU是一般化的卷积;它不仅可以定义所有传统的卷积,还可以定义具有局部像素坐标的卷积。我们可以自由地改变卷积的形状,从而提供更大的自由形成CNN结构。
2,卷积的形状是在训练时学习的,没有必要手动调整。
3,ACU可以比传统的卷积单元更好地学习,可以通过将传统卷积改为ACU来获得改进。
ACU**:一种新的带位置参数的卷积单元**
ACU**具有更强的表达能力**
2**,位置参数的学习**
传统的卷积可用如下等式描述:
ACU**除了要训练学习 weight 和 bais 参数外,还要学习位置参数来控制突触在神经元之间的连接位置。**
通过**θp,可以定义ACU**:
线性插值
双线性插值
前向传播
反向传播
位置参数的学习
由此可以看出来只与权重有关
3**,梯度归一化**
突触位置的反向传播值的大小控制其移动的大小。如果该值太小,突触停留在几乎相同的位置,因此ACU无效。相比之下,一个大的值使得突触变化多样化。因此,控制移动的大小很重要。
相对于位置的偏导数取决于权重,并且反向传播的误差可以在层之间波动。因此,确定位置的学习率比较困难。
减少层间梯度波动的一种方法是仅使用导数的方向,而不是大小。当我们使用归一化的位置梯度时,我们可以很容易地控制移动位置的大小。在实验中观察到,使用归一化梯度使得训练更容易,并获得了良好的效果。
归一化的位置梯度定义为:
初始的学习率设置为 0.001 ,这意味着突触在每次迭代后,只能移动 0.001 个像素点。也就是说,在一千次迭代后,突触最多只能移动一个像素点。
由于最开始的weight值是一般是从随机分布中初始化得到的,早期的突触的移动会变得相对随机,这使得position可能会保持局部最小值。
在早期的迭代中,网络的卷积单元具有固定的形状。之后才开始同时学习weight和position,这样会帮助突触学习到一个更稳定的形状。
实验过程及结果
ACU with a Plain Network
1,仅包含卷积层,不含池化层
2,使用了批归一化,ReLU
3,突触初始形状和传统的3*3卷积单元相同
4,使用 CIFAR-10/100 数据集
网络结构
位置的学习
ACU with the Residual Network
#
总结
ACU ( Active Convolution Unit ) 相比传统的卷积单元拥有更好的灵活性,因此在表达能力上更强。使用ACU会增加较少的 position 参数,position 可以在反向传播中得到学习。
实验结果表明,通过简单地改变卷积单元的结构,网络取得了更好的 performance
还没有评论,来说两句吧...