《ESPNet v2:A Light-weight Power Efficient and General Purpose Convolutional Neural Network》论文笔记
代码地址:ESPNet v2
1. 概述
这篇文章在ESPNet v1的基础上进行改进得来的,这个网络结构中使用group point-wise与depth-wise膨胀分离卷积在使用较少计算量与参数的情况下有效学习大感受野的表达。文章提出的网络结构可以扩展到其它任务中去,如目标检测、语义分割、目标分类、语言模型。相比之前的v1版本文章的网络更加快速与精确;对于检测模型YOLO v2,采用文章的方法计算量减少6倍,性能也有提升。总的说来这篇文章在v1的基础上倾向于提供一个高效的轻量级网络而不仅仅是分割模型了。
这篇文章的主要贡献:
- 1)提出了一个通用化的轻量级网络结构;
- 2)在v1版本的基础上引入了depth-wise分离膨胀卷积,使得网络感受野更大,表达能力更强;
- 3)文章中提出的网络在更少运算量下得到结果更好,无论是分类还是检测等任务上;
2. 方法设计
2.1 深度可分离膨胀卷积
在MobileNet中引入了深度可分离卷积,它可以有效降低计算量,这里在深度可分离卷积的基础上在卷积上添加膨胀系数,从而增大卷积的感受野,因而将原有 n ∗ n n*n n∗n的感受野变为 ( n − 1 ) ⋅ r + 1 (n-1)\cdot r + 1 (n−1)⋅r+1(这里 n , r n,r n,r分别是卷积核的大小与膨胀系数)。不同卷积类型之间的计算量与感受野大小对比如表1所示:
2.2 EESP单元
在分组卷积与深度可分离膨胀卷积的基础上文章构建了EESP(Extremely Efficient Spatial Pyramid)单元。这个单元是源自于v1版本中的ESP模块,回顾v1版本中的ESP模块,其是在输入特征上使用深度可分离卷积减少维度,之后对这些特征分组,在不同分组的特征上使用不同参数的膨胀卷积,之后使用HFF模块将这些特征融合起来(消除方格效应)。
在这篇文章中主要针对v1中的ESP模块进行改进,引入分组卷积从而衍生除了两个版本的EESP单元。
- 1)EESP-A,该模块首先使用分组卷积处理输入的特征,之后对分组之后的卷积每组使用深度可分离膨胀卷积处理,之后使用HFF模块进行特征融合,其结构见下图所示:
- 2)EESP,该模块在EESP-A的基础上将深度可分离膨胀卷积替换为了分组卷积,从而达到进一步减少参数与计算量的目的,其结构见下图所示:
2.3 带有stride的EESP模块
这里为了从多个尺度上表达特征,文章专门设计了带有stride的EESP模块,其结构见下图所示。
在上图中做了如下改动:
- 1)将原有的深度可分离膨胀卷积替换为带有stride的版本;
- 2)右边的shortcut中带了Pooling操作,实现维度匹配;
- 3)将相加的特征融合方式替换为concat形式,增加特征的维度;
- 4)融合原始输入图像的下采样信息,使得特征信息更加丰富;
3. 实验结果
3.1 分类性能
下面是与几个当前主流的轻量级模型的比较:
还没有评论,来说两句吧...