Categories
程式開發

华为开源端侧神经网络架构GhostNet,超越谷歌MobileNet | CVPR 2020论文解读


近日,华为诺亚方舟实验室的一篇论文被CVPR 2020接受,该论文提出了一种新型的端侧神经网络架构GhostNet,该架构在同样精度下,速度和计算量均少于SOTA算法。

该论文提供了一个全新的Ghost模块,旨在通过廉价操作生成更多的特征图。基于一组原始的特征图,作者应用一系列线性变换,以很小的代价生成许多能从原始特征发掘所需信息的“幻影”特征图(Ghost feature maps)。该Ghost模块即插即用,通过堆叠Ghost模块得出Ghost bottleneck,进而搭建轻量级神经网络——GhostNet。在ImageNet分类任务,GhostNet在相似计算量情况下Top-1正确率达75.7%,高于MobileNetV3的75.2%。

论文链接:https://arxiv.org/abs/1911.11907

开源地址:https://github.com/huawei-noah/ghostnet

引言

卷积神经网络推动了计算机视觉诸多任务的进步,比如图像识别、目标检测等。但是,神经网络在移动设备上的应用还亟待解决,主要原因是现有模型又大又慢。因而,一些研究提出了模型的压缩方法,比如剪枝、量化、知识蒸馏等;还有一些则着重于高效的网络结构设计,比如MobileNet,ShuffleNet等。本文就设计了一种全新的神经网络基本单元Ghost模块,从而搭建出轻量级神经网络架构GhostNet。

在一个训练好的深度神经网络中,通常会包含丰富甚至冗余的特征图,以保证对输入数据有全面的理解。如下图所示,在ResNet-50中,将经过第一个残差块处理后的特征图拿出来,三个相似的特征图对示例用相同颜色的框注释。 该对中的一个特征图可以通过廉价操作(用扳手表示)将另一特征图变换而获得,可以认为其中一个特征图是另一个的“幻影”。因为,本文提出并非所有特征图都要用卷积操作来得到,“幻影”特征图可以用更廉价的操作来生成。

华为开源端侧神经网络架构GhostNet,超越谷歌MobileNet | CVPR 2020论文解读 1

图1 ResNet50特征图可视化

在本文中,作者提出了一种新颖的Ghost模块,可以使用更少的参数来生成更多特征图。具体来说,深度神经网络中的普通卷积层将分为两部分。第一部分涉及普通卷积,但是将严格控制它们的总数。给定第一部分的固有特征图,然后将一系列简单的线性运算应用于生成更多特征图。与普通卷积神经网络相比,在不更改输出特征图大小的情况下,该Ghost模块中所需的参数总数和计算复杂度均已降低。基于Ghost模块,作者建立了一种有效的神经体系结构,即GhostNet。作者首先在基准神经体系结构中替换原始的卷积层,以证明Ghost模块的有效性,然后在几个基准视觉数据集上验证GhostNet的优越性。实验结果表明,所提出的Ghost模块能够在保持相似识别性能的同时降低通用卷积层的计算成本,并且GhostNet可以超越MobileNetV3等先进的高效深度模型,在移动设备上进行快速推断。

方法

Ghost模块

华为开源端侧神经网络架构GhostNet,超越谷歌MobileNet | CVPR 2020论文解读 2

华为开源端侧神经网络架构GhostNet,超越谷歌MobileNet | CVPR 2020论文解读 3

图2 (a) 普通卷积层 (b) Ghost模块

华为开源端侧神经网络架构GhostNet,超越谷歌MobileNet | CVPR 2020论文解读 4

复杂度分析

华为开源端侧神经网络架构GhostNet,超越谷歌MobileNet | CVPR 2020论文解读 5

构建GhostNet

Ghost Bottleneck:利用Ghost模块的优势,作者介绍了专门为小型CNN设计的Ghost bottleneck(G-bneck)。如图3所示,Ghost bottleneck似乎类似于ResNet中的基本残差块(Basic Residual Block),其中集成了多个卷积层和shortcut。Ghost bottleneck主要由两个堆叠的Ghost模块组成。第一个Ghost模块用作扩展层,增加了通道数。这里将输出通道数与输入通道数之比称为expansion ratio。第二个Ghost模块减少通道数,以与shortcut路径匹配。然后,使用shortcut连接这两个Ghost模块的输入和输出。这里借鉴了MobileNetV2,第二个Ghost模块之后不使用ReLU,其他层在每层之后都应用了批量归一化(BN)和ReLU非线性激活。上述Ghost bottleneck适用于stride= 1,对于stride = 2的情况,shortcut路径由下采样层和stride = 2的深度卷积(Depthwise Convolution)来实现。出于效率考虑,Ghost模块中的初始卷积是点卷积(Pointwise Convolution)。

华为开源端侧神经网络架构GhostNet,超越谷歌MobileNet | CVPR 2020论文解读 6

图3 Ghost bottleneck

GhostNet:基于Ghost bottleneck,作者提出GhostNet,如表1所属。作者遵循MobileNetV3的基本体系结构的优势,然后使用Ghost bottleneck替换MobileNetV3中的bottleneck。GhostNet主要由一堆Ghost bottleneck组成,其中Ghost bottleneck以Ghost模块为构建基础。第一层是具有16个卷积核的标准卷积层,然后是一系列Ghost bottleneck,通道逐渐增加。这些Ghost bottleneck根据其输入特征图的大小分为不同的阶段。除了每个阶段的最后一个Ghost bottleneck是stride = 2,其他所有Ghost bottleneck都以stride = 1进行应用。最后,利用全局平均池和卷积层将特征图转换为1280维特征向量以进行最终分类。SE模块也用在了某些Ghost bottleneck中的残留层,如表1中所示。与MobileNetV3相比,这里用ReLU换掉了Hard-swish激活函数。尽管进一步的超参数调整或基于自动架构搜索的Ghost模块将进一步提高性能,但表1所提供的架构提供了一个基本设计参考。

华为开源端侧神经网络架构GhostNet,超越谷歌MobileNet | CVPR 2020论文解读 7

表1 GhostNet网络架构

实验

Ghost模块消融实验

如上所述,Ghost模块具有两个超参数,也就是,s用于生成 m=n/s个内在特征图,以及用于计算幻影特征图的线性运算的 d*d (即深度卷积核的大小)。作者测试了这两个参数的影响。

首先,作者固定s=2并在{1,3,5,7} 范围中调整d,并在表2中列出CIFAR-10验证集上的结果。作者可以看到,当d=3的时候,Ghost模块的性能优于更小或更大的Ghost模块。这是因为大小为1X1的内核无法在特征图上引入空间信息,而较大的内核(例如d=5或 d=7)会导致过拟合和更多计算。因此,在以下实验中作者采用d=3来提高有效性和效率。

华为开源端侧神经网络架构GhostNet,超越谷歌MobileNet | CVPR 2020论文解读 8

表2 超参数d的影响

在研究了内核大小的影响之后,作者固定d=3并在{2,3,4,5} 的范围内调整超参数s。实际上, s与所得网络的计算成本直接相关,即,较大的s导致较大的压缩率和加速比。从表3中的结果可以看出,当作者增加s时,FLOP显着减少,并且准确性逐渐降低,这是在预期之内的。特别地,当s=2 ,也就是将VGG-16压缩2x时,Ghost模块的性能甚至比原始模型稍好,表明了所提出的Ghost模块的优越性。

华为开源端侧神经网络架构GhostNet,超越谷歌MobileNet | CVPR 2020论文解读 9

表3 超参数s的影响

作者将Ghost模块用在VGG-16和ResNet-56架构上,然后和几个代表性的最新模型进行了比较。Ghost-VGG-16 (s=2)以最高的性能(93.7%)胜过竞争对手,但FLOPs明显减少。 对于已经比VGG-16小得多的ResNet-56,基于Ghost模块的模型可以将计算量降低一半时获得可比的精度,还可以看到,其他具有相似或更大计算成本的最新模型所获得的准确性低于Ghost模型。

华为开源端侧神经网络架构GhostNet,超越谷歌MobileNet | CVPR 2020论文解读 10

表4 在CIFAR-10数据集和SOTA模型对比

特征图可视化

作者还可视化了Ghost模块的特征图,如图4所示。 图4展示了Ghost-VGG-16的第二层特征,左上方的图像是输入,左红色框中的特征图来自初始卷积,而右绿色框中的特征图是经过廉价深度变换后的幻影特征图。尽管生成的特征图来自原始特征图,但它们之间确实存在显着差异,这意味着生成的特征足够灵活,可以满足特定任务的需求。

华为开源端侧神经网络架构GhostNet,超越谷歌MobileNet | CVPR 2020论文解读 11

图4 Ghost-VGG-16的第二层输出特征图可视化

华为开源端侧神经网络架构GhostNet,超越谷歌MobileNet | CVPR 2020论文解读 12

图5 原始VGG-16的第二层输出特征图可视化

GhostNet性能

ImageNet分类数据集:为了验证所提出的GhostNet的优越性,作者对ImageNet分类任务进行了实验。在ImageNet验证集上报告的所有结果均是single crop的top-1的性能。对于GhostNet,为简单起见,作者在初始卷积中设置了内核大小 k=1,在所有Ghost模块中设置了s=2和 d=3 。作者和现有最优秀的几种小型网络结构作对比,包括MobileNet系列、ShuffleNet系列、IGCV3、ProxylessNAS、FBNet、MnasNet等。结果汇总在表5中,这些模型分为3个级别的计算复杂性,即~50,~150和200-300 MFLOPs。从结果中我们可以看到,通常较大的FLOPs会在这些小型网络中带来更高的准确性,这表明了它们的有效性。而GhostNet在各种计算复杂度级别上始终优于其他竞争对手,主要是因为GhostNet在利用计算资源生成特征图方面效率更高。

华为开源端侧神经网络架构GhostNet,超越谷歌MobileNet | CVPR 2020论文解读 13

表5 GhostNet在ImageNet数据集的表现

硬件推理速度:由于提出的GhostNet是为移动设备设计的,因此作者使用TFLite工具在基于ARM的手机华为P30Pro上进一步测量GhostNet和其他模型的实际推理速度。遵循MobileNet中的常用设置,作者使用Batch size为1的单线程模式。从图6的结果中,我们可以看到与具有相同延迟的MobileNetV3相比,GhostNet大约提高了0.5%的top-1的准确性,另一方面GhostNet需要更少的运行时间来达到相同的精度。例如,精度为75.0%的GhostNet仅具有40毫秒的延迟,而精度类似的MobileNetV3大约需要46毫秒来处理一张图像。总体而言,作者的模型总体上胜过其他最新模型,例如谷歌MobileNet系列,ProxylessNAS,FBNet和MnasNet。

值得指出的是,华为内部开发了一款神经网络部署工具Bolt,对GhostNet实现做了进一步优化,速度相比其他框架如NCNN、TFLite更快。感兴趣的读者可以参考:

https://github.com/huawei-noah/bolt

华为开源端侧神经网络架构GhostNet,超越谷歌MobileNet | CVPR 2020论文解读 14

COCO目标检测数据集:为了进一步评估GhostNet的泛化能力,作者在MS COCO数据集上进行了目标检测实验。具有特征金字塔网络(FPN)的两阶段Faster R-CNN和单阶段的RetinaNet作为baseline,而GhostNet用于骨干网络做特征提取器。表6显示了检测结果,其中FLOPs是使用 [公式] 输入图像计算的。通过使用显着降低的计算成本,GhostNet可以在单阶段的RetinaNet和两阶段的Faster R-CNN框架上达到和MobileNetV2和MobileNetV3类似的mAP。

华为开源端侧神经网络架构GhostNet,超越谷歌MobileNet | CVPR 2020论文解读 15

表6 GhostNet在COCO数据集的表现

总结

为了减少最新的深度神经网络的计算成本,本文提出了一种用于构建高效的神经网络结构的新型Ghost模块。Ghost模块将原始卷积层分为两部分,首先使用较少的卷积核来生成原始特征图,然后,进一步使用廉价变换操作以高效生产更多幻影特征图。在基准模型和数据集上进行的实验表明,该方法是一个即插即用的模块,能够将原始模型转换为更紧凑的模型,同时保持可比的性能。此外,在效率和准确性方面,使用提出的新模块构建的GhostNet均优于最新的轻量神经网络,如MobileNetV3。

作者介绍:

王云鹤 华为诺亚,深度学习边缘计算

原文链接:

https://zhuanlan.zhihu.com/p/109325275