摘要:
实时执行像素语义分割的能力在移动应用程序中至关重要。最近针对这一任务的深层神经网络的缺点是需要大量的浮点运算,并且运行时间长,这阻碍了其可用性。在本文中,我们提出了一种新的深度神经网络体系结构ENet(高效神经网络),专门为需要低延迟操作的任务创建。ENet的速度高达18CamVid,Cityscaoes和SUN数据集上对其进行了测试,并报告了与现有最先进方法的比较,以及网络精度和处理时间之间的权衡。我们减少了嵌入式系统上拟议体系结构的性能度量,并提出了可能的软件改进建议,是ENet更快。
介绍
最近人们对增强现实可穿戴设备、家庭自动化设备和自动驾驶车辆的兴趣使得人们迫切需要能够在低功耗移动设备上实时运行的语义分割(或视觉场景理解)算法。这些算法用一个对象类标记图像中的每个像素。近年来,大型数据集和计算能力强大的集齐的可用性帮助深度卷积神经网络CNN超过了许多传统计算机视觉算法的性能,尽管CNN在分类和分类任务方面越来越成功,但当应用于图像的像素级标记时,他们提供了粗略的空间结果哦。因此,他们通常与其他算法级联以细化结果。列如基于颜色的分割或条件随机场
为了对图像进行空间分类和精细分割,提出了几种神经网络结构,如segnet或全卷积网络。所有泽泻工作都基于vgg16体系结构,这是一个为多分类设计的非常大的模型。这些参考文献提出了具有大量参数和较长推理时间的网络。在这些条件下,他们无法用于许多移动或电池供电的应用程序。这些应用程序需要以高于10fps的速率处理图像。
在本文中,我们提出了一种新的神经网络结构,该结构又花了快速推理和高精度,使用Enet分割的图像示例如图1所示。在我们的工作中,我们选择了不适用任何后处理步骤,这当然可以与我们的方法相结合,但会恶化端到端CNN方法的性能
2相关工作
语义分割对于理解图像内容和发现目标对象具有重要意义。这项拘束在驾驶辅助和增强现实等应用中至关重要。此外,实时操作对他们来说是必须的,因此,仔细设计
cnn是至关重要的。现代计算机视觉应用管饭使用深度神经网络,这是目前用于许多不同任务(包括语义分割)的最广泛的技术之一。这项工作提出了一种新的神经网络结构,因此我们的目标是与以相同执行发部分推理的其他文献进行比较。
最先进的场景解析CNN使用两种独立的神经网络结构组合一起,编码器和解码器。受概率自动编码器的启发,segnet basic引入了编码器-解码器网络架构,并在segnet中进一步改进。编码器是一个普通的cnn 他经过训练以对输入进行分类,而解码器用于对编码器的输出进行上采样。然而,这些网络由于其庞大的体系结构与众多的参数,在推理过程中速度较慢。与完全卷积网络FCn不同,在最新版本的segnet中,完全链接的vgg16层被丢弃,以钱少浮点操作的数量和内存占用,使其成为这些网络中最小的网络。,不过,他们都不能实施运行。
其他现有架构使用更简单的分类器,然后将其与已傲剑随机场CRF级联作为后处理步骤。如11所示,这些技术使用繁重的后处理步骤,通常无法标记在一镇中占用较少像素的类。cnn也可以与递归神经网络相结合以提高精度,但随后他们的速度会下降。此外,必须记住,RNN作为后处理步骤,可以与任何其他技术结合使用,包括本工作中介绍的技术。
3网路体系结构
我们的网路架构如表1所示,他氛围几个阶段,由表中的水平线和每个块名称后的第一个数字突出显示。报告了512*512的示例输入图像分辨率的输出大小。我们采用resnet的观点,将其描述为具有单个主分支和与之分离的卷积滤波器的扩展。
BottleneckBlock:残差块
shortcut:为了解决深度网络中梯度发散,难以训练的问题深入理解shortcut_蓝鲸_007的博客-CSDN博客