当前位置: 首页 > 工具软件 > ENet > 使用案例 >

机器学习笔记 - ENet论文解读

万俟飞语
2023-12-01

一、概述

        实时执行逐像素语义分割的能力在移动应用程序中至关重要。 最近针对此任务的深度神经网络的缺点是需要大量的浮点运算,并且运行时间长,这阻碍了它们的可用性。 在本文中,我们提出了一种名为 ENet(高效神经网络)的新型深度神经网络架构,专为需要低延迟操作的任务而创建。 ENet 的速度提高了 18 倍,所需的 FLOP 减少了 75 个,参数减少了 79 个,并且提供了与现有模型相似或更好的准确度。 我们已经在 CamVid、Cityscapes 和 SUN 数据集上对其进行了测试,并报告了与现有最先进方法的比较,以及网络准确性和处理时间之间的权衡。我们提出了在嵌入式系统上提出的架构的性能测量,并建议了可能使 ENet 更快的软件改进。

        对可以在低功耗移动设备上实时运行的语义分割(或视觉场景理解)算法产生了强烈的需求。这些算法用对象类别之一标记图像中的每个像素。近年来,更大数据集和计算能力强大的机器的可用性帮助深度卷积神经网络 (CNN) 超越了许多传统计算机视觉算法的性能。 尽管 CNN 在分类和分类任务中越来越成功,但它们在应用于图像的像素标记时提供了粗略的空间结果。 因此,它们通常与其他算法级联以优化结果,例如基于颜色的分割或条件随机场等。

        为了对图像进行空间分类和精细分割,已经提出了几种神经网络架构,例如 SegNet或全卷积网络。 所有这些工作都基于VGG16架构,这是一个为多类分类而设计的非常大的模型。这些参考文献提出了具有大量参数和较长推理时间的网络。在这些条件下,它们无法用于许多需要以高于 10 fps 的速率处理图像的移动或电池供电应用。

 类似资料: