当前位置: 首页 > 工具软件 > DeepSpeech > 使用案例 >

deepspeech 1 (百度 2014 论文解读)

吕琪
2023-12-01

论文:https://arxiv.org/pdf/1412.5567.pdf
题目:Deep Speech: Scaling up end-to-end speech recognition

摘要

我们提出了使用端到端深度学习开发的最先进的语音识别系统。我们的体系结构比传统的语音系统要简单得多,传统的语音系统依靠费力地设计的处理管道。当在嘈杂的环境中使用时,这些传统系统的性能也往往很差。相反,我们的系统不需要手动设计的组件即可对背景噪声,混响或扬声器变化进行建模,而可以直接学习对此类效果具有鲁棒性的功能。我们不需要音素字典,甚至不需要“音素”的概念。我们方法的关键是使用多个GPU的经过优化的RNN训练系统,以及使我们能够高效地使用的一组新颖的数据合成技术。获得大量用于训练的各种数据。我们的系统称为“深层语音(Deep Speech)”,其性能优于先前在广泛研究的Switchboard Hub5’00上发布的结果,在整个测试集上实现了16.0%的误差。与广泛使用的最新商业语音系统相比,深度语音还可以更好地处理充满挑战的嘈杂环境。

1 介绍

顶级语音识别系统依赖于复杂的流水线,该流水线由多种算法和手工设计的处理阶段组成。 在本文中,我们描述了一种称为“深度语音”的端到端语音系统,其中深度学习取代了这些处理阶段。 结合语言模型,该方法在硬语音识别任务上比传统方法具有更高的性能,同时也更加简单。 通过使用多个GPU和数千小时的数据训练大型递归神经网络(RNN),可以使这些结果成为可能。 因为此系统直接从数据中学习,所以我们不需要用于扬声器调整或噪声过滤的专用组件。 实际上,在对扬声器变化和噪声的鲁棒性至关重要的环境中,我们的系统表现出色:“深层语音”的

 类似资料: