Rokid 语音识别

优质
小牛编辑
174浏览
2023-12-01

1.1. 语音识别

语音识别(ASR,Automatic Speech Recognition),用于将语音中的文字信息转换为计算机可读的输入信息,例如按键、二进制编码或者字符序列,实现人机交互。

1.1.1. 技术简介

语音识别系统分训练和解码两阶段。训练,即通过大量标注的语音数据训练声学模型,通过大量的文本数据训练语言模型;解码,即通过声学模型和语言模型将训练集外的语音数据识别成文字。

1.1.2. 主要功能

  • 支持多语种 Rokid ASR支持中文、英语、汉英混合语种的识别。

  • 支持远场噪声环境的识别 支持远距离的语音识别,识别距离长达5米。同时,即使在嘈杂环境,也能精准识别。

  • 支持特定句式、词汇的识别优化 支持用户自定义句式的优化识别,用于提升场景化识别指令的识别率。支持用户设置热词的优化识别,提升特定词汇的识别率。

1.1.3. 优势亮点

  • 支持实时快速、精确的云端识别和远场拾音, 5米距离识别准确率高达>92%。

  • 识别输出支持流式格式,能够实时地得到当前识别的结果,根据字段判断是否返回最终结果。

  • 为保证用户口音和生僻字、方言的识别,针对用户粒度配置误识别较高的纠错指令,通过app端的人工干预,进行识别的纠正。

  • 支持通用领域识别和垂直领域定制识别,定期增加领域数据,快速迭代,持续提升识别率。

1.1.4. 历史版本

版本号更新内容
V1.81、新增线上喜马拉雅、音乐、影视和故事的数据,新增微博和论坛数据,提升识别准确率。
2、更新词典,增加热歌英文单词,提升音乐识别率。
3、上线FCTC模型,badcase优化44.96%。
4、识别性能明显提升,产品点播通过率的优化幅度>5%。
V1.71、优化提升儿童识别率。支持第三方厂家进行配置。
2、增加烹饪、路况、医疗、星座、股票等领域数据,优化提升通用识别率。
3、更新辞典,覆盖更多新词、人名、生僻字和繁体字,持续优化发音、变声等问题。
4、提升语音识别的稳定性。
V1.61、更新词典和语言模型,优化线上点播通过率。
V1.51、支持ASR置信度输出。
2、优化ASR内容的识别,提升ASR的性能。
V1.41、修正VAD bug。
2、发音字典更新。
3、优化grammar命中率,提高识别准确率。
V1.31、优化影视、喜马拉雅内容的识别率。
2、优化儿童唤醒&识别。
3、优化ASR误命中、误识别的问题。
V1.21、口音识别优化更新,增加四川数据。
2、优化儿童唤醒&识别。
V1.11、修正VAD bug。
2、发音字典更新。
3、优化grammar命中率,提高识别准确率。
V1.01、优化rokid语言模型,提高识别准确率。
2、更新词典、修复grammar问题。