Rokid 语音识别

优质

小牛编辑

218浏览

2023-12-01

1.1. 语音识别

语音识别（ASR，Automatic Speech Recognition），用于将语音中的文字信息转换为计算机可读的输入信息，例如按键、二进制编码或者字符序列，实现人机交互。

语音识别系统分训练和解码两阶段。训练，即通过大量标注的语音数据训练声学模型，通过大量的文本数据训练语言模型；解码，即通过声学模型和语言模型将训练集外的语音数据识别成文字。

版本号	更新内容
V1.8	1、新增线上喜马拉雅、音乐、影视和故事的数据，新增微博和论坛数据，提升识别准确率。 2、更新词典，增加热歌英文单词，提升音乐识别率。 3、上线FCTC模型，badcase优化44.96%。 4、识别性能明显提升，产品点播通过率的优化幅度>5%。
V1.7	1、优化提升儿童识别率。支持第三方厂家进行配置。 2、增加烹饪、路况、医疗、星座、股票等领域数据，优化提升通用识别率。 3、更新辞典，覆盖更多新词、人名、生僻字和繁体字，持续优化发音、变声等问题。 4、提升语音识别的稳定性。
V1.6	1、更新词典和语言模型，优化线上点播通过率。
V1.5	1、支持ASR置信度输出。 2、优化ASR内容的识别，提升ASR的性能。
V1.4	1、修正VAD bug。 2、发音字典更新。 3、优化grammar命中率，提高识别准确率。
V1.3	1、优化影视、喜马拉雅内容的识别率。 2、优化儿童唤醒&识别。 3、优化ASR误命中、误识别的问题。
V1.2	1、口音识别优化更新，增加四川数据。 2、优化儿童唤醒&识别。
V1.1	1、修正VAD bug。 2、发音字典更新。 3、优化grammar命中率，提高识别准确率。
V1.0	1、优化rokid语言模型，提高识别准确率。 2、更新词典、修复grammar问题。