当前位置: 首页 > 知识库问答 >
问题:

Pocketsphinx-音频预处理是必要的/推荐的?

黎苑博
2023-03-14

我使用Pocketsphinx的语音识别与西班牙语声学模型和JSGF语法,与体面的结果到目前为止。

然而,我得到了错误的音频识别结果,至少在我看来,这些音频似乎完全可以理解(根据声学模型参数,没有那么多背景噪声、采样频率和比特深度等)。

此外,这些未被正确识别的音频与被正确识别的音频似乎没有太大区别(事实上,我觉得它们听起来几乎一样)。

所以,我猜音频中有什么东西使它更难识别,也许是一些噪声频率或其他需要过滤的东西?(背景噪音、“pop”语音、人声频带外的频率等)

简而言之,你知道Pocketsphinx是否已经做了一些这样的事情,如果没有,你知道任何应用于音频文件以提高语音识别结果的最佳实践过滤器/转换/等吗?

谢啦!

共有1个答案

夹谷飞龙
2023-03-14

不,任何预处理通常都对语音识别的准确性非常有害。

现代语音识别算法的发展趋势是,即使是轻微的预处理也可能导致更糟糕的结果。因为你的语音识别能力远远优于计算机,所以你的耳朵很难分辨出来。添加轻微回声以提高自然度或简单的mp3压缩/解压缩可能会显著降低准确性。

解决方案是从您想要识别的相同音频训练模型,例如,在mp3解压音频上训练而不是干净的音频。默认模型是在干净的音频上训练的,这使得它对声音修改不是很健壮。这种多风格的训练有其自身的缺点,因为它使训练数据非常大,因此它仍然是一个正在进行的研究主题。

 类似资料:
  • Section Contents 基本内容 具体细节

  • 读取用户推荐信息 调用地址 http://api.bilibili.cn/recommend 参数 字段 必选 类型 说明 tid true int 分类编号 new排序为必填 其他为可选 page false int 结果分页选择 默认为第1页 pagesize false int 单页返回的记录条数,最大不超过100,默认为30。 order false string 排序方式 排序方式 字段

  • 目前需要用whsiper做语音转录服务,whisper限制25M的大小,请问该如何做这个事情? 目前的需求是 Android iOS Web 都需要这个功能, 目前有几种方案: 方案1 做一个音频分割服务器,然后在做一个转录服务。前端拿到语音文件之后,把语音文件传给音频分割服务器,分割服务器根据波形进行分割,分割完之后传给转录接口。 问题: 这样做的话是不是会造成语音上传多次导致时间较长的问题,因

  • 一、简介 推荐位是指管理员可以把信息推送至网页上指定的位置,也可以随时把信息从指定的位置撤下来,从而达到信息精准投放的目的。 二、功能演示 操作步骤: 1、进入“添加推荐位”,可以添加推荐位。 2、进入“管理推荐位”,您可以了系统的解推荐位列表,并且管理当前系统的推荐位。 3、进入“内容——>推荐位管理——>信息推荐”,您可以把需要推荐的信息推送到指定的推荐位; 4、进入“内容——>推荐位管理——

  • 进入具体播放器编辑页面,点击视频推荐标签,设置片尾视频推荐。 · 提供推荐样式设置、播放量是否显示、片尾推荐开关等细节设置。 · 推荐视频的更新时间为5分钟,自动翻页时间为8秒。 内容方面提供了3种推荐方式: · 系统匹配推荐:自动对标题进行切词匹配,若匹配不到,推荐视频为空; · 分类推荐:在相同分类的条件下,系统自动匹配与之相关的视频内容; · 指定视频推荐:可手动设置推荐视频,并可以对其排序

  • 本文向大家介绍理理Vue细节(推荐),包括了理理Vue细节(推荐)的使用技巧和注意事项,需要的朋友参考一下  1. 动态属性名:可使用表达式来设置动态属性名或方法名: 注意:要避免空格和引号等,且需要小写,可使用计算属性来应对复杂表达式,都需要使用[] 2. computed/methods/watch computed可使用get/set computed可缓存,但不可传参,会根据data中的属