当前位置: 首页 > 知识库问答 >
问题:

提高Google Cloud Speech API的准确性

穆嘉
2023-03-14

我目前正在Mac OS计算机上的网页上录制音频,并通过云语音api运行它以生成一份抄本。然而,结果并不是那么准确,结果中有大量缺失的单词。

是否有任何步骤可以帮助我产生更准确的结果?

以下是我将音频转换为文本的步骤:

  1. 使用Soundflower将音频输出从声卡传输到麦克风输入
  2. 网站播放音频
  3. 使用quickTime player录制保存为的音频。m4a文件
  4. 使用命令行工具ffmpeg转换。m4a文件到。flac,还可以将2个音频通道(立体声)组合为1个音频通道(单声道)
  5. 上载。flac文件到Google云存储。该文件的采样率为44100Hz,每个采样有24位
  6. 通过节点使用LongRunningRecognite api。js客户端库,指向Google云存储中的文件

共有1个答案

上官羽
2023-03-14

从语音到文本API方面,我建议您验证是否遵循了最佳实践建议,例如避免过多的背景噪音和多人同时交谈,因为这些方面可能会影响服务识别。

我认为你有很好的采样率和无松动的编解码器;但是,请记住音频预处理会影响音频质量。在这些情况下,最好避免重新采样,尽管如此,您可以尝试使用不同的音频格式来验证哪种得到最准确的结果。

此外,您可以使用languageCode和短语提示API属性,这些属性通常用于提高识别精度。

 类似资料:
  • 问题内容: 我使用Google的Tesseract API创建了一个用于识别文本的基本应用程序,并将其与我的相机应用程序集成在一起。它可以正常工作,但唯一的问题是准确性,因为有时文本会被识别为随机字符集,我想准确性约为50%。 此外,当它尝试扫描图像中的四个以上单词时,应用程序崩溃。 Tesseract API类的对象在哪里。 我是否需要使用其他数据结构来保存识别的文本,还是有其他原因导致四个以上

  • 因此,我在这里使用Watson ExampleStreaming Speech to Text演示作为Unity SDK的起点 https://github.com/watson-developer-cloud/unity-sdk 这是可行的,但问题是准确性。 我在这里读过这篇文章,我如何提高沃森语音对文本的准确性?但有一个问题 通过简单地使用我自己的声音创建一个自定义的声学模型,我可以期望提高准

  • 我试图了解分支预测单元如何在 CPU 中工作。 我使用了和linux的,但这两个都没有给出准确的结果(就我的情况而言)。 这是我的代码: 我的数组由0和1组成。它有一个大小为的模式。例如,如果我的大小是8,那么它有一个或类似的模式。 试验1: 我试图理解CPU是如何预测这些分支的。因此,我使用了papi并为预测失误的分支预测设置了性能计数器(我知道它也计算间接分支)。 我看到的输出是(序列长度为2

  • 我使用的是320 kbps,大约1小时长的MP3文件。我正在做的项目是在MP3文件中寻找一组音乐,这样它就可以洗牌歌曲。我会给程序加上时间戳,它会搜索歌曲。如果JavaFX的seek方法不是非常不准确的话,它就可以工作了。 使用返回我们期望的持续时间。然而,如果我们听mp3文件(或者不寻找,或者在外部mp3播放器中),我们会意识到报告的时间和实际情况是非常不同的,有时甚至是几秒钟。 例如结果搜索到

  • 我正在为Food-101数据集构建分类器(图像数据集w/101类,每个类1k图像)。我的方法是使用Keras和ResNet50(来自imagenet的权重)进行转移学习。 当训练模型时,训练精度在几个时期内得到适度提高(30%)-- 当我查看模型在验证集上所做的预测时,它始终是同一类。 我的感觉是,该模型并没有过度拟合到如此糟糕的程度,以致于无法解释验证精度中缺乏变化的原因。 如有任何建议,以提高

  • 我有一个应用程序,安装在出租车司机用来跟踪位置和驾驶距离的电话中。(手机已根目录,我们对手机拥有所有权限)。在应用程序的第一个实现中,我们使用了LocationManager。RequestLocationUpdate从GPS和网络提供商处获取位置更新。由于我们需要捕获驾驶室行驶的每一公里,我们在位置设置中启用了“高精度”模式。 出于两个原因,我们愿意转移到融合位置提供商 出于某种原因(andro