问题：

提高语音对文本的准确性[IBM Watson]

井嘉胜

2023-03-14

因此，我在这里使用Watson ExampleStreaming Speech to Text演示作为Unity SDK的起点

https://github.com/watson-developer-cloud/unity-sdk

这是可行的，但问题是准确性。

我在这里读过这篇文章，我如何提高沃森语音对文本的准确性？但有一个问题

通过简单地使用我自己的声音创建一个自定义的声学模型，我可以期望提高准确性水平吗？为了我的目的，我将只使用我的声音应用程序。

https://cloud.ibm.com/docs/services/speece-to-text？topic=speech-to-text-customization

共有1个答案

戚逸清

2023-03-14

使用您的声音可以帮助，但您需要记录大量的样本话语，可能会支付更多的自定义模型。在走这条路之前，我建议对错误的单词进行分析，看看是否存在模式，并在代码中为这些单词添加手动更正。

例如，如果模型混淆了“two”和“too”，您可以为此添加一个手动替换功能。

类似资料：

如何提高Tesseract的OCR文本的准确性？

问题内容：我使用Google的Tesseract API创建了一个用于识别文本的基本应用程序，并将其与我的相机应用程序集成在一起。它可以正常工作，但唯一的问题是准确性，因为有时文本会被识别为随机字符集，我想准确性约为50％。此外，当它尝试扫描图像中的四个以上单词时，应用程序崩溃。 Tesseract API类的对象在哪里。我是否需要使用其他数据结构来保存识别的文本，还是有其他原因导致四个以上
提高Google Cloud Speech API的准确性

我目前正在Mac OS计算机上的网页上录制音频，并通过云语音api运行它以生成一份抄本。然而，结果并不是那么准确，结果中有大量缺失的单词。是否有任何步骤可以帮助我产生更准确的结果？以下是我将音频转换为文本的步骤：使用Soundflower将音频输出从声卡传输到麦克风输入从网站播放音频使用quickTime player录制保存为的音频。m4a文件使用命令行工具ffmpeg转换。m4a文
Watson语音对文本性能的影响

他们看到的Watson语音到文本服务器最近的问题是，无法在单个实例中运行持续时间大于10分钟的音频文件，其次，当运行语音到文本的文件小于10分钟时，有时与Watson服务器的TCP连接丢失。他们基本上是在python的Watson服务器上使用web套接字，并且想了解对于持续时间较长的音频文件（例如，我们的会议持续到3小时），什么是运行语音到文本的最佳方式。为web套接字上的连接丢失配置瓶颈的最佳
使用 rdmsr/rdpmc 提高分支预测准确性

我试图了解分支预测单元如何在 CPU 中工作。我使用了和linux的，但这两个都没有给出准确的结果（就我的情况而言）。这是我的代码: 我的数组由0和1组成。它有一个大小为的模式。例如，如果我的大小是8，那么它有一个或类似的模式。试验1: 我试图理解CPU是如何预测这些分支的。因此，我使用了papi并为预测失误的分支预测设置了性能计数器（我知道它也计算间接分支）。我看到的输出是（序列长度为2
iOS文本语音

我是快速和iOS应用程序开发的新手。我正在使用AVSpeechSynthesiser创建一个文本到语音应用程序。我想设置一个字符串说在英语，但我希望它把那个特定的字符串翻译成语音，但在不同的语言，如阿拉伯语。我是否能够使用AVSpeechSynthesizer做到这一点，或者我需要使用翻译API来做到这一点。谢谢你
自定义文本到语音中的语音

有没有任何开源项目或库（在java或c），我可以用来将文本转换为用户语音。

提高语音对文本的准确性[IBM Watson]

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档