问题：

谷歌语音识别API：每个单词的时间戳？

谭宏盛

2023-03-14

可以使用Google的语音识别API来获取音频文件（WAV、MP3等）的转录。）通过请求http://www.google.com/speech-api/v2/recognize?...

示例：我在WAV文件中说过“一二三五”。谷歌API给了我这个：

{
  u'alternative':
  [
    {u'transcript': u'12345'},
    {u'transcript': u'1 2 3 4 5'},
    {u'transcript': u'one two three four five'}
  ],
  u'final': True
}

问：有没有可能得到每个单词说出的时间（以秒为单位）？

以我的例子：

['one', 0.23, 0.80], ['two', 1.03, 1.45], ['three', 1.79, 2.35], etc.

即单词一已经在时间00:00:00.23和00:00:00.80之间说了，
单词二已经在时间00:00:01.03和00:00:01.45之间说了（以秒为单位）。

PS：寻找支持英语以外的其他语言的API，尤其是法语。

共有3个答案

艾俊悟

2023-03-14

是的，很有可能。您需要做的只是：

在配置集中，enable\u word\u time\u offset=True

html prettyprint-override">config = types.RecognitionConfig(
        ....
        enable_word_time_offsets=True)

韶景曜

2023-03-14

编辑2020：现在可以查看其他答案

使用谷歌API是不可能的。

如果您想要单词时间戳，您可以使用其他API，例如：

Vosk-API-免费离线语音识别API（披露：我是Vosk的主要作者）。

SpeechMatics SaaS语音识别API

IBM的语音识别API

顾兴昌

2023-03-14

我相信另一个答案现在已经过时了。这现在可以使用Google Cloud Search API：https://cloud.google.com/speech/docs/async-time-offsets

类似资料：

Python语音识别与谷歌云语音API

我正在玩Google Cloud Speech API。我想知道我是否使用python语音识别库并调用google cloud语音API，这仍然是使用API的有效方式吗？我只想转录文本。我对它们之间的区别感到困惑，如果我只想转录音频，是否有任何建议的方法。使用Python语音识别：不使用Python SpeechRecognition：
谷歌电影语音识别

我用Google API对自然对话的语音识别取得了很好的效果，但是对于Youtube视频或电影中的声音，识别效果很差或根本不存在。在iPhone 4上录制西班牙语到英语的声音是可以识别的，但在电影中使用同一部手机几乎是不可能的，即使是一个角色在几乎没有背景噪音的情况下说话的场景。只有一次成功。我试图清理声音与SoX（声音交换）使用噪声和comand efects，没有任何成功。有什么想法吗？
谷歌语音识别API返回空结果

我正在尝试从shell命令使用Google的语音识别API，但我遇到了问题。我的Shell文件包含以下代码：记录-D plughw： 1,0-q-f cd-t wav-R 16000|flac-f--Best--samplughw=16000-s-otest.flac wget-q-U“Mozilla/5.0”--文件后测试。flac--标题“内容类型：音频/x-flac；速率=16000”-
如何使用谷歌云语音API进行实时语音识别？

我正在努力寻找使用谷歌云语音API进行实时连续语音识别的例子。我的要求是使用麦克风，检测语音，并在用户说话时进行转录。我知道他们的RESTAPI没有这种支持，所以我研究了grpc示例，包括他们提供的示例。但它们似乎都是用户可以上传音频并检测语音的例子。我在Java，谷歌grpc也支持java。有人遇到一个很好的例子，展示了如何通过麦克风持续进行这种识别吗？
Android离线谷歌语音识别

我正在开发一个android应用程序，它将监听语音命令并相应地触发动作。以下是一些疑问： > 谷歌语音识别离线库是否可用于android应用程序我们能创建自己的词汇词典吗应用程序应在脱机模式下工作（无Internet）。
使用谷歌语音识别时忽略背景音乐

我正在尝试制作一款可以通过语音识别停止的闹钟Android应用程序。为此，我正在使用Google语音识别API（这段代码可以连续进行语音识别）。它工作得很好，直到我同时演奏音乐。在这种情况下，语音识别的效率会大大降低。这个问题是合乎逻辑的，因为音乐会增加一些噪音，使识别变得更加困难。但是由于播放的音乐是已知的，我想知道是否有可能告诉谷歌尝试忽略这些额外的噪音。我知道信号处理中存在一些滤波器来做

谷歌语音识别API：每个单词的时间戳？

共有3个答案

相关问答

相关文章

相关阅读

相关工具

相关文档