我有一个基于React的应用程序,我有一个输入,我想允许语音输入。我可以让它只与Chrome和Firefox兼容,所以我考虑使用getUserMedia。我知道我将使用谷歌云的语音到文本API。然而,我有几个注意事项: 我希望这能实时流式传输我的音频数据,而不仅仅是在我完成录制时。这意味着我找到的很多解决方案都不能很好地工作,因为仅保存文件然后将其发送到Google Cloud Speech是不够
我一直在使用Chromium谷歌语音API,最近我改用谷歌云语音API。自从Google云语音API发布以来,其性能在识别准确率方面似乎有所下降。此外,我还看到越来越多的“空结果”返回音频流。 我同时将音频流传输到多个不同的服务,谷歌云语音API返回空结果,而其他一些服务返回转录文本。让我想知道Chromium语音API和Google Cloud语音API的工作方式是否有任何改变? 我验证了音频的
我正在尝试将语音转换为节点服务器中的文本,在该服务器中,语音录制使用AudioContext在浏览器中进行。我能够通过二进制类型为arraybuffer的WebSocket连接将int16Array缓冲区(记录的数据)发送到节点服务器。 在服务器中,数据接收为 现在,我想解析或转换为可读流,以便可以通过管道连接到Google语音识别流。 识别器引发以下错误:
过去几周,我使用实时流音频实现了谷歌云语音到文本API。虽然一开始一切看起来都很好,但最近我在更多的设备上测试了该产品,发现在某些想法上存在一些奇怪的不规则之处。首先,以下是相关代码: 前端(反应组件) 助手(下采样缓冲器) 后端(套接字服务器) 后端(语音客户端/转录功能,将数据发送到GCloud) 现在,在我测试的设备中,行为差异很大。我最初是在iMac 2017上使用谷歌Chrome作为浏览
我目前正在使用Web音频API。我设法“读懂”了一个麦克风,并将它播放给我的扬声器,这非常无缝。 使用Web Audio API,我现在想重新取样传入的音频流(又名麦克风)从44.1kHz到16kHz。16kHz,因为我正在使用一些需要16kHz的工具。由于44.1kHz除以16kHz不是整数,我相信我不能简单地使用低通滤波器和“跳过样本”,对吗? 我还看到一些人建议使用,但由于它已被弃用,我觉得
我正在尝试从视频文件中提取音频。我试过python中的moviepy、ffmpeg等库。提取的音频文件太大。对于大小为75 MB的音频文件,音频文件与moviepy的距离约为1.1 GB。即使比特率为16 kbps,采样率为16000 Hz,提取的文件大小也将达到200 MB。任何其他库或提取的音频文件大小至少相同或小于完整视频文件的方式。 我正在ffmpeg中使用上述命令。
使用Microsoft语音API转录中/大型音频文件(每个文件约6-10分钟)的最佳方式是什么?比如批量音频文件转录? 我使用了https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-to-text-sample中提供的代码,用于连续转录语音,但它在某个时候停止转录。转录有任何限制吗?我只使用免
我正在Ubuntu上使用ALSA来播放WAV文件。目前,我能够读取wav头来计算文件的采样率,然后在ALSA上设置相应的参数。这非常适合采样率为44.1kHz的文件,但其他采样率为11kHz或22kHz的文件无法正常播放。我不确定我是否正确设置了采样率。 这会给出正确的输出(“22050 Hz下的采样”),但如果我遵循这一点: 输出继续表示“44100 Hz采样”,这显然是矛盾的。我也试过在附近使
我试图使用alsa同时播放两个wav文件。请注意,wav文件具有不同的采样率。这是可能的,音频流被混合并发送到音频芯片。(我正在嵌入式linux设备上开发。)但有一个流的播放速度比正常快几倍。所以我猜重新采样有问题。 我有一个默认设备,在 /etc/asound.conf中启用了dMix插件,并将采样率设置为44100Hz。但据我所知,ALSA在内部将所有流重新采样为48khz并混合它们,然后再次
我想写一个程序,自动同步未同步的字幕。我想到的解决方案之一是通过某种算法找到人类的语言,并调整其细微之处。我发现的API(Google Speech API、Yandex SpeechKit)与服务器配合使用(这对我来说不是很方便),并且(可能)做了很多不必要的工作来确定到底说了什么,而我只需要知道说了什么。 换句话说,我想给它一个音频文件,然后得到如下内容: 是否有一种解决方案(最好是pytho
我使用Pocketsphinx的语音识别与西班牙语声学模型和JSGF语法,与体面的结果到目前为止。 然而,我得到了错误的音频识别结果,至少在我看来,这些音频似乎完全可以理解(根据声学模型参数,没有那么多背景噪声、采样频率和比特深度等)。 此外,这些未被正确识别的音频与被正确识别的音频似乎没有太大区别(事实上,我觉得它们听起来几乎一样)。 所以,我猜音频中有什么东西使它更难识别,也许是一些噪声频率或
在我的系统上,使用USB麦克风,我发现CMU Sphinx的最佳音频级别大约是最大音频级别的20%。这使我的语音识别准确率达到75%。如果我对其进行数字放大,识别准确率会差得多(25%)。为什么会这样?Sphinx的建议音频级别是多少?[此外,我使用的是每秒16000个样本,16位。]
我想使用CMU Sphinx 5 prealpha进行实时语音识别(用于检测一些热词)并使用此命令: 我对准确度很满意,但我注意到一个滞后。例如,我开始识别并说“你好”,Sphinx在1-3秒后打印“你好”(太棒了!),我等待几分钟后再次说“你好”,Sphinx在10-18秒后打印“你好”。我等待几分钟后再次说“你好”,Sphinx在3-7秒后打印“你好”。任务管理器显示Sphinx使用了2-17
我想对大量不断生成的文件执行语音识别。 越来越多的在线语音到文本API服务(例如Google Cloud Speech、Amazon Lex、Twilio语音识别、Nexmo Voice等)可以很好地用于连接的应用程序,但由于成本和带宽,不适合此用例。 谷歌快速搜索表明,CMUSphinx(CMU=卡内基梅隆大学)在语音识别方面很受欢迎。 我尝试了“hello world”的例子: 结果有点令人失
我需要对俄语进行语音识别。我遵循了项目页面上的教程。 在我看到的教程中 您可以使用语言的语音词典将文本转换为语音字符串。只需将单词替换为相应的抄本即可。由于电话的数量很小,文本也不应该很大,只要一本书就可以了。 但我在哪里能找到语音词典呢?我怎样才能用整本书中相应的抄本来替换这些单词? 或在哪里可以找到完整的语音模型? 已更新 我创建了文件测试。带行的txt: SIL i0 lj j a1 i1