问题：

javascript - 音频处理分割？

满元凯

2023-08-28

目前需要用whsiper做语音转录服务，whisper限制25M的大小，请问该如何做这个事情？目前的需求是 Android iOS Web 都需要这个功能，
目前有几种方案：

方案1

做一个音频分割服务器，然后在做一个转录服务。前端拿到语音文件之后，把语音文件传给音频分割服务器，分割服务器根据波形进行分割，分割完之后传给转录接口。

问题：这样做的话是不是会造成语音上传多次导致时间较长的问题，因为音频要先上传到音频分割服务器在传给转录服务器

方案2

直接在前端进行分割，为了不丢失数据以及避免在句中分割，准备采用比如 2min前后的空白时间进行分割这样的方案。这样ios android web 都要做，是不是开发难度较大？

因为不太懂这个东西，请大佬们给点建议。

共有1个答案

尹英华

2023-08-28

最好的方法是方案1，不过应该是前端上传到音频分割服务，这个音频分割服务不仅做了分割，还应该发送音频给转录接口，一次性完成，分割服务和转录接口应该在内网中，网络传递耗时可以忽略不计。

如果你目前不是这么设计的，想办法设计成这样。

方案二，明显不行，ios 跟 android 还能想想办法，web 直接分割的难度太大了，多平台共同维护本身也是一个很大麻烦。

类似资料：

音频分析：频率与音高

问题内容：我正在设计一个简单的调谐器，所以我的目标是显示音符名称（A，B，F＃）以及理论声音和实际输入之间的距离（以分为单位）。我是音频和信号处理的新手，所以我做了一些研究，发现了一个叫做快速傅立叶变换的东西，它可以分析字节并给我频率。另外，我发现了一些Java库，例如通用数学和JTransforms，所以我不会自己编写硬代码。我相信就这样，因为每个范围的频率都可以以相同的气质直
使用HBase处理图像，视频和音频类型

问题内容：任何人都有关于如何使用Hbase处理非结构化数据（如音频，视频和图像）的想法。我为此做了很多尝试，但我没有任何想法。请提供任何帮助。问题答案：选项1：将图像转换为字节数组，您可以准备放置请求并插入到表中。同样，也可以实现音频和视频文件。参见https://docs.oracle.com/javase/7/docs/api/javax/imageio/package- summar
音视频管理

6. 音视频管理点击开始直播按钮，学员端将看到讲师视频画面，并可参与互动连麦。同时云端将自动录制直播内容。在直播过程中，讲师可参与聊天，管理自己的音视频等。聊天参与文字聊天，支持发送本地图片。摄像头可切换前置/后置摄像头，或关闭摄像头，此时学员端将无法看到讲师的画面。麦克风关闭麦克风，学员端将无法听到讲师的声音。菜单栏展开更多功能菜单，包括提取文档、点名签到、课堂设置等。下课
javascript - git分支处理？

想问问，你们公司是如何处理Git分支的？你们公司会有几个分支？分别是哪几个分支？线上bug是从哪个分支上拉取修改？然后如何合并？
如何在React＆Redux中处理音频播放

问题内容：我正在制作音频播放器。它具有暂停，倒带和时间搜索功能。如何以及由谁处理音频元素？我可以把它放在商店旁边。我不能将其直接放在状态上，因为它可能会被克隆。然后，在减速器中，我可以与其进行交互。问题是，如果我需要将时间滑块与音频同步，则需要使用动作不断地轮询商店。从语义上讲，这也没有任何意义。我可以创建一个自定义的React组件Audio，它可以完成我所说的一切。问题没有解决。如何刷新滑
用循环音频替换部分音频文件

我对ffmpeg相当陌生，我正试图用另一个文件替换第一个音频文件的一部分。第二个文件可能太短，因此应该存在某种循环。经过一些研究，我提出了以下命令参数，只要我只做一次替换，它就会给出输出。但我想做多个替换。我做错了什么有什么帮助吗？也非常欢迎对工作方式提出任何建议/意见。（以下命令中的任何错别字都可以忽略，我通过脚本生成命令，为了便于使用，我简化了名称。）作品（更换1件）：

javascript - 音频处理分割？

方案1

方案2

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档