当前位置: 首页 > 知识库问答 >
问题:

javascript - 音频处理分割?

满元凯
2023-08-28

目前需要用whsiper做语音转录服务,whisper限制25M的大小,请问该如何做这个事情? 目前的需求是 Android iOS Web 都需要这个功能,
目前有几种方案:

方案1

做一个音频分割服务器,然后在做一个转录服务。前端拿到语音文件之后,把语音文件传给音频分割服务器,分割服务器根据波形进行分割,分割完之后传给转录接口。

问题: 这样做的话是不是会造成语音上传多次导致时间较长的问题,因为音频要先上传到音频分割服务器 在传给 转录服务器

方案2

直接在前端进行分割,为了不丢失数据以及避免在句中分割, 准备采用比如 2min前后的空白时间进行分割这样的方案。 这样ios android web 都要做,是不是开发难度较大?

因为不太懂这个东西,请大佬们给点建议。

共有1个答案

尹英华
2023-08-28

最好的方法是方案1,不过应该是前端上传到音频分割服务,这个音频分割服务不仅做了分割,还应该发送音频给转录接口,一次性完成,分割服务和转录接口应该在内网中,网络传递耗时可以忽略不计。

如果你目前不是这么设计的,想办法设计成这样。

方案二,明显不行,ios 跟 android 还能想想办法,web 直接分割的难度太大了,多平台共同维护本身也是一个很大麻烦。

 类似资料:
  • 问题内容: 我正在设计一个简单的调谐器,所以我的目标是显示音符名称(A,B,F#)以及理论声音和实际输入之间的 距离( 以分为单位)。 我是音频和信号处理的新手,所以我做了一些研究,发现 了一个 叫做快速傅立叶变换 的东西 ,它可以分析字节并给我频率。另外,我发现了一些Java库,例如通用数学和JTransforms,所以我不会自己编写硬代码。 我相信就这样,因为每个范围的频率都可以以相同的气质直

  • 问题内容: 任何人都有关于如何使用Hbase处理非结构化数据(如音频,视频和图像)的想法。我为此做了很多尝试,但我没有任何想法。请提供任何帮助。 问题答案: 选项1:将图像转换为字节数组,您可以准备放置请求并插入到表中。同样,也可以实现音频和视频文件。 参见https://docs.oracle.com/javase/7/docs/api/javax/imageio/package- summar

  • 6. 音视频管理 点击开始直播按钮,学员端将看到讲师视频画面,并可参与互动连麦。同时云端将自动录制直播内容。在直播过程中,讲师可参与聊天,管理自己的音视频等。 聊天 参与文字聊天,支持发送本地图片。 摄像头 可切换前置/后置摄像头,或关闭摄像头,此时学员端将无法看到讲师的画面。 麦克风 关闭麦克风,学员端将无法听到讲师的声音。 菜单栏 展开更多功能菜单,包括提取文档、点名签到、课堂设置等。 下课

  • 想问问,你们公司是如何处理Git分支的? 你们公司会有几个分支?分别是哪几个分支? 线上bug是从哪个分支上拉取修改?然后如何合并?

  • 问题内容: 我正在制作音频播放器。它具有暂停,倒带和时间搜索功能。如何以及由谁处理音频元素? 我可以把它放在商店旁边。我不能将其直接放在状态上,因为它可能会被克隆。然后,在减速器中,我可以与其进行交互。问题是,如果我需要将时间滑块与音频同步,则需要使用动作不断地轮询商店。从语义上讲,这也没有任何意义。 我可以创建一个自定义的React组件Audio,它可以完成我所说的一切。问题没有解决。如何刷新滑

  • 我对ffmpeg相当陌生,我正试图用另一个文件替换第一个音频文件的一部分。第二个文件可能太短,因此应该存在某种循环。 经过一些研究,我提出了以下命令参数,只要我只做一次替换,它就会给出输出。但我想做多个替换。我做错了什么有什么帮助吗?也非常欢迎对工作方式提出任何建议/意见。 (以下命令中的任何错别字都可以忽略,我通过脚本生成命令,为了便于使用,我简化了名称。) 作品(更换1件):