当前位置: 首页 > 软件库 > 程序开发 > 多媒体处理 >

AudioGPT

基于 LLM 的音频助手
授权协议 未知
开发语言 Python
所属分类 程序开发、 多媒体处理
软件类型 开源软件
地区 国产
投 递 者 郝君博
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

AudioGPT 是一个借助大语言模型 (LLM) 处理音频的工具。

AudioGPT 在收到用户请求时使用 ChatGPT 进行任务分析,根据语音基础模型中可用的功能描述选择模型,用选定的语音基础模型执行用户指令,并根据执行结果汇总响应。借助 ChatGPT 强大的语言能力和众多的语音基础模型,AudioGPT 能够完成几乎所有语音领域的任务。

具体来说,AudioGPT 运行过程可以分成 4 个阶段:模态转化、任务分析、模型分配和回复生成。

AudioGPT 核心功能

  • 生成音乐
  • 背景音效
  • 音频生成字幕
  • 文字生成音频
  • 文字生成音频并模拟声音
  • 根据图片生成音频
  • 对音频进行inpaint(局部屏蔽)
  • 根据音频和人脸照片合成视频
  • 检测音频中的事件,以及开始和结束时间
  • 单声道变双声道
  • 通过文本描述检测特定声音发生的时间
  • 抽取某种声音
  • 去除背景噪音
  • 多人混合声分离出单人声音
  • 语音翻译
 相关资料
  • 一面挂 1 自我介绍 2 选一项工作介绍。选了一个觉得自己做的最好但是跟llm关系不太大的工作 3 加速框架用过哪些,答deepspeed,明显想听更多 4 会用c++吗?基本忘了 5 手撕多头注意力,关注点放在了shape,忘了加softmax,提醒后改正 6 反问,部门介绍,做llm+推荐的技术探索,超大规模图 总结:其实可以看出来技术方向完全不匹配。本人刚转llm,仅有一些感性理解和实践经验

  • 音频概述 没有音频的游戏是不完整的,例如背景音乐或音响效果。Unity 的音频系统灵活而强大。它可以导入大多数标准音频文件格式,并且为播放 3D 空间中的声音提供了复杂的功能,以及可选的音响效果,例如回音和过滤。Unity 还可以记录来自用户机器上任意可用麦克风的音频,以便在游戏过程中使用,或者用于存储和传输。 基础理论 在现实生活中,声音由对象发出,并被听众听到。声音被感知的方式取决于许多因素。

  • 音频 Unity 的音频功能包括完整 3D 空间声音、实时混音和母带处理、混音层次结构、快照、预定义效果等等。 阅读本节以了解 Unity 中的音频,包括剪辑、声源、侦听器、导入和声音设置。 相关教程: 音频 相关的提示、技巧和故障排除,等参阅 音频知识库 部分。

  • Audio接口仅适用于780和更高版本的手机QQ,如需在780以下版本使用音频功能,请使用原来的接口 音频播放接口分为普通音频接口(normal)和音效接口(effect)。普通接口和老接口类似,支持play,pause等方法,以及各种属性和事件(详情参考文档末尾的表)。effect接口用于播放短时,高频的音效,建议尽可能复用同一个对象来播放音频。ios只能播放,停止音效。android可以播放,

  • InnerAudioContext jd.createInnerAudioContext() 创建内部 audio 上下文 InnerAudioContext 对象。 返回值 InnerAudioContext InnerAudioContext InnerAudioContext 实例,可通过 jd.createInnerAudioContext 接口获取实例。 属性 string src 音频

  • 我试图为管道开发一个应用程序: gst-launch-1.0 rtspsrc位置=”rtsp://192.168.3.30:8554/rajvi“延迟=0 name=demux demux。!queue!rtpmp4gdepay!aacparse!avdec\u aac!audioconvert!audioresample!autoaudiosink demux。!queue!rtph264dep