当前位置: 首页 > 软件库 > 应用工具 > 多媒体工具 >

Bark

文本提示生成音频模型
授权协议 CC BY-NC 4.0
开发语言 Python
所属分类 应用工具、 多媒体工具
软件类型 开源软件
地区 不详
投 递 者 安泰平
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

Bark 是由 Suno 创建的基于转换器的文本到音频模型。Bark 可以生成高度逼真的多语言语音以及其他音频 - 包括音乐、背景噪音和简单的音效。该模型还可以产生非语言交流,如大笑、叹息和哭泣。为了支持研究社区,我们提供了对准备好进行推理的预训练模型检查点的访问。

Usage

from bark import SAMPLE_RATE, generate_audio
from IPython.display import Audio

text_prompt = """
     Hello, my name is Suno. And, uh — and I like pizza. [laughs] 
     But I also have other interests such as playing tic tac toe.
"""
audio_array = generate_audio(text_prompt)
Audio(audio_array, rate=SAMPLE_RATE)

Bark 支持开箱即用的各种语言,并自动根据输入文本确定语言。当提示使用代码转换文本时,Bark 甚至会尝试在同一声音中使用各种语言的本地口音。

text_prompt = """
    Buenos días Miguel. Tu colega piensa que tu alemán es extremadamente malo. 
    But I suppose your english isn't terrible.
"""
audio_array = generate_audio(text_prompt)

Bark 可以生成所有类型的音频,并且原则上看不出语音和音乐之间的区别。有时 Bark 选择将文本生成为音乐,但你可以通过在歌词周围添加音符来帮助它。

text_prompt = """
    ♪ In the jungle, the mighty jungle, the lion barks tonight ♪
"""
audio_array = generate_audio(text_prompt)

Bark 具有完全克隆声音的能力——包括音调、音调、情感和韵律。该模型还试图从输入音频中保留音乐、环境噪音等。但是,为了减少对这项技术的滥用,开发团队将音频历史提示限制为一组有限的 Suno 提供的、完全合成的选项,以供每种语言选择。指定以下模式:{lang_code}_speaker_{number}

text_prompt = """
    I have a silky smooth voice, and today I will tell you about 
    the exercise regimen of the common sloth.
"""
audio_array = generate_audio(text_prompt, history_prompt="en_speaker_1")

你可以提供特定的演讲者提示,例如旁白、男人、女人等。但这些提示并不总是被尊重的,尤其是在给出冲突的音频历史提示时。

text_prompt = """
    WOMAN: I would like an oatmilk latte please.
    MAN: Wow, that's expensive!
"""
audio_array = generate_audio(text_prompt)

Bark 已经过测试并适用于 CPU 和 GPU(pytorch 2.0+、CUDA 11.7 和 CUDA 12.0)。运行 Bark 需要运行 >100M 的参数转换器模型。在现代 GPU 和 PyTorch nightly 上,Bark 可以大致实时地生成音频。在较旧的 GPU、默认 colab 或 CPU 上,推理时间可能会慢 10-100 倍。

如果你没有可用的新硬件,或者如果想玩更大版本的模型,也可以在此处注册以抢先体验 model playground

  • 0引言子波的种类较多,根据是否正交,子波可以分为正交子波、半正交子波、双正交子波和非正交子波。通常,在多分辨率框架下构造子波基的主要优点在于它满足正交性,然而这一点对语音来说并不必要,因为听觉感知本身就存在较大冗余。并且,无论是二进子波还是M带子波变换,其频率划分都是一种倍频程关系,这与人耳所固有的对语音的频率感知特性并不完全吻合。Bark子波及其变换是一种针对语音信号的子波变换[1],其基函数满

  • Bark域介绍 简介:Bark域是较早提出来的一种声音的心理学尺度 临界频带 临界频带是听觉学和心理声学的专业名词,它于19世纪40年代被Harvey Fletcher提出。耳蜗是内耳中的传感器官,临界频带指的是由于耳蜗构造产生的听觉滤波器的频率带宽。简单来说临界频带是声音频率带,在临界频带中第一个单音感知性会被第二单音的听觉掩蔽所干扰。声学研究中,人们使用听觉滤波器来模拟不同的临界频带。后来研究

 相关资料
  • 使用Microsoft语音API转录中/大型音频文件(每个文件约6-10分钟)的最佳方式是什么?比如批量音频文件转录? 我使用了https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-to-text-sample中提供的代码,用于连续转录语音,但它在某个时候停止转录。转录有任何限制吗?我只使用免

  • 问题内容: 我想从numpy中的2D数组创建“心率监视器”效果,并希望音调能够反映数组中的值。 问题答案: 您可以使用from函数来创建一个wav文件,然后您可以根据需要播放该文件。请注意,数组必须是整数,因此,如果您有浮点数,则可能需要适当地缩放它们: 如果您希望Python实际播放音频,则此页面概述了某些软件包/模块。

  • 以下类型不一定全被支持,通常 note 及 warning 是可用的。 注解 注解型提示。 源码 .. note:: 注解型提示。 警告 警告型提示。 源码 .. warning:: 警告型提示。 错误 错误型提示。 源码 .. error:: 错误型提示。 警告 小心提示。 源码 .. caution:: 小心提示。 小技巧 普通提示。 源码 .. tip

  • 问题内容: 我只想知道在Java或C#中是否有任何库或外部库中的构建允许我获取音频文件并对其进行解析并从中提取文本。 我需要创建一个应用程序,但是我不知道从哪里开始。 问题答案: 以下是您的一些选择: 微软演讲 光明 龙自然讲 狮身人面像4

  • 1/Audio.m4a流 2/a封面专辑jpeg 3/一个UTF8文本文件 要绑定音频和图像,我可以 ffmpeg-y-i“audio.mp4”-attach cover.jpg-metadata:s mimetype=“image/jpeg”-c:a copy“audio_copy_with_cover.mka” 进一步绑定文本文件 FFMPEG-Y-I“Audio_copy_with_cove

  • 我正在尝试从视频文件中提取音频。我试过python中的moviepy、ffmpeg等库。提取的音频文件太大。对于大小为75 MB的音频文件,音频文件与moviepy的距离约为1.1 GB。即使比特率为16 kbps,采样率为16000 Hz,提取的文件大小也将达到200 MB。任何其他库或提取的音频文件大小至少相同或小于完整视频文件的方式。 我正在ffmpeg中使用上述命令。