当前位置: 首页 > 软件库 > 神经网络/人工智能 > >

ruDALL-E

根据文本生成图像
授权协议 Apache-2.0
开发语言 Python
所属分类 神经网络/人工智能
软件类型 开源软件
地区 不详
投 递 者 郎伟兆
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

ruDALL-E 是一个可以根据文本自动生成图像的工具。基于简短的文本描述,ruDALL-E 可以生成关于各种主题和主题的明亮多彩的图像。该模型理解广泛的概念,并生成现实世界中不存在的全新图像和对象。

其目标是创建一个“多模态”神经网络,以多种模态学习概念,主要是在文本和视觉领域,以便更好地理解世界。转换器被教导将文本和图像标记作为单个数据流进行自回归建模。

from rudalle.pipelines import generate_images, show, super_resolution, cherry_pick_by_clip
from rudalle import get_rudalle_model, get_tokenizer, get_vae, get_realesrgan, get_ruclip
from rudalle.utils import seed_everything

# prepare models:
device = 'cuda'
dalle = get_rudalle_model('Malevich', pretrained=True, fp16=True, device=device)
tokenizer = get_tokenizer()
vae = get_vae(dwt=True).to(device)

# pipeline utils:
realesrgan = get_realesrgan('x2', device=device)
ruclip, ruclip_processor = get_ruclip('ruclip-vit-base-patch32-v5')
ruclip = ruclip.to(device)

text = 'изображение радуги на фоне ночного города'

seed_everything(42)
pil_images = []
scores = []
for top_k, top_p, images_num in [
    (2048, 0.995, 3),
    (1536, 0.99, 3),
    (1024, 0.99, 3),
    (1024, 0.98, 3),
    (512, 0.97, 3),
    (384, 0.96, 3),
    (256, 0.95, 3),
    (128, 0.95, 3),
]:
    _pil_images, _scores = generate_images(text, tokenizer, dalle, vae, top_k=top_k, images_num=images_num, top_p=top_p)
    pil_images += _pil_images
    scores += _scores

show(pil_images, 6)

  • Euler’s formula, named after Leonhard Euler, is a mathematical formula in complex analysis that establishes the fundamental relationship between the trigonometric functions and the complex exponential

  •   E.164号码是MSISDN号码,其格式为 :国家代码+N1N2N3+H0H1H2H3 +ABCD,例如: 8615184477913 E.212号码是IMSI号码,它由MCC+MNC+MSIN三部分组成,比如中国移动46000 1234567890 E.214是E.164和E.212的混合码,前面是E.164前面的86151 后面是E.212的后面十位,即86151 1234567890,它

  • E.164号码是MSISDN号码,其格式为 :国家代码+N1N2N3+H0H1H2H3 +ABCD,例如: 8615184477913 E.212号码是IMSI号码,它由MCC+MNC+MSIN三部分组成,比如中国移动46000 1234567890 E.214是E.164和E.212的混合码,前面是E.164前面的86151 后面是E.212的后面十位,即86151 1234567890,它是S

  • 向前Euler方法 function Forward_Euler(fun,u_0,a,b,N) %% 用 Forward-Euler法来求区间[a,b]的常微分数值解,N为区间[a,b]分割的份数 %u'(t)=f(t,u); %u(a)=u_0; %迭代格式 U_k+1=U_k+delta_t*f(t_k,U_k); %显式格式 % step1 将区间[a,b]等分为N份 delta_t=(

  • 最近在搞nuttx的elf的动态加载问题,研究原理,利用elf relocate的部分实现的 后来发现linux 的insmod也是如此实现的, 顿时明白了elf的文件格式的强大之处! 怪不得elf文件格式被许多厂商使用! 微软的coff格式也是如此强大的东西! 2017.10.28

 相关资料
  • 问题内容: 假设我有一个像这样的数据库列“ grade”: SQL中是否有非平凡的方式来生成像这样的直方图? 其中2表示1级出现两次,1表示{2..5}级出现一次,0表示6级完全没有出现。 我不介意直方图是否每计数一行。 如果那很重要,则该数据库是由perl CGI通过unixODBC / FreeTDS访问的SQL Server。 编辑: 感谢您的快速答复!只要我能确定哪个直方图值属于哪个等级,

  • 对于一个附带项目,我开始使用PDFBox将pdf文件转换为图像。这是我用来转换为图像文件的pdf文件https://bitcoin.org/bitcoin.pdf. 这是我正在使用的代码。调用PDFToImage的代码非常简单。但是输出的jpg图像文件看起来非常糟糕,插入了很多逗号,并且有一些重叠的文本。

  • 实现这个需求其实非常的简单,因为官方已经提供给了我们解决方案使用 sequelize-auto 这个插件的地址 github repo https://github.com/sequelize/sequelize-auto npm install -g sequelize-auto mysql 之所以安装 mysql 而不是 mysql2 是因为这个插件里面的 sequelize 还是3.x 版本

  • 比较特殊的情况,node_modules和package.json没有同步。 或者如何查看node_modules中所有的依赖

  • 我正在使用SWIG生成一个围绕freetype的C包装。我的目标是为WinRT生成一个带有C接口的freetype DLL,该接口将在Windows Phone 8上运行,然而,生成的C包装似乎依赖于Tcl。由于我不需要Tcl绑定,而且WinRT默认情况下不提供Tcl,我想知道是否可以以某种方式关闭Tcl依赖项。我正在使用Visual Studio 2012编译生成的代码。 我查阅了文档,只找到了

  • 问题内容: 我正在尝试动态缩放文本,以将其放置在尺寸不同但已知的图像上。文本将用作水印。有什么方法可以根据图像尺寸缩放文本?我并不需要文字占据整个表面区域,而只是要使其足够可见即可,以使其易于识别且难以删除。我正在使用Python Imaging Library版本1.1.7。在Linux上。 我希望能够设置文本大小与图像大小的比率,比如说1/10大小。 我一直在寻找字体大小属性来更改大小,但是我