当前位置：首页 > 软件库 > 神经网络/人工智能 > 计算机视觉库/人脸识别 >

Latent Diffusion Models

高分辨率图像合成训练工具

授权协议 MIT

开发语言 Python

所属分类神经网络/人工智能、计算机视觉库/人脸识别

软件类型开源软件

地区不详

投递者勾岳

操作系统跨平台

开源组织无

适用人群未知

软件概览

潜在扩散模型 (LDM) 是一项高分辨率图像合成训练工具，它在图像修复和各种任务（包括无条件图像生成、语义场景合成和超分辨率）上实现了高度竞争的性能，同时与基于像素的 DM 相比显着降低了计算要求。

通过将图像形成过程分解为去噪自动编码器的顺序应用，扩散模型 (DM) 在图像数据及其他数据上实现了最先进的合成结果。然而，由于这些扩散模型通常直接在像素空间中运行，强大的 DM 的优化通常会消耗数百个 GPU 天数，并且由于顺序评估，推理成本很高。为了在有限的计算资源上启用 DM 训练，同时保持它们的质量和灵活性，LDM 将模型应用在强大的预训练自编码器的潜在空间中。

在这种基础上训练扩散模型，首次允许在降低复杂性和保留细节之间达到近乎最佳的点，从而大大提高了视觉保真度。通过在模型架构中引入交叉注意力层，可将扩散模型转变为强大而灵活的生成器，用于一般条件输入（例如文本或边界框），并且以卷积方式进行高分辨率图像合成成为可能。

使用案例

详细解读Latent Diffusion Models：原理和代码

Diffusion Models专栏文章汇总：入门与实战前言：CVPR 2022中的一项新工作latent diffusion models引起了广泛关注，提出了两段式diffusion models能有效节省计算资源，latent attention技术为通用image-to-image任务打下基础，让人耳目一新，具有极强的借鉴意义和启发性，值得深度阅读。目录目前diffusion mod
由浅入深理解latent diffusion/stable diffusion(2)：扩散生成模型的工作原理

Diffusion Models专栏文章汇总：入门与实战前言：关于如何使用stable diffusion的文章已经够多了，但是由浅入深探索stable diffusion models背后原理，如何在自己的科研中运用stable diffusion预训练模型的博客少之又少。本系列计划写5篇文章，和读者一起遨游diffusion models的世界！本文主要介绍扩散生成式模型的基本原理，sta
Diffusion models代码解读：入门与实战

1、Diffusion models代码实战：从零搭建自己的扩散模型这个系列曾经写过三篇文章专门讲代码，分别从数据集、超参数、loss设计、参数计算、Unet结构、正向过程、逆向过程等部分详细介绍了如何搭建DDPM。Diffusion models领域发展神速，最近半年代表作品有OpenAI的GLIDE、DALL-E 2，Google Brain的ImageGen，海森堡大学的Latent Di

Latent Diffusion Models

同类工具

相关阅读

相关文章

相关问答

相关文档