当前位置: 首页 > news >正文

2025年—Comfy UI 和 Stable Diffusion底层原理

为什么要先讲SD原理 ?

  • 逻辑理解: ComfyUI是节点式操作,需要自行搭建工作流,理解原理才能灵活定制工作流
  • 学习效率: 基础原理不懂会导致后续学习吃力,原理是掌握ComfyUI的关键
  • 核心价值: ComfyUI最有价值的功能就是自主搭建工作流,这需要深入理解SD原理

Stable Diffusion 扩散算法

  • 基本概念: SD基于扩散算法(diffusion)生成图像,中文译为"稳定的扩散"
  • 核心过程:
    • 正向扩散: 生噪过程,增加噪点
    • 反向扩散: 去噪过程,消除噪点
  • 实现方式: 先将图片铺满噪点,然后根据步数逐步降噪,最终得到目标图像
  • 关键结论: 图像生成是从噪点到清晰图片的渐进过程

工作流示例

我们现在用一个实例来走一遍AI生图的流程。比如说我们要让AI生成一个美丽的女孩。

我们把关键词"beautiful girl"输入给计算机的时候,计算机无法理解"beautiful girl"。人类语言与计算机语言需要转换,就像中英文交流需要翻译。这就需要一个翻译:CLIP。

CLIP

CLIP是Text Encoder(文本编码器)的一种,其作用是将文本信息("beautiful girl")数字化,根据模型训练经验识别特征(大眼睛、好身材等)。将人类语言翻译为计算机能理解的数字化描述(函数/向量)。CLIP使AI能捕捉文本含义,是SD工作流的关键组件。

Latent Space(潜空间)

刚才被CLIP编译完的数字化信息会进入到 Latent Space(潜空间)。我们所使用的调度器,采样器,CFG Scale都是在潜空间里进行工作的。

在 ComfyUI 中,Latent Space 是连接文本、模型和生成图像的桥梁。它的核心价值在于:

高效性:压缩表示降低计算成本。

灵活性:支持多种潜在空间操作和扩展。

模块化:与 ComfyUI 的节点式工作流完美契合,便于可视化调试。

我们这里说一下其节省计算成本的作用,例如我要生成一张512x512的图片。

在Latent Space(潜空间)内,数据会被压缩:

Latent Space(潜空间)中有U-Net(作用是给图片去噪),其可以对随机种子生成噪声图进行引导。

VAE解码器

到这一步,图片其实已经被生成出来了,只不过此时的图片是一张被压缩的,数字化的(一堆向量和参数)的图片,我们人类还无法看懂。

我们需要解码器对图片进行解压,解码器的作用是将计算机数据转变为人类可视图像

以上就是文生图的大致工作流程,下图为Comfy UI的工作流节点

http://www.lqws.cn/news/72829.html

相关文章:

  • docker可视化工具
  • 【头歌实验】Keras机器翻译实战
  • volatile,synchronized,原子操作实现原理,缓存一致性协议
  • 【JAVA后端入门基础001】Tomcat 是什么?通俗易懂讲清楚!
  • 类和对象:实现日期类
  • Windows采用npx方式本地部署n8n
  • Linux(信号)
  • 并发编程的源头
  • 探索 Dify 的工作流:构建智能应用的新范式
  • Flink CDC将MySQL数据同步到数据湖
  • Kafka集成Flume/Spark/Flink(大数据)/SpringBoot
  • 【设计模式-3.6】结构型——桥接模式
  • React 组件异常捕获机制详解
  • 打卡第34天:MLP神经网络训练
  • 4、ubuntu系统 | 文本和目录操作函数
  • react 生命周期
  • Java 2D 图形类总结与分类
  • 自定义Shell命令行解释器
  • 数据结构哈希表总结
  • [SC]SystemC中常用的宏和小工具
  • 抛砖引玉:RadarDet4D,NuScenes数据集Radar模态目标检测第二名(即将开源)
  • uniapp-商城-77-shop(8.2-商品列表,地址信息添加,级联选择器picker)
  • 3. TypeScript 中的数据类型
  • Linux磁盘管理
  • 业务到解决方案构想
  • SQL 中的 `CASE WHEN` 如何使用?
  • 达梦数据库 Windows 系统安装教程
  • CentOS8.3+Kubernetes1.32.5+Docker28.2.2高可用集群二进制部署
  • 状态机实现文件单词统计
  • 人工智能在智能制造业中的创新应用与未来趋势