start-comfyui

1
start-comfyui

爆显存可能导致comfyui挂掉

新下载的模型需要在模型区 刷新

TODO:

  1. prompt生成及优化,中英文互译
  2. 图精细化和扩张
  3. 图片修复和调整

常见任务:

outpaint 扩展画布应用包括:

  • 场景扩展:扩大原图的场景范围,以展示更完整的环境
  • 构图调整:通过扩展画布来优化整体构图
  • 内容添加:向原始图像添加更多相关的场景元素

inpaint 修复

常见的修复包括:

  • 缺陷修复:删除不需要的物体,修复不正确的 AI 生成的身体部位等。
  • 细节优化:精确调整局部元素(如修改服装纹理、调整面部表情)
  • 和其他场景

Upscale 图像放大

Image Upscaling 是使用算法将低分辨率图像转换为高分辨率的过程。 与传统的插值方法不同,AI 放大模型(如 ESRGAN)可以在保持图像质量的同时智能重建细节。
Finegrain Image Enhancer - a Hugging Face Space by finegrain 对私处、毛发重建一般,会进行涂抹,但是对于景色和模糊、动态重建非常好,会锐化和重绘非常多
WPS图片 无损放大:锐化和细节增加一点

文本到图像 T2I

图像到视频 I2V

文本到视频 T2V

Lora微调

LoRA (Low-Rank Adaptation) 是一种用于微调大型生成模型(如 Stable Diffusion)的有效技术。 它将可训练的低秩矩阵引入预训练模型,仅调整部分参数,而不是重新训练整个模型。 从而以较低的计算成本实现对特定任务的优化。 与 SD1.5 等基本模型相比,LoRA 模型更小,更易于训练。

提示词

SD1.5 模型的一些基本提示原则:

  • 尽可能使用英语
  • 用英文逗号分隔提示,
  • 使用短语,而不是长句
  • 使用具体的描述
  • 使用冒号表达式来增加特定关键字的权重,使它们更有可能出现在图像中。比如golden hour:1.2,将 “golden hour”(黄金时刻光线)的重要性提高 20%。
  • 使用质量强化关键词来提高生成质量masterpiece, best quality, 4k

1. 动画风格

正向提示词

1
2
3
anime style, 1girl with long pink hair, cherry blossom background, studio ghibli aesthetic, soft lighting, intricate details

masterpiece, best quality, 4k

负向提示词

1
low quality, blurry, deformed hands, extra fingers

2. 真实风格

正向提示词

1
2
3
4
5
(ultra realistic portrait:1.3), (elegant woman in crimson silk dress:1.2), 
full body, soft cinematic lighting, (golden hour:1.2),
(fujifilm XT4:1.1), shallow depth of field,
(skin texture details:1.3), (film grain:1.1),
gentle wind flow, warm color grading, (perfect facial symmetry:1.3)

负向提示词

1
(deformed, cartoon, anime, doll, plastic skin, overexposed, blurry, extra fingers)

3. Specific Artist Style

正向提示词

1
fantasy elf, detailed character, glowing magic, vibrant colors, long flowing hair, elegant armor, ethereal beauty, mystical forest, magical aura, high detail, soft lighting, fantasy portrait, Artgerm style

负向提示词

1
blurry, low detail, cartoonish, unrealistic anatomy, out of focus, cluttered, flat lighting

常见节点

ControlNet 条件控制生成框架

ControlNet 是一种基于扩散模型(如 Stable Diffusion)的 条件控制生成框架,由 Lvmin Zhang 和 Maneesh Agrawala 等人在 2023 年提出。它通过引入 多模态输入条件(如边缘图、深度图、人体姿态等),显著提升了图像生成的 可控性 和 细节还原能力,解决了传统文本生成图像(Text-to-Image)中随机性过强、难以精确控制的问题。

  • 传统扩散模型:仅依赖文本提示(Prompt)生成图像,结果不可预测。

  • ControlNet:在扩散过程中注入额外的 条件输入(如草图、深度图等),引导模型按指定结构生成内容。

局限性

  1. 依赖输入质量:模糊或低分辨率条件图会导致生成效果下降。

  2. 计算资源消耗:同时启用多个 ControlNet 会显著增加显存占用。

  3. 复杂场景挑战:对非刚性物体(如流体、毛发)的控制仍需优化。

### Flux 模型概述

1. 核心背景

  • 开发团队:由前 Stable Diffusion 团队成员创立的 Black Forest Labs 开发,定位为开源生态的高性能替代方案。

  • 模型规模

    • 参数量:120 亿(12B),远超 Stable Diffusion XL(2.6B)。

    • 原始文件大小:约 23GB,需高显存支持(推荐 ≥16GB VRAM)。

2. 核心优势

特性 说明
混合架构 结合 Transformer 的文本理解力与扩散模型的图像生成能力,提升提示词对齐精度。
多风格支持 可生成写实、动漫、抽象等多种风格,适配复杂艺术需求。
高保真度 对复杂提示词(如多物体组合、细节描述)的还原能力显著优于同类模型。

Flux.1 主要版本对比

版本 授权方式 特点 适用场景
Flux.1 Pro 闭源(仅 API) 性能最优,支持商业用途,需付费调用。 企业级应用、高预算项目
Flux.1 [dev] 开源(NC*) 从 Pro 版蒸馏而来,性能接近 Pro,但禁止商用。 研究、个人创作
Flux.1 [schnell] Apache 2.0 极速生成(仅需 4 步),显存要求低(≈8GB),适合低配硬件。 实时演示、移动端部署

HiDream-i1 图像生成

HiDream-e1 图像编辑

Flux.1 Fill 核心定位

  • 核心功能:专注于 图像修复(Inpainting) 和 图像扩展(Outpainting),是商业版 FLUX.1 Fill [pro] 的开源替代(性能接近但禁止商用)。

ComfyUI Flux.1 ControlNet 风格迁移

FLUX.1-Depth-dev 和 FLUX.1-Canny-dev 都是 12B 参数 FLUX.1 工具中的两个强大模型

flux提示词-gallery

Flux AI Images Showcase | AI Generated Images By Flux AI
v1-5-pruned-emaonly-fp16.safetensors

下载hf:

点击进入查看模型,复制模型连接,wget +下载链接

调整提示词顺序,前几个依次为体型、成人内容、主体数量、主体类型、面部特征