视频生成
start-comfyui
1 | start-comfyui |
爆显存可能导致comfyui挂掉
新下载的模型需要在模型区 刷新
TODO:
- prompt生成及优化,中英文互译
- 图精细化和扩张
- 图片修复和调整
常见任务:
outpaint 扩展画布应用包括:
- 场景扩展:扩大原图的场景范围,以展示更完整的环境
- 构图调整:通过扩展画布来优化整体构图
- 内容添加:向原始图像添加更多相关的场景元素
inpaint 修复
常见的修复包括:
- 缺陷修复:删除不需要的物体,修复不正确的 AI 生成的身体部位等。
- 细节优化:精确调整局部元素(如修改服装纹理、调整面部表情)
- 和其他场景
Upscale 图像放大
Image Upscaling 是使用算法将低分辨率图像转换为高分辨率的过程。 与传统的插值方法不同,AI 放大模型(如 ESRGAN)可以在保持图像质量的同时智能重建细节。
Finegrain Image Enhancer - a Hugging Face Space by finegrain 对私处、毛发重建一般,会进行涂抹,但是对于景色和模糊、动态重建非常好,会锐化和重绘非常多
WPS图片 无损放大:锐化和细节增加一点
文本到图像 T2I
图像到视频 I2V
文本到视频 T2V
Lora微调
LoRA (Low-Rank Adaptation) 是一种用于微调大型生成模型(如 Stable Diffusion)的有效技术。 它将可训练的低秩矩阵引入预训练模型,仅调整部分参数,而不是重新训练整个模型。 从而以较低的计算成本实现对特定任务的优化。 与 SD1.5 等基本模型相比,LoRA 模型更小,更易于训练。
提示词
SD1.5 模型的一些基本提示原则:
- 尽可能使用英语
- 用英文逗号分隔提示
,
- 使用短语,而不是长句
- 使用具体的描述
- 使用冒号表达式来增加特定关键字的权重,使它们更有可能出现在图像中。比如golden hour:1.2,将 “golden hour”(黄金时刻光线)的重要性提高 20%。
- 使用质量强化关键词来提高生成质量
masterpiece, best quality, 4k
1. 动画风格
正向提示词
1 | anime style, 1girl with long pink hair, cherry blossom background, studio ghibli aesthetic, soft lighting, intricate details |
负向提示词
1 | low quality, blurry, deformed hands, extra fingers |
2. 真实风格
正向提示词
1 | (ultra realistic portrait:1.3), (elegant woman in crimson silk dress:1.2), |
负向提示词
1 | (deformed, cartoon, anime, doll, plastic skin, overexposed, blurry, extra fingers) |
3. Specific Artist Style
正向提示词
1 | fantasy elf, detailed character, glowing magic, vibrant colors, long flowing hair, elegant armor, ethereal beauty, mystical forest, magical aura, high detail, soft lighting, fantasy portrait, Artgerm style |
负向提示词
1 | blurry, low detail, cartoonish, unrealistic anatomy, out of focus, cluttered, flat lighting |
常见节点
ControlNet 条件控制生成框架
ControlNet 是一种基于扩散模型(如 Stable Diffusion)的 条件控制生成框架,由 Lvmin Zhang 和 Maneesh Agrawala 等人在 2023 年提出。它通过引入 多模态输入条件(如边缘图、深度图、人体姿态等),显著提升了图像生成的 可控性 和 细节还原能力,解决了传统文本生成图像(Text-to-Image)中随机性过强、难以精确控制的问题。
传统扩散模型:仅依赖文本提示(Prompt)生成图像,结果不可预测。
ControlNet:在扩散过程中注入额外的 条件输入(如草图、深度图等),引导模型按指定结构生成内容。
局限性
依赖输入质量:模糊或低分辨率条件图会导致生成效果下降。
计算资源消耗:同时启用多个 ControlNet 会显著增加显存占用。
复杂场景挑战:对非刚性物体(如流体、毛发)的控制仍需优化。
### Flux 模型概述
1. 核心背景
开发团队:由前 Stable Diffusion 团队成员创立的 Black Forest Labs 开发,定位为开源生态的高性能替代方案。
模型规模:
参数量:120 亿(12B),远超 Stable Diffusion XL(2.6B)。
原始文件大小:约 23GB,需高显存支持(推荐 ≥16GB VRAM)。
2. 核心优势
特性 | 说明 |
---|---|
混合架构 | 结合 Transformer 的文本理解力与扩散模型的图像生成能力,提升提示词对齐精度。 |
多风格支持 | 可生成写实、动漫、抽象等多种风格,适配复杂艺术需求。 |
高保真度 | 对复杂提示词(如多物体组合、细节描述)的还原能力显著优于同类模型。 |
Flux.1 主要版本对比
版本 | 授权方式 | 特点 | 适用场景 |
---|---|---|---|
Flux.1 Pro | 闭源(仅 API) | 性能最优,支持商业用途,需付费调用。 | 企业级应用、高预算项目 |
Flux.1 [dev] | 开源(NC*) | 从 Pro 版蒸馏而来,性能接近 Pro,但禁止商用。 | 研究、个人创作 |
Flux.1 [schnell] | Apache 2.0 | 极速生成(仅需 4 步),显存要求低(≈8GB),适合低配硬件。 | 实时演示、移动端部署 |
HiDream-i1 图像生成
HiDream-e1 图像编辑
Flux.1 Fill 核心定位
- 核心功能:专注于 图像修复(Inpainting) 和 图像扩展(Outpainting),是商业版
FLUX.1 Fill [pro]
的开源替代(性能接近但禁止商用)。
ComfyUI Flux.1 ControlNet 风格迁移
FLUX.1-Depth-dev 和 FLUX.1-Canny-dev 都是 12B 参数 FLUX.1 工具中的两个强大模型
flux提示词-gallery
Flux AI Images Showcase | AI Generated Images By Flux AI
v1-5-pruned-emaonly-fp16.safetensors
下载hf:
点击进入查看模型,复制模型连接,wget +下载链接
调整提示词顺序,前几个依次为体型、成人内容、主体数量、主体类型、面部特征