【AI学习-comfyUI学习-抠图+实时图像裁剪-各个部分学习-第九节1】

内容分享4个月前发布梅森1949

【AI学习-comfyUI学习-抠图+实时图像裁剪-各个部分学习-第九节1】

1，前言2，说明1：1-inspynet抠图工作流说明2：实时图像裁剪
3，流程1-inspynet抠图工作流（1）调用模块整个模块部分
（2）输出提示词（3）模型加载（4）生成图片（5）模块介绍参数说明🧩 一、加载图像（Load Image）🧠 二、Inspyrnet Rembg Advanced（核心节点）🧩 输出端口：

2-实时图像裁剪（1）调用模块整个模块部分
（2）输出提示词（3）模型加载（4）生成图片（5）模块介绍参数说明
🧩 一、Checkpoint加载器（简易）🧠 二、CLIP文本编码器（绿色）—— 正向提示词🚫 三、CLIP文本编码器（红色）—— 负面提示词🌫️ 四、空Latent（初始化潜空间）⚙️ 五、K采样器（核心生成器）🎨 六、VAE解码（VAE解码器）✂️ 七、图像裁剪（Image Crop）
4，细节部分5，使用的工作流1：1-inspynet抠图工作流说明2：实时图像裁剪
6，总结

1，前言

最近，学习comfyUI，这也是AI的一部分，想将相关学习到的东西尽可能记录下来。

2，说明

1：1-inspynet抠图工作流说明

ComfyUI 的「Inspyrnet 抠图工作流」，用于自动去除图片背景（即“Rembg”功能）。
整个流程非常简洁，是一个“输入 → 抠图 → 输出”的轻量结构。

目标	调整建议
想单独保留人物	threshold ≈ 0.85–0.9
想保留头发细节	threshold ≈ 0.7–0.8
背景太复杂	可先用 `Segment Anything` 辅助 mask
想替换背景	将输出的 mask 用在“图像合成”节点（如 Combine / Blend）中

2：实时图像裁剪

一个完整的 ComfyUI 文生图工作流（Text-to-Image Workflow）+ 图像裁剪（Image Crop）


Checkpoint加载模型（主风格）
   ↓
CLIP文本编码（正向/负向）
   ↓
空Latent生成画布
   ↓
K采样器生成潜空间图
   ↓
VAE解码为图像
   ↓
（可选）裁剪 → 预览 → 保存

3，流程

1-inspynet抠图工作流

（1）调用模块

整个模块部分

这回整个模块都可以截截图下了

【AI学习-comfyUI学习-抠图+实时图像裁剪-各个部分学习-第九节1】

（2）输出提示词

无

（3）模型加载

无

（4）生成图片

（1）原图片
【AI学习-comfyUI学习-抠图+实时图像裁剪-各个部分学习-第九节1】

（2）抠出的图
【AI学习-comfyUI学习-抠图+实时图像裁剪-各个部分学习-第九节1】

（5）模块介绍参数说明

🧩 一、加载图像（Load Image）

作用：
从本地上传或加载一张图片，作为抠图的输入源。

参数	含义	建议 / 说明
图片	上传的原始图像	点击“选择文件上传”选择输入图
过滤	是否启用图像过滤	一般不用改，保持默认

🟢 说明：

此节点会输出一个 IMAGE 类型数据，连接到后续处理模块。这一步只是读取图片，不做任何变换。

🧠 二、Inspyrnet Rembg Advanced（核心节点）

这是整个工作流的主逻辑模块，负责 人物/物体抠图与背景去除。

参数	含义	默认值	建议值 / 说明
image	输入图像	—	连接自“加载图像”节点
threshold	掩模阈值（0～1）	0.85	控制抠图精度（越高越严格）
torchscript_jit	模型加载方式	`default`	可选 `default` / `jit`（JIT版在低显存下更快）

🧩 输出端口：

输出口	类型	说明
IMAGE	抠完背景的图像（透明背景 PNG）
MASK	掩模图（白色为主体，黑色为背景）

2-实时图像裁剪

（1）调用模块

整个模块部分

这回整个模块都可以截截图下了，如下图所示
【AI学习-comfyUI学习-抠图+实时图像裁剪-各个部分学习-第九节1】

（2）输出提示词

【AI学习-comfyUI学习-抠图+实时图像裁剪-各个部分学习-第九节1】


a beautiful glass bottle containing Mount Fuji and Tokyo Tower inside, glowing purple galaxy sky, fantasy landscape in a bottle, cinematic lighting, reflection on glass, detailed scenery, ultra realistic, soft lighting, masterpiece, best quality

（3）模型加载

【AI学习-comfyUI学习-抠图+实时图像裁剪-各个部分学习-第九节1】

（4）生成图片

（1）原图片
【AI学习-comfyUI学习-抠图+实时图像裁剪-各个部分学习-第九节1】

（2）切出的一半图

【AI学习-comfyUI学习-抠图+实时图像裁剪-各个部分学习-第九节1】

（5）模块介绍参数说明

🧩 一、Checkpoint加载器（简易）

模块名： Checkpoint加载器（简易）
加载模型： LEOSAM HelloWorld 新世界-V

参数	说明
模型路径	加载主模型（即 `.safetensors` 文件），这是生成风格和质量的核心。
CLIP	文本编码模块，用于解析Prompt。自动匹配主模型。
VAE	解码器模块，用于将潜空间图像转为可视图像。

🔹 作用：决定整体画风（HelloWorld 模型偏向梦幻、光影柔和）。
🔹 建议：

想要水墨、写实、动漫风，可以替换不同的 Checkpoint。不建议频繁改动 CLIP/VAE 除非模型失配。

🧠 二、CLIP文本编码器（绿色）—— 正向提示词

模块名： CLIP文本编码器
作用： 将文字 Prompt 转换为语义向量供模型理解。

当前 Prompt：


a beautiful glass bottle containing Mount Fuji and Tokyo Tower inside, glowing purple galaxy sky, fantasy landscape in a bottle, cinematic lighting, reflection on glass, detailed scenery, ultra realistic, soft lighting, masterpiece, best quality

🔹 解释：

glass bottle containing Mount Fuji and Tokyo Tower inside → 主体（瓶中有富士山与东京塔）purple galaxy sky → 梦幻背景fantasy landscape in a bottle → 强调主题（瓶中世界）cinematic lighting → 电影光感reflection on glass → 强调玻璃反光ultra realistic / masterpiece / best quality → 触发高质量细节

🔹 调整技巧：

想让瓶子更透明：加 clear glass, realistic reflection想让东京塔更突出：加 Tokyo Tower glowing red lights想要夜景：加 night city skyline, bokeh background

🚫 三、CLIP文本编码器（红色）—— 负面提示词

模块名： CLIP文本编码器
作用： 告诉模型要“避免”的内容。

当前内容：


text

🔹 建议补充完整 Negative Prompt：


low quality, blurry, distorted, watermark, text, extra objects, bad lighting, bad composition, lowres, artifacts, ugly

这样可以防止出现：

模糊边缘多余物体画面过暗或溢色

🌫️ 四、空Latent（初始化潜空间）

模块名： 空Latent

参数	含义	建议值
宽度	图像宽度	1024
高度	图像高度	1024
批次大小	每次生成张数	1

🔹 作用： 创建一个“噪声画布”，模型从随机噪声开始生成图像。
🔹 建议：

想生成竖图（瓶子形状）→ 改成 512×1024想生成横图（风景为主）→ 改成 1024×512

⚙️ 五、K采样器（核心生成器）

模块名： K采样器
作用： 控制模型如何“从噪声变清晰”，决定出图速度与细节。

参数	说明	建议
随机种子（Seed）	控制随机性	固定数值→复现同图；randomize→每次不同
运行后操作	一般为 fixed/randomize	取决于是否想要随机出图
步数（Steps）	生成迭代次数	20（当前设置不错）
CFG	提示词权重（Prompt影响力）	8.0（较强，贴合Prompt）
采样器（Sampler）	采样算法	`euler`（经典通用）
调度器（Scheduler）	控制每步噪声衰减	`normal`（标准模式）
降噪	控制最终细节保留	1.0（默认即可）