AI 绘画 IP 一致性完全指南:从 Seed 到 LoRA 的 4 种方法
2026年6月1日•13 分钟阅读•4 次浏览
AI
看到一个有趣的 skill——ian-xiaohei-illustrations,主要是给文章配图的,其中一个有趣的想法是一定要加入一个名为“小黑”的 IP,并参与整个图片的内容表达。由此,我在思考,如何保证文生图的 IP 形象保持高度一致性?
设计层:做减法
复杂 IP 难以一致,因为细节越多,AI 越容易跑偏。
小黑的设计哲学:
| 要素 | 设计 | 效果 |
|---|---|---|
| 形状锚点 | 黑色实心 + 白点眼 + 细腿 | 3 个不可替代符号 |
| 可变形身体 | 圆柱/黑豆/黑盒/漏斗都行 | 灵活但不失识别 |
| 表情减法 | 空、呆、冷静(无复杂五官) | 避免面部渲染失控 |
| 动作定义 | 认真荒诞的参与感 | 用行为强化角色 |
因此在设计上,如果想仅仅通过 prompt 来保证角色的一致性,那么做减法是难以避免的。
一致性 = 固定识别点(30%)+ 可变表现(70%)
固定识别点:颜色、标志性配饰、身体比例、一个独特特征
可变表现:姿势、场景、服装细节、表情强度
Prompt 层:结构化描述
一个差的例子:
一个长发女孩,戴着红色围巾,穿着蓝色外套...
一个好的例子:
角色定义:
- 固定特征:银色长发,异色瞳(左眼金色/右眼蓝色),
左手腕红色丝带,右眼下方有一颗痣
- 表情:冷静、疏离、略带忧郁
- 体型:纤细,165cm,总是携带一本皮质笔记本
可变元素:
- 服装:[根据场景描述]
- 姿势:[动作描述]
- 环境:[背景描述]
核心原则:
- 角色描述放最前面
- 固定特征与可变元素分离
- 每次生成复制相同的固定描述
技术层:五种可行的方案
方法 1:Reference 图法
原理:上传参考图,让 AI 以图中角色为基础生成新图。
Prompt 示例:
以上传图片中的角色为基础,保持相同的发型和服装风格。
让角色做出[new action]的动作,背景改为[new scene]。
优点:
- 无需训练,立即可用
- 直观可控,效果可见
- 适合快速迭代
局限:
- 复杂姿势可能丢失特征
- 光照/风格可能随新场景偏移
- 无法保证 100% 一致,每次仍有变异
适用场景:快速验证、单张调整、轻度变体
方法 2:Seed 固定法
原理:Seed 是随机数起点。相同 seed + 相同条件 = 相同图像。
什么是 Seed:
seed = 地图初始坐标
random noise = 从这个坐标开始的迷雾
diffusion = 一步步揭开迷雾的过程
获取 Seed:
| 平台 | 方法 |
|---|---|
| Midjourney | 右键 → Copy → Seed;或 --seed N |
| Stable Diffusion | 界面显示 Seed 数值,点击 ♻️ 锁定 |
| DALL-E/GPT-4o | 不支持,用 reference 替代 |
工作流:
# Step 1: 找到基础种子
Prompt: "黑色实心生物,白点眼睛,细腿,纯白背景"
Seed: 3928471023 → 保存为基准图
# Step 2: 保持种子,改姿势/场景
Seed: 3928471023 (不变)
Prompt: "同一角色,搬运箱子,行走" → 搬运版
Prompt: "同一角色,拉动机器杠杆" → 操作机器版
Prompt: "同一角色,卡在洞里,双腿悬空" → 卡洞版
当然也可以遍历种子找最优的设计
for seed in range(1000, 1010):
generate(prompt, seed=seed)
# 从结果中选最满意的,锁定使用
优点:
- 成本最低,无需额外工具
- 可复现性强,相同条件必出相似图
- 适合批量生成变体
局限:
- Prompt 改动过大(>30%)会导致角色变形
- 分辨率/比例改变会重新采样
- 模型版本变化会完全失效
- 无法控制姿势,姿势由 seed 决定
| 问题 | 说明 | 解决 |
|---|---|---|
| Prompt 大改 | 背景全换会导致角色变形 | 每次只改 20-30% prompt |
| 分辨率变化 | 16:9 的 seed 用在 9:16 上发散 | 保持分辨率一致 |
| 模型版本变 | V5.2 seed 在 V6 上失效 | 同版本下使用 |
适用场景:系列图生成、多图变体、低成本一致性要求
方法 3:LoRA/模型训练
原理:用 15-30 张角色图训练小型模型,固化角色特征。
训练步骤:
1. 准备角色多角度/多姿势图 15-30 张
2. 标注触发词,如 "XIAOHEI"
3. 训练 LoRA(约 30-60 分钟)
4. 生成时调用:<lora:character_name:0.8>
Prompt 示例:
XIAOHEI, 一个黑色实心生物,白点眼睛,细腿,
正在搬运箱子,纯白背景,手绘风格
<lora:xiaohei_v1:0.8>
优点:
- 一致性最高,几乎 100% 稳定
- 无需每次描述角色,只需触发词
- 可跨姿势/场景保持特征
局限:
- 需要准备训练素材
- 训练耗时(30-60 分钟)
- 过度训练可能导致风格僵化
- 需要技术门槛(SD/训练环境)
适用场景:复杂 IP、长期商用、高一致性要求
支持平台:
| 在线平台 | 特点 | 难度 |
|---|---|---|
| CivitAI | 最流行,社区完善,可分享/下载 LoRA | ⭐ 低 |
| Leonardo.AI | 自带角色训练,适合新手 | ⭐ 极低 |
| TensorArt | 亚洲友好,支持中文 | ⭐ 低 |
| SeaArt | 国产,中文界面 | ⭐ 极低 |
| 本地/自托管 | 显存要求 | 特点 |
| --------------- | ---------- | ------ |
| Kohya_ss GUI | 8GB+ | 最主流,功能最全 |
| AI-Toolkit | 12GB+ | 微软出品,现代化 |
| SimpleTuner | 8GB+ | 轻量,配置简单 |
| SD-WebUI 内置 | 8GB+ | 与生成环境一体 |
方法 4:CV 控制(ControlNet 等)
原理:用计算机视觉工具控制生成过程中的特定要素。
常用组合:
| 工具 | 用途 | 说明 |
|---|---|---|
| ControlNet + OpenPose | 控制姿势 | 用骨骼图锁定动作 |
| IP-Adapter | 保持面部一致 | 提取面部特征注入生成 |
| InstantID / FaceID | 面部特征锁定 | 单张图即可提取身份 |
Workflow:
1. 准备 OpenPose 骨骼图(或提取角色面部)
2. 在 SD 中启用 ControlNet
3. 选择预处理器和模型(OpenPose/IP-Adapter)
4. 输入 prompt,生成
优点:
- 姿势可控,不再随机
- 面部一致性极高
- 可精确控制构图
局限:
- 需要 Stable Diffusion 环境
- 学习成本较高
- 过度控制可能导致僵硬
适用场景:精确姿势要求、面部特写、动画分镜
支持平台:
| 在线平台 | 支持能力 | 说明 |
|---|---|---|
| Leonardo.AI | Pose Control | 内置姿势控制,上传骨骼图或选模板 |
| SeaArt | ControlNet | 支持 OpenPose/Canny/Depth 等多种控制 |
| TensorArt | ControlNet + IP-Adapter | 姿势+风格迁移双重控制 |
| LiblibAI | 全功能 | 国产,支持 ControlNet 全系列 |
| 本地/自托管 | 要求 | 特点 |
| --------------- | ------ | ------ |
| SD WebUI + ControlNet | 8GB+ 显存 | 最完整,插件生态丰富 |
| SD WebUI + IP-Adapter | 8GB+ 显存 | 面部一致性最佳 |
| ComfyUI | 10GB+ 显存 | 工作流灵活,节点式操作 |
| Fooocus | 6GB+ 显存 | 简化版 ControlNet,新手友好 |
方法对比总表
| 方法 | 成本 | 一致性 | 技术门槛 | 适用场景 |
|---|---|---|---|---|
| Reference 图 | 低 | 中 | 无 | 快速验证、轻度变体 |
| Seed 固定 | 最低 | 中 | 无 | 系列图、多图变体 |
| LoRA 训练 | 高 | 最高 | 中 | 复杂 IP、长期商用 |
| CV 控制 | 中 | 高 | 高 | 精确姿势、动画 |