AI 绘画 IP 一致性完全指南：从 Seed 到 LoRA 的 4 种方法

2026年6月1日•13 分钟阅读•4 次浏览

看到一个有趣的 skill——ian-xiaohei-illustrations，主要是给文章配图的，其中一个有趣的想法是一定要加入一个名为“小黑”的 IP，并参与整个图片的内容表达。由此，我在思考，如何保证文生图的 IP 形象保持高度一致性？

设计层：做减法

复杂 IP 难以一致，因为细节越多，AI 越容易跑偏。

小黑的设计哲学：

要素	设计	效果
形状锚点	黑色实心 + 白点眼 + 细腿	3 个不可替代符号
可变形身体	圆柱/黑豆/黑盒/漏斗都行	灵活但不失识别
表情减法	空、呆、冷静（无复杂五官）	避免面部渲染失控
动作定义	认真荒诞的参与感	用行为强化角色

因此在设计上，如果想仅仅通过 prompt 来保证角色的一致性，那么做减法是难以避免的。

一致性 = 固定识别点（30%）+ 可变表现（70%）

固定识别点：颜色、标志性配饰、身体比例、一个独特特征
可变表现：姿势、场景、服装细节、表情强度

Prompt 层：结构化描述

一个差的例子：

一个长发女孩，戴着红色围巾，穿着蓝色外套...

一个好的例子：

角色定义：
- 固定特征：银色长发，异色瞳（左眼金色/右眼蓝色），
  左手腕红色丝带，右眼下方有一颗痣
- 表情：冷静、疏离、略带忧郁
- 体型：纤细，165cm，总是携带一本皮质笔记本

可变元素：
- 服装：[根据场景描述]
- 姿势：[动作描述]
- 环境：[背景描述]

核心原则：

角色描述放最前面
固定特征与可变元素分离
每次生成复制相同的固定描述

技术层：五种可行的方案

方法 1：Reference 图法

原理：上传参考图，让 AI 以图中角色为基础生成新图。

Prompt 示例：

以上传图片中的角色为基础，保持相同的发型和服装风格。
让角色做出[new action]的动作，背景改为[new scene]。

优点：

无需训练，立即可用
直观可控，效果可见
适合快速迭代

局限：

复杂姿势可能丢失特征
光照/风格可能随新场景偏移
无法保证 100% 一致，每次仍有变异

适用场景：快速验证、单张调整、轻度变体

方法 2：Seed 固定法

原理：Seed 是随机数起点。相同 seed + 相同条件 = 相同图像。

什么是 Seed：

seed = 地图初始坐标
random noise = 从这个坐标开始的迷雾
diffusion = 一步步揭开迷雾的过程

获取 Seed：

平台	方法
Midjourney	右键 → Copy → Seed；或 `--seed N`
Stable Diffusion	界面显示 Seed 数值，点击 ♻️ 锁定
DALL-E/GPT-4o	不支持，用 reference 替代

工作流：

# Step 1: 找到基础种子
Prompt: "黑色实心生物，白点眼睛，细腿，纯白背景"
Seed: 3928471023 → 保存为基准图

# Step 2: 保持种子，改姿势/场景
Seed: 3928471023 (不变)
Prompt: "同一角色，搬运箱子，行走" → 搬运版
Prompt: "同一角色，拉动机器杠杆" → 操作机器版
Prompt: "同一角色，卡在洞里，双腿悬空" → 卡洞版

当然也可以遍历种子找最优的设计

for seed in range(1000, 1010):
    generate(prompt, seed=seed)
# 从结果中选最满意的，锁定使用

优点：

成本最低，无需额外工具
可复现性强，相同条件必出相似图
适合批量生成变体

局限：

Prompt 改动过大（>30%）会导致角色变形
分辨率/比例改变会重新采样
模型版本变化会完全失效
无法控制姿势，姿势由 seed 决定

问题	说明	解决
Prompt 大改	背景全换会导致角色变形	每次只改 20-30% prompt
分辨率变化	16:9 的 seed 用在 9:16 上发散	保持分辨率一致
模型版本变	V5.2 seed 在 V6 上失效	同版本下使用

适用场景：系列图生成、多图变体、低成本一致性要求

方法 3：LoRA/模型训练

原理：用 15-30 张角色图训练小型模型，固化角色特征。

训练步骤：

1. 准备角色多角度/多姿势图 15-30 张
2. 标注触发词，如 "XIAOHEI"
3. 训练 LoRA（约 30-60 分钟）
4. 生成时调用：<lora:character_name:0.8>

Prompt 示例：

XIAOHEI, 一个黑色实心生物，白点眼睛，细腿，
正在搬运箱子，纯白背景，手绘风格
<lora:xiaohei_v1:0.8>

优点：

一致性最高，几乎 100% 稳定
无需每次描述角色，只需触发词
可跨姿势/场景保持特征

局限：

需要准备训练素材
训练耗时（30-60 分钟）
过度训练可能导致风格僵化
需要技术门槛（SD/训练环境）

适用场景：复杂 IP、长期商用、高一致性要求

支持平台：

在线平台	特点	难度
CivitAI	最流行，社区完善，可分享/下载 LoRA	⭐ 低
Leonardo.AI	自带角色训练，适合新手	⭐ 极低
TensorArt	亚洲友好，支持中文	⭐ 低
SeaArt	国产，中文界面	⭐ 极低
本地/自托管	显存要求	特点
---------------	----------	------
Kohya_ss GUI	8GB+	最主流，功能最全
AI-Toolkit	12GB+	微软出品，现代化
SimpleTuner	8GB+	轻量，配置简单
SD-WebUI 内置	8GB+	与生成环境一体

方法 4：CV 控制（ControlNet 等）

原理：用计算机视觉工具控制生成过程中的特定要素。

常用组合：

工具	用途	说明
ControlNet + OpenPose	控制姿势	用骨骼图锁定动作
IP-Adapter	保持面部一致	提取面部特征注入生成
InstantID / FaceID	面部特征锁定	单张图即可提取身份

Workflow：

1. 准备 OpenPose 骨骼图（或提取角色面部）
2. 在 SD 中启用 ControlNet
3. 选择预处理器和模型（OpenPose/IP-Adapter）
4. 输入 prompt，生成

优点：

姿势可控，不再随机
面部一致性极高
可精确控制构图

局限：

需要 Stable Diffusion 环境
学习成本较高
过度控制可能导致僵硬

适用场景：精确姿势要求、面部特写、动画分镜

支持平台：

在线平台	支持能力	说明
Leonardo.AI	Pose Control	内置姿势控制，上传骨骼图或选模板
SeaArt	ControlNet	支持 OpenPose/Canny/Depth 等多种控制
TensorArt	ControlNet + IP-Adapter	姿势+风格迁移双重控制
LiblibAI	全功能	国产，支持 ControlNet 全系列
本地/自托管	要求	特点
---------------	------	------
SD WebUI + ControlNet	8GB+ 显存	最完整，插件生态丰富
SD WebUI + IP-Adapter	8GB+ 显存	面部一致性最佳
ComfyUI	10GB+ 显存	工作流灵活，节点式操作
Fooocus	6GB+ 显存	简化版 ControlNet，新手友好

方法对比总表

方法	成本	一致性	技术门槛	适用场景
Reference 图	低	中	无	快速验证、轻度变体
Seed 固定	最低	中	无	系列图、多图变体
LoRA 训练	高	最高	中	复杂 IP、长期商用
CV 控制	中	高	高	精确姿势、动画