Unified VL 图像生成中 T2I LoRA 向编辑通路的自动迁移 — HiDream-O1 上的对照评测
Abstract
本文以 HiDream-O1-Image (基于 Qwen3VL 的 unified vision-language transformer,2026 年 5 月以 MIT 许可发布) 为对象,考察仅以 Text-to-Image (T2I) 信号训练的 LoRA 适配器在 Image-to-Image (instruction-following edit,即 I2I) 通路上能在多大程度上发挥作用。我们进行了 5 轴 × 16 prompt × 5 LoRA 构成 × 3 参考图像 = 240 样本的对照评测。结论:在不进行任何 edit-specific fine-tuning 的前提下,T2I 单独学习的 LoRA 即可在 edit 通路上带来达到实用水准 (commercial-grade) 的画质提升。该现象源于 unified VL 架构的结构性属性,在文本编码器与扩散主干分离的 siloed 架构 (如 Stable Diffusion XL、FLUX dev) 中不能成立。本文整理这一差异的含义、行业迁移趋势,以及对个人实现者的实务启示。
1. 问题设定
笔者在维护一款对话代理产品的 dynamic narrative / TRPG 模式 (以人物为轴,服装、场景、出场角色逐章变化的叙事驱动 UI),需要提升 I2I 通路 — 即"在保留同一主体的前提下,用文本指令改写场景、服装、姿势"操作 — 的画质。常规做法是构建 I2I 专用配对学习数据,并训练 edit 专用的 LoRA 或对其进行 full fine-tuning (InstructPix2Pix [Brooks et al., 2023]、MagicBrush、UltraEdit 等)。本研究是在判断该投资之前的预实验。
笔者既有的 HiDream-O1 + 5 LoRA 构成 (kotonia03、kotonia02、kotonia01、grok_taste、lora_nipple_v1、lora_nipple_v2) 均以 T2I 信号训练 (LoRA 附着于 language_model 之下的 q/k/v/o 和 gate/up/down projection,训练数据仅为 {image, caption} pair,不含 edit 三元组 [{ref, instruction, target}])。即便如此,这些 LoRA 在 edit 通路上也起作用,这一观察在先行的内部评测 (2026 年 5 月) 中以"edit/I2I 通路上 LoRA 不会引起退化"的形式被记录。本研究将该观察扩展到 5 轴 × 240 样本,以判定其究竟是"仅仅不退化"还是"显式带来改善"。
2. 假设
- H1: 在 HiDream-O1 这样的 unified VL 架构上,T2I LoRA 在 edit 通路上也能带来有意义的画质提升。
- H2: 该性质为 unified VL 架构所特有,在 siloed 架构 (SDXL/FLUX dev) 上不会发生同等迁移。
H2 不在本实验中直接验证,本文以架构分析与现有文献来论证。
3. 方法
3.1 模型与推理流水线
- Base model: HiDream-O1-Image (8B parameters,Qwen3VL backbone)
- 量化: transformer 权重以
float8_e4m3fn常驻 (fp8-cast),前向计算时上转为 bfloat16 - 推理路径: 自前 HTTP 推理服务 (Python、ThreadingHTTPServer),经由 Rust backend (
/api/v1/images/generations) 调用 - 公共设置: 25 inference steps、guidance scale = 5.0、shift = 3.0、分辨率 1024×1024、seed = 12345 (edit) / 7777–7779 (参考图 T2I)
3.2 LoRA 构成 (5 conditions)
| ID | 构成 | 用途/来源 |
|---|---|---|
| C0 | base (无 LoRA) | baseline |
| C1 | kotonia03 @ 0.75 | 由约 5000 个 SFW + mature 混合样本训练的 aesthetic LoRA |
| C2 | grok_taste @ 0.7 | 由约 595 个 Grok Imagine 生成样本训练的 taste-alignment LoRA |
| C3 | C1 + C2 (kotonia03 0.75 + grok_taste 0.5) | 通过 PEFT 的 add_weighted_adapter(combination_type="cat") 进行 stack |
| C4 | C1 + lora_nipple_v2 (两者均为 0.75) | 与加强解剖学细节的 LoRA stack |
所有 LoRA 均仅基于 T2I 信号训练 (在 {image, caption} pair 上做 flow-matching MSE);未在 edit / multi-reference 配对数据上重新训练。
3.3 评测轴 (5 axes × 16 prompts)
| Axis | 类别 | Prompt 数 | 示例 |
|---|---|---|---|
| A1 | Outfit substitution (SFW) | 3 | "Replace her outfit with a Japanese sailor-style high school uniform..." |
| A2 | Outfit substitution (explicit prompt distribution) | 3 | (anatomical capability evaluation;作为独立轴用以验证 caption-vocabulary unlock 方法论在 edit 通路上是否依然保持) |
| A3 | Scene substitution | 4 | "Place her in a snowy alpine mountain landscape at dusk..." |
| A4 | Pose substitution | 4 | "Change the pose so she is in a martial-arts combat stance..." |
| A5 | Multi-person composition | 2 | "Add a tall young man standing next to her, his arm around her shoulder..." |
3.4 参考图像
参考图像以同一 prompt 模板与固定 seed (7777, 7778, 7779) 在三个视角 (正面、3/4、softer 3/4) 下用 T2I 生成。生成参考图像时的 LoRA 构成固定为 C1 (kotonia03),以确保被试主体的同一性。
3.5 评测方法
我们未引入定量指标 (FID / CLIP-similarity)。本研究的主要目的为"T2I LoRA 在 edit 通路上是否起作用"的二值判定与 aesthetic 的定性比较;reference-based FID 因目标分布不固定难以直接套用。因此,对每个轴分别构建 9 行 (3 ref × 3 prompt) 或 12 行 (3 ref × 4 prompt) × 5 列 (C0..C4) 的 grid montage,从四个维度目视评估:
- Identity preservation — 参考图主体的同一性是否保持
- Instruction fidelity — 文本指令是否被反映
- Aesthetic quality — 光影、构图、质感是否达到 commercial-grade
- Edit-pathway robustness — 上述结果在不同轴上是否一致
4. 结果
4.1 Outfit Substitution (A1)

5 种构成全部如指令完成衣装替换 (水手服、女仆装、正式礼服)。被试主体的同一性大体保持。Aesthetic 排序为 C3 (k03+grok stack) > C1 (k03) > C2 (grok) > C0 (base) ≈ C4 (k03+nipple)。C3 在主光指向性、肌肤质感、衣料体积感上同时达到 commercial-grade 水准。C0 (base) 虽完成指令,但光影偏平、分辨率感停留在中等水平。
4.2 Scene Substitution (A3)

场景替换 (雪山、教室、中世纪城堡、霓虹夜景) 均成功。被试同一性良好。C3 最显著地诱导出电影化构图与色彩,尤其是霓虹夜景 prompt 下紫/青/品红的混色接近电影级。C0 有时会退化为"略带背景的人像",场景氛围只能微弱传达。
4.3 Pose Substitution (A4)

椅子坐姿、侧卧、回望、战斗架势 4 种 pose 全部完成。Identity preservation 相对其他轴有轻微下降,这与大姿势 delta 时的一般 trade-off 相符。C4 (k03+nipple) 在侧卧 prompt 下显示出体型纵向拉长 (elongation bias),归因于已另行记录的 nipple_v2 训练数据的 aspect 分布偏置。
4.4 Multi-Person Composition (A5)

这是预先设想难度最高的轴。所有构成均成功将副主体 (男性或女性 partner) 加入画面,肩并肩、搭肩等关系性指令也被反映。C0 (base) 在被试同一性上最稳健,LoRA stack 构成由于 aesthetic drift 倾向于将主体"理想化"。值得注意的是,本评测使用的是 edit mode (1 个参考)。subject-driven generation 中常用的 IP mode (multi-reference) 未启用。也就是说,仅凭 1 个参考即实现了多人合成。
4.5 Capability Evaluation under Explicit Prompt Distribution (A2)
A2 是为了确认解剖学描绘能力 (anatomy capability) 在 edit 通路上是否持续存在而设的轴。背景:笔者在先行研究 (2026 年 5 月,另文发表) 中确立了"通过 Vision-Language Model captioner 的词汇修复来 unlock base 模型的解剖学描绘能力"这一方法论,A2 旨在确认该 unlock 能否在 edit 通路上 persist。对应的图作为附录置于本文末尾 (Supplementary Materials)。
结果:5 种构成在指令忠实度与 aesthetic 上均与 A1 相当。即便 C0 (base) 也能完成解剖学描绘,说明 caption-vocabulary unlock 在 edit 通路上没有退化。C4 (k03+nipple) 与 A4 同样在侧卧姿势上显示出体型纵向拉长偏置。
5. 讨论: T2I LoRA 为何能在 edit 通路上发挥作用
HiDream-O1 是采用 Qwen3VL backbone 的 unified vision-language transformer,文本 token、参考图像 token、目标图像 token 全部通过同一 transformer 的同一层。在本模型中,LoRA 附着于 language_model 之下的 q/k/v/o 与 gate/up/down_proj (具体即满足 train_lora.py:167-173 中 language_model in n and "visual" not in n 谓词的 Linear 层)。
这一附着路径至关重要。因为这些 projection 同时是 edit 推理时支配参考图像 token → 目标图像 token cross-modal attention 的路径。在 T2I 训练中获得的 LoRA delta 来自"在文本条件下生成目标图像"的信号,而该信号作用的 attention 层在 edit 推理时也是同时整合 {text, ref, target} 的位置。因此,T2I LoRA 在 edit 通路上自动有效。
这一性质是从架构上推导出的结构性必然,而非经验性意外。当初的实验设计未明确预测这种"在 edit 通路上发生迁移"的事实,但回到架构本身后必然导出。
6. 对比: Siloed vs Unified 架构
| Family | Architecture | T2I LoRA → edit transfer | 代表模型 |
|---|---|---|---|
| Unified VL | 文本与图像 token 在单一 transformer 的共有层中处理 | Automatic | HiDream-O1 (2026-05), OmniGen / OmniGen2 (2024-25), Qwen-Image (2025), FLUX.1 Kontext (2025-04), Gemini Image Gen / Nano Banana (2025) |
| Siloed | 独立的 text encoder (CLIP/T5) + 独立的 diffusion backbone (UNet/DiT),通过 cross-attention 连接 | 结构上不成立。edit 需要额外架构 (IP-Adapter、ControlNet、InstructPix2Pix 的附加通道) | SDXL (2023), SD3 (2024), FLUX dev / Schnell (2024) |
在 siloed 架构下,T2I LoRA 仅在 UNet/DiT 的 T2I 推理路径上添加 delta。要实现 edit,需要将参考图通过另一路径编码并注入到 UNet,而 T2I LoRA 触不到这条注入路径。结果是,SDXL/FLUX dev 生态中产生了"edit 专用 LoRA"、"edit 专用 ControlNet"、"edit 专用 IP-Adapter LoRA"等概念上的分割。在 unified VL 下,这种分割消失。
7. 行业迁移趋势
2024 年时,基于 SDXL 的生态系 (ComfyUI / A1111 / kohya-ss / sd-scripts / CivitAI 分发) 已完全成熟,unified VL 系仍处于研究阶段。2025 年开始局面急速变化:
- 2025-04: FLUX.1 Kontext (Black Forest Labs;unified-edit DiT)
- 2025: OmniGen2 (BAAI;unified VL)
- 2025: Qwen-Image (Alibaba;Qwen2.5-VL backbone)
- 2026-05: HiDream-O1-Image (Qwen3VL backbone;MIT 许可;open-weight)
- 2025-2026: Gemini Image Gen / Nano Banana (proprietary;unified)
主要 frontier 几乎同时向 unified 侧 re-architect。这表明业界整体正在进行从 siloed 向 unified 的 paradigm shift。其动机之一,正是本文讨论的"在单一模型中整合 T2I / edit / subject-driven / layout 全任务"的工程简化。
8. 对个人实现者的实务启示
unified VL 模型上的 LoRA 学习无法直接沿用 siloed 生态系的工具积累。主流 SDXL 系 trainer (kohya-ss、sd-scripts、AI-Toolkit 等) 以 UNet/DiT 结构为前提,移植到 Qwen3VL backbone 并不平凡。笔者在 HiDream-O1 上训练 LoRA 时,需要自前写 train_lora.py (基于 inference.py 逆解析的约 260 行最小 trainer) 与 train_full.py (8-bit Adam,可在 96GB GPU 上运行的 full fine-tuning trainer)。
生态层面也是,ComfyUI 节点、CivitAI 上的 HiDream LoRA 分发、对应的 SaaS 推理服务在 2026 年 6 月时点均有限。这一状况意味着两件事:
- 入场门槛: 个人实现者将 unified VL 的 LoRA 学习 + 推理一气贯通到产品上线,现阶段需自前实现 trainer 与构建 pipeline,先期成本是数百工程师小时量级。
- 时间优势的窗口: 因为门槛 (1),能够将本研究确认的"T2I LoRA → edit 自动迁移"性质付诸实践的个人实现者在 2026 年 6 月时点为数较少。窗口闭合 (即 ComfyUI 节点与分发生态成熟) 前,能够训练并部署 unified VL LoRA 的实现者将持有结构性 moat。
随着生态成熟窗口将关闭,但在本文写作时窗口明确开放。
9. 应用: 向 Avatar Dynamic Narrative 的直接连接
本研究的动机 — dynamic novel / TRPG 模式的图像侧能力 — 对应的含义如下:
- "换装"、"换场景"、"换姿势"、"加入对手角色"四个主要 axis 全部已在既有 LoRA stack + edit 通路上达到 commercial-grade 画质。
- 因此,先前考虑的 I2I 专用 fine-tuning (合成 edit pair 并训练专用 LoRA) 不再必要。
- 下一阶段可集中于编排: 对话中的 LLM 意图检测 ("换衣服"、"换地方"等述谓) →
/api/v1/images/generations的 edit 调用 → 将结果图像送入 persona 更新 pipeline。
这一含义大致从 avatar 系产品的开发路线图中削去了 1–2 个月的图像侧投资。
10. 结论
通过在 HiDream-O1-Image 上的 240 样本对照评测,确认了仅在 T2I 训练下取得的 LoRA 适配器在 edit 通路 (image-to-image instruction-following) 上也能带来实用水准的画质提升。该性质是 unified vision-language transformer 的结构性必然 — 文本、参考图、目标图共享同一 attention 层。Stable Diffusion XL、FLUX dev 等 siloed 架构上不能成立同等的自动迁移。
业界整体在 2025-2026 年正向 unified 侧急速迁移,open-weight 领域中 HiDream-O1 是该 paradigm 的主要候选之一。同时,目前能在该 paradigm 上自前构建 LoRA 学习与推理 pipeline 的个人实现者仍然有限,生态成熟前的时间优势窗口存在。
本评测的重现以 eval_i2i_avatar.py 封装,整个流程仅经由公共 /api/v1/images/generations API 即可完成。
Supplementary Materials
Figure 2: Axis A2 Capability Evaluation under Explicit Prompt Distribution
下图为 §4.5 提及的 A2 评测结果。9 行 = 3 ref × 3 prompt,5 列 = LoRA 构成 C0..C4。本轴用于确认 edit 通路上解剖学描绘能力的 persistence,非 aesthetic showcase。详细依据请参阅 §1 提及的先行 caption-vocabulary unlock 方法论。
点击显示 (explicit anatomical content; clinical evaluation only)

Reproducibility
- 评测脚本:
HiDream-O1-Image/eval_i2i_avatar.py - 推理 API:
POST /api/v1/images/generations(HiDream-O1-Image fp8-cast) - 认证:
Authorization: Bearer kotonia_…(在/api-manager处发行 token) - 推理参数: steps=25, guidance=5.0, shift=3.0, seed=12345 (edit) / 7777-7779 (refs), 1024×1024
- 全部 240 个 PNG 与 5 个轴的 montage 位于
outputs/i2i_avatar_eval/之下
相关内部工作
- 先行的 caption-vocabulary unlock methodology (2026-05)
- HiDream-O1 上的 T2I LoRA 学习手顺 (2026-05)
- Avatar dynamic narrative 的图像侧设计
