Kotonia Articles

Unified VL 画像生成における T2I LoRA の編集経路への自動転移 — HiDream-O1 上の対照評価

HiDream-O1-Image 上で T2I 単独学習の LoRA アダプタが Image-to-Image 編集経路でも有意に機能するかを 5 軸 × 16 prompt × 5 LoRA 構成 × 3 参照画像 = 240 サンプルで対照評価。Unified VL アーキ固有の構造的性質と業界傾向、個人実装者への含意を整理。

著者清水真二2026-06-227分で読める

#hidream#lora#image-generation#unified-vl#research

他の言語英語中国語

Unified VL 画像生成における T2I LoRA の編集経路への自動転移 — HiDream-O1 上の対照評価

Abstract

本稿では、HiDream-O1-Image (Qwen3VL ベースの unified vision-language transformer、2026 年 5 月公開、MIT ライセンス) を対象に、Text-to-Image (T2I) 単独で学習された LoRA アダプタが Image-to-Image (instruction-following edit、いわゆる I2I) 経路でどの程度機能するかを 5 軸 × 16 prompt × 5 LoRA 構成 × 3 参照画像 = 240 サンプルの対照評価により検証した。結果として、追加の edit-specific fine-tuning を行わずとも、T2I LoRA は edit 経路で実用域 (commercial-grade) の品質改善をもたらすことが視覚的に確認された。本観察は unified VL アーキテクチャの構造的特性に由来するものであり、Stable Diffusion XL (SDXL) や FLUX dev に代表される siloed (text encoder と diffusion backbone が分離した) アーキテクチャでは構造的に成立しない。本稿はこの差異の意味、業界の移行傾向、そして個人実装者にとっての実務的含意を整理する。

1. 問題設定

筆者は会話エージェント製品の dynamic narrative / TRPG モード (ペルソナを軸に章ごとに服装・舞台・登場人物が変化する物語駆動 UI) のために、I2I 経路 — つまり「同一人物を保ったまま、シーン・服装・ポーズを文章指示で書き換える」操作 — の品質を高める必要があった。一般的なアプローチは I2I 専用のペア学習データを構築し、edit 専用の LoRA ないし full fine-tuning を行うことである (InstructPix2Pix [Brooks et al., 2023]、MagicBrush、UltraEdit など)。本検証はこの投資判断を行うにあたっての pre-experiment として位置づけられる。

既存の HiDream-O1 + 5 LoRA 構成 (kotonia03, kotonia02, kotonia01, grok_taste, lora_nipple_v1, lora_nipple_v2) はいずれも T2I シグナルで学習されている (LoRA は language_model 配下の q/k/v/o/gate/up/down projection に attach され、学習データは {image, caption} のペアのみで edit ペア [{ref, instruction, target}] は含まれない)。にもかかわらず、これらの LoRA が edit 経路でも有意に作用することは、先行する内部評価 (2026 年 5 月) で「edit/I2I 経路において LoRA は劣化を引き起こさない」と観察されていた。本検証はこの観察を 5 軸 × 240 サンプルへ拡張し、「劣化しないだけ」なのか「明示的に改善する」のかを確定する。

2. 仮説

H1: HiDream-O1 のような unified VL アーキにおいて、T2I LoRA は edit 経路でも有意な品質改善をもたらす。
H2: この性質は unified VL アーキ固有のものであり、siloed アーキ (SDXL/FLUX dev) では同等の転移は起こらない。

H2 は本検証では直接実験せず、アーキテクチャ説明と既存文献から議論する。

3. 方法

3.1 モデルと推論パイプライン

Base model: HiDream-O1-Image (8B parameters、Qwen3VL backbone)
量子化: transformer 重みを float8_e4m3fn で常駐 (fp8-cast)、forward 時に bfloat16 にアップキャスト
推論経路: 自前の HTTP 推論サーバ (Python、ThreadingHTTPServer) を Rust backend (/api/v1/images/generations) 経由で叩く
共通設定: 25 inference steps、guidance scale = 5.0、shift = 3.0、解像度 1024×1024、seed = 12345 (edit) / 7777-7779 (参照画像 T2I)

3.2 LoRA 構成 (5 conditions)

ID	構成	用途/由来
C0	base (LoRA なし)	baseline
C1	kotonia03 @ 0.75	約 5000 サンプルの SFW + mature 混合データで学習された aesthetic LoRA
C2	grok_taste @ 0.7	約 595 サンプル (Grok Imagine 生成データ) で学習された taste-alignment LoRA
C3	C1 + C2 (kotonia03 0.75 + grok_taste 0.5)	PEFT の `add_weighted_adapter(combination_type="cat")` で stack
C4	C1 + lora_nipple_v2 (両者 0.75)	解剖学的詳細を補強した LoRA との stack

LoRA はいずれも T2I シグナル ({画像, キャプション} ペアの flow-matching MSE) で訓練済みであり、edit / multi-reference のペアデータでの再学習は行われていない。

3.3 評価軸 (5 axes × 16 prompts)

Axis	カテゴリ	Prompt 数	例
A1	Outfit substitution (SFW)	3	"Replace her outfit with a Japanese sailor-style high school uniform..."
A2	Outfit substitution (explicit prompt distribution)	3	(anatomical capability evaluation; treated as a separate axis to verify the caption-vocabulary unlock methodology persists through edit)
A3	Scene substitution	4	"Place her in a snowy alpine mountain landscape at dusk..."
A4	Pose substitution	4	"Change the pose so she is in a martial-arts combat stance..."
A5	Multi-person composition	2	"Add a tall young man standing next to her, his arm around her shoulder..."

3.4 参照画像

参照画像は同一プロンプトテンプレートと固定 seed (7777, 7778, 7779) で 3 視点 (正面・3/4・ソフト 3/4) を T2I で生成。LoRA 構成は C1 (kotonia03) で固定し、被写体の同一性を担保する。

3.5 評価方法

定量メトリック (FID / CLIP-similarity) は導入していない。これは本検証の主目的が「edit 経路で T2I LoRA が動作するか」という二値判定と aesthetic quality の qualitative 比較であり、reference-based FID は target distribution が不定なため適用が難しいためである。代わりに、5 軸ごとに 9 行 (3 参照 × 3 prompt または 3 参照 × 4 prompt) × 5 列 (C0..C4) のグリッド montage を構築し、4 つの観点で目視評価した:

Identity preservation — 参照画像の被写体同一性が保たれているか
Instruction fidelity — テキスト指示が反映されているか
Aesthetic quality — 照明・構図・質感の commercial-grade 水準
Edit-pathway robustness — 上記が axis を超えて一貫しているか

4. 結果

4.1 Outfit substitution (A1)

Figure 1: Axis A1 (outfit substitution, SFW) の比較グリッド。9 行 = 3 参照 × 3 prompt、5 列 = LoRA 構成 C0..C4

5 構成すべてで指示通りの衣装変換 (制服・メイド服・フォーマルドレス) が成立。被写体同一性は概ね保持された。Aesthetic ranking は C3 (k03+grok stack) > C1 (k03) > C2 (grok) > C0 (base) ≈ C4 (k03+nipple) と観察された。C3 では照明 (key light の指向性)、肌の質感、衣装ファブリックの立体感がいずれも commercial-grade 水準に達した。C0 (base) は指示は実行するものの、平板な照明と中位の解像感に留まった。

4.2 Scene substitution (A3)

Figure 3: Axis A3 (scene substitution) の比較グリッド。12 行 = 3 参照 × 4 prompt、5 列 = C0..C4

舞台変換 (雪山・教室・中世城・ネオン夜景) も全構成で成立。被写体同一性は良好。C3 が cinematic な構図と色彩を最も強く誘導し、特にネオン夜景プロンプトで紫/シアン/マゼンタの混色が映画的に再現された。C0 はシーンの雰囲気が薄く、portrait に背景がやや加わる程度に留まるケースが散見された。

4.3 Pose substitution (A4)

Figure 4: Axis A4 (pose substitution) の比較グリッド。12 行 = 3 参照 × 4 prompt、5 列 = C0..C4

椅子座位、横臥、振り向き、戦闘構えの 4 ポーズすべてが変換に成功。Identity preservation は他軸に比べてやや低下する傾向にあり、これは姿勢デルタが大きい場合の一般的トレードオフと整合する。C4 (k03+nipple stack) は横臥プロンプトで体型の縦伸び (elongation bias) を示し、これは別途文書化済みの nipple_v2 学習データの aspect 分布バイアスに起因すると考えられる。

4.4 Multi-person composition (A5)

Figure 5: Axis A5 (multi-person composition) の比較グリッド。6 行 = 3 参照 × 2 prompt、5 列 = C0..C4

これは事前予測で最も難度が高いと想定された軸である。すべての構成で副被写体 (男性パートナーまたは女性パートナー) が画面に追加され、肩を寄せる・腕を回す等の関係性指示も反映された。C0 (base) が被写体同一性で最も堅実、LoRA stack 構成では aesthetic drift により被写体が「理想化」される傾向が観察された。注目すべきは、本評価が edit mode (1 参照) で行われた点である。Subject-driven generation で典型的に用いられる IP mode (multi-reference) は本軸には適用していない。すなわち、1 参照のみで複数人合成が成立した。

4.5 Capability evaluation under explicit prompt distribution (A2)

A2 は、解剖学的描写能力 (anatomy capability) が edit 経路でも保持されているかを確認するための軸である。背景として、筆者は先行研究 (2026 年 5 月、別記事) で「Vision-Language Model captioner の語彙修復によって base モデルの解剖学的描写能力が unlock される」という方法論を確立しており、本軸はその unlock が edit 経路でも persist するかを確認する目的を持つ。図は本稿末尾 (Supplementary Materials) に補足図として掲載した。

結果として、5 構成すべてで A1 と同等の指示忠実度と aesthetic quality が観察された。C0 (base) ですら anatomy 描写が成立しており、これは caption-vocabulary unlock が edit 経路でも欠落していないことを意味する。C4 (k03+nipple stack) は A4 と同様に横臥姿勢で体型の縦伸びバイアスを示した。

5. 考察: なぜ T2I LoRA が edit 経路で機能するか

HiDream-O1 は Qwen3VL backbone を採用した unified vision-language transformer であり、テキストトークン・参照画像トークン・ターゲット画像トークンすべてが同一の transformer の同一層を通過する設計を取る。本モデルにおいて LoRA は language_model 配下の q/k/v/o および gate/up/down_proj に attach される (具体的には train_lora.py:167-173 の language_model in n and "visual" not in n 条件を満たす Linear 層)。

この attach 経路は重要である。なぜなら、これらの projection は edit 推論時に参照画像トークン → ターゲット画像トークンの cross-modal attention を司る経路でもあるからである。T2I 学習で得られた LoRA delta は「テキスト条件下でターゲット画像を生成する」シグナルから導出されるが、そのシグナルが効く attention 層は edit 推論時にも text + ref + target のすべてを統合する場所に位置する。したがって、T2I LoRA は edit 経路でも自動的に effective である。

この性質は経験的観察というより、アーキテクチャから演繹される構造的帰結である。「edit 経路に転移する」という事実は当初の評価設計時に明示的に予測されなかったが、事後的にアーキテクチャを参照すれば必然的に導かれる。

6. 比較: Siloed vs Unified アーキテクチャ

Family	Architecture	T2I LoRA → edit transfer	代表的モデル
Unified VL	テキスト・画像トークンを単一 transformer の共通層で処理	Automatic	HiDream-O1 (2026-05), OmniGen / OmniGen2 (2024-25), Qwen-Image (2025), FLUX.1 Kontext (2025-04), Gemini Image Gen / Nano Banana (2025)
Siloed	別個の text encoder (CLIP/T5) + 別個の diffusion backbone (UNet/DiT) を cross-attention で接続	構造的に成立せず。edit は別途アーキ追加が必要 (IP-Adapter, ControlNet, InstructPix2Pix の追加チャネル)	SDXL (2023), SD3 (2024), FLUX dev / Schnell (2024)

Siloed アーキで T2I LoRA は UNet/DiT の T2I 推論経路にのみ delta を加える。edit を実現するには、参照画像を別経路で encode して UNet に注入する追加機構が必要であり、その注入経路に T2I LoRA は届かない。結果として SDXL/FLUX dev での「edit 専用 LoRA」「edit 専用 ControlNet」「edit 専用 IP-Adapter LoRA」といった概念上の分割が発生する。Unified VL ではこの分割が消滅する。

7. 業界の移行傾向

2024 年時点では SDXL ベースのエコシステム (ComfyUI / A1111 / kohya-ss / sd-scripts / CivitAI 配布) が完全に成熟しており、unified VL 系は研究フェーズに留まっていた。2025 年に入って状況が急速に変化する:

2025-04: FLUX.1 Kontext (Black Forest Labs、unified-edit DiT)
2025: OmniGen2 (BAAI、unified VL)
2025: Qwen-Image (Alibaba、Qwen2.5-VL ベース)
2026-05: HiDream-O1-Image (Qwen3VL ベース、MIT ライセンス、open-weight)
2025-2026: Gemini Image Gen / Nano Banana (proprietary、unified)

主要 frontier がほぼ同時に unified 側に re-architect している事実は、業界全体が siloed → unified の paradigm shift を進行中であることを示唆する。動機の一つは本稿で扱った「単一モデルで T2I / edit / subject-driven / layout 全タスクを統合できる工学的整理」であろう。

8. 個人実装者にとっての実務的含意

Unified VL モデルでの LoRA 学習には siloed エコシステムの蓄積が直接流用できないという制約が存在する。kohya-ss / sd-scripts / AI-Toolkit 等の主要 SDXL 系 trainer は UNet/DiT 構造を前提としており、Qwen3VL backbone への移植は trivial ではない。HiDream-O1 で LoRA を学習しようとした筆者の場合、train_lora.py (本実装は inference.py を逆解析して独自に書いた、約 260 行のミニマル trainer) と train_full.py (8-bit Adam で 96GB GPU でも回るフル fine-tuning trainer) を自作する必要があった。

エコシステムの面でも、ComfyUI ノード、CivitAI 上の HiDream LoRA 配布、対応 SAAS 推論サービスはいずれも 2026 年 6 月時点では限定的である。この状況は次の二つを意味する:

参入障壁: 個人実装者が unified VL の LoRA 学習・推論を一通り通すには、現状では trainer 自作とパイプライン構築の工程が必要であり、これは数百時間級の前提コストを生む。
時間的優位の窓: 上記参入障壁ゆえに、本検証で確認されたような「T2I LoRA → edit 自動転移」性質を実践的に活用できる個人実装者は、2026 年 6 月時点では少数である。この窓が閉じる (= ComfyUI ノードと配布エコシステムが整備される) までは、unified VL ベースの LoRA を deploy できる実装者は構造的な moat を持ち得る。

エコシステム成熟に伴い窓は閉じるが、本稿執筆時点ではこの窓は明確に開いている。

9. 応用: Avatar Dynamic Narrative への直結

本検証の動機であった dynamic novel / TRPG モードの image side capability について、本結果は次を含意する:

「服装変更」「シーン切替」「ポーズ変更」「相手キャラ追加」の 4 主要 axis すべてが既存 LoRA stack + edit 経路で commercial-grade 品質に到達。
これにより、当初検討していた I2I 専用 fine-tuning (合成 edit ペアの生成と専用 LoRA 学習) は不要であると判断できる。
次フェーズは LLM 駆動の意図検出 (会話中の「服を着替える」「場所を変える」等の述語) → /api/v1/images/generations の edit 呼出 → 結果画像をペルソナ更新パイプラインに流す、というオーケストレーションに集中できる。

この含意は、avatar 系製品の開発ロードマップにおいて約 1〜2 ヶ月分の image-side 投資を消去することを意味する。

10. 結論

HiDream-O1-Image における 240 サンプル対照評価により、T2I 学習のみで取得された LoRA アダプタが edit 経路 (image-to-image instruction-following) でも実用域の品質改善をもたらすことを確認した。この性質は unified vision-language transformer の構造的帰結であり、テキスト・参照画像・ターゲット画像のすべてが同一 attention 層を共有する設計に由来する。Stable Diffusion XL や FLUX dev 等の siloed アーキでは同等の自動転移は構造的に成立しない。

業界全体は 2025-2026 年にかけて unified 側に急速に移行しており、open-weight 領域では HiDream-O1 がこの paradigm の主要候補である。一方、現時点でこの paradigm 上の LoRA 学習・推論パイプラインを自前で構築している個人実装者は限定的であり、エコシステム成熟前の時間的優位の窓が存在する。

本検証の再現は eval_i2i_avatar.py (公開予定) に encapsulate されており、検証手続きの全体が /api/v1/images/generations パブリック API のみで完結する。

Supplementary Materials

Figure 2: Axis A2 capability evaluation under explicit prompt distribution

本図は §4.5 で述べた A2 の評価結果である。9 行 = 3 参照 × 3 prompt、5 列 = LoRA 構成 C0..C4。本軸は edit 経路における anatomy 描写能力の persistence を確認する目的を持ち、aesthetic showcase ではない。詳細は §1 で言及した先行する caption-vocabulary unlock 方法論に依拠する。

クリックして表示 (explicit anatomical content; clinical evaluation only)

Figure 2: Axis A2 (outfit substitution, explicit prompt distribution) の比較グリッド

Reproducibility

評価スクリプト: HiDream-O1-Image/eval_i2i_avatar.py
推論 API: POST /api/v1/images/generations (HiDream-O1-Image fp8-cast)
認証: Authorization: Bearer kotonia_… (/api-manager で発行可)
推論パラメータ: steps=25, guidance=5.0, shift=3.0, seed=12345 (edit) / 7777-7779 (refs), 1024×1024
全 240 サンプルの個別 PNG と 5 軸の montage は outputs/i2i_avatar_eval/ 配下

先行する caption-vocabulary unlock methodology (2026-05)
HiDream-O1 上の T2I LoRA 学習手順 (2026-05)
Avatar dynamic narrative の image side 設計

Unified VL 画像生成における T2I LoRA の編集経路への自動転移 — HiDream-O1 上の対照評価

Abstract

1. 問題設定

2. 仮説

3. 方法

3.1 モデルと推論パイプライン

3.2 LoRA 構成 (5 conditions)

3.3 評価軸 (5 axes × 16 prompts)

3.4 参照画像

3.5 評価方法

4. 結果

4.1 Outfit substitution (A1)

4.2 Scene substitution (A3)

4.3 Pose substitution (A4)

4.4 Multi-person composition (A5)

4.5 Capability evaluation under explicit prompt distribution (A2)

5. 考察: なぜ T2I LoRA が edit 経路で機能するか

6. 比較: Siloed vs Unified アーキテクチャ

7. 業界の移行傾向

8. 個人実装者にとっての実務的含意

9. 応用: Avatar Dynamic Narrative への直結

10. 結論

Supplementary Materials

Figure 2: Axis A2 capability evaluation under explicit prompt distribution

Reproducibility

Related work (内部)