Kotonia
ログイン今すぐ始める

Kotonia Articles

HiDream-O1-ImageのLoRAを自作した理由——包み隠さない版

HiDream-O1-Image向け汎用アニメ/セミリアル質感改善LoRAを作った動機、191枚の手動データ収集、NSFWコンバージョン戦略、そしてnoindex記事がユニーク閲覧1位だった話。技術詳細の日本語版。

著者 3分で読める
#lora#hidream#imagegen
他の言語英語

EN版はこちら

EN版の日本語版。アーキテクチャの深掘りや学習コードが知りたい方はEN版を参照。これはなぜ作ったか——動機、データ、驚き、そしてコンバージョン戦略の話。

3つの動機

1. アニメ質感がHiDream-O1の弱点

HiDream-O1-Imageは客観的にトップクラスのモデルだ。T2I Arena 8位、オープンウェイト、8Bパラメータ。フォトリアルと文字描画は素晴らしい。

しかしアニメ・イラスト系の質感は明らかに弱い。レンダリングがpainterlyで平坦、のっぺりした印象。プロンプト調整である程度マシになるが、根本的にはモデルの表現力の天井——学習分布の問題だ。解決策はLoRAしかない。

2. I2Vパイプラインが進化して、ボトルネックが画像生成に移った

LTX-2動画生成の研究をずっとやってきた。cold-startアーキテクチャ、fp8量子化、コミュニティモデル比較。動画の品質は急速に改善している。

しかしImage-to-Videoには鉄則がある: ゴミを入れればゴミが出る。入力画像がHiDreamの柔らかく凡庸な出力だと、動画もそれを継承する。I2Vモデルが良くなるほど、今度は画像生成側がボトルネックになる。

HiDreamにaesthetic LoRAを当てることは、動画パイプライン全体の底上げに直結する。

3. 検閲への懸念(→実は半分外れていた)

モデルによっては軽度のヌードすら拒否する。HiDream-O1もそうだと思っていた。創作の自由のためにLoRAが必要だと。

蓋を開けてみると、baseモデルは意外とヌードに寛容だった。NSFWプロンプトを与えれば普通に裸体を生成する。「検閲打破」の動機は少なくとも裸体については的外れだった。

この発見でLoRAの本質的価値が明確になった: 「解禁」ではなく「質感ブースト」。NSFW含めて同じ指向性ライティング、艶のあるレンダリング、スタイライズを提供するのがLoRAの役目だ。

データ: 191枚の手動ピックとローカルVLM

100万枚のスクレイピングはしていない。191枚の高品質イラストを手動で選んだ。主にCivitAI REDのランキングから、自分の好みでアニメ・ポップ・セミリアル系をピックアップ。ポートレート中心、アスペクト比バラバラ。

キャプションはGemma-4 E4B(ローカルのマルチモーダルVLM、APIコストゼロ)で自然文を生成。全キャプションにkotonia styleトリガーを前置し、NSFW画像には明示的な記述(NSFW, topless, ...)を埋め込んだ。

コスト: 0円。191枚、キャプション約10分。データセット全体が1ディレクトリの.txt sidecar + styles.jsonで完結。

内訳: アニメ100 / セミリアル69 / その他21 / ポップ1。NSFWは191枚中34枚。

ブレンドが濁らなかった驚き

懸念していた: アニメ + セミリアル + ポップを1つのLoRAに混ぜたら、全部が平均化されて特徴のないマッシュになるのでは。

ならなかった。LoRAは一貫したモダンアニメ/CivitAI系のaestheticを出力する。指向性ライティング、艶、自信のあるスタイライズ。異なるスタイル間で「高品質」の共通因子(良いライティング、クリーンな線、整ったプロポーション)を学習したようだ。クラスタリング不要。

NSFWのコンバージョンシグナル

kotonia.aiの運営で予想外だったデータがある。noindexのNSFW記事がユニーク閲覧数1位——SEO最適化したクリーンな技術記事すべてを上回った。

インターネットは教えてくれる。人々はこのコンテンツを求めている。問題は、閲覧者の何%がサインアップして滞在時間を増やすか。計算は単純だ: NSFW読者のごく一部でも登録すれば、noindexで失ったSEOトラフィックを余裕で取り返せる。

これは新しい発見ではない——PatreonやOnlyFansが成立するのと同じ力学——だが、自分のアナリティクスで数字を見ると現実になる。LoRAのNSFW能力は副産物ではなく、プロダクト戦略の一部だ。

NSFWサンプル

コンテンツ警告: 水着/ビキニ級の画像。 18歳未満閲覧非推奨。

NSFW LoRA on vs off — 水着/ビキニ

SFWプロンプトでは着衣、NSFWプロンプトでのみ発動するgatingが機能している。baseモデルが裸体を出すので、LoRAの貢献は「見た目の品質向上」。

このパイプラインで何ができるか

今回のLoRAはコンセプト実証だが、基盤でもある。同じパイプライン——推論コード逆算→PEFTでLoRA注入→Flow Matching x0-MSE→ローカルVLMキャプション——で、O1向けのあらゆるタイプのLoRAが訓練できる:

  • キャラLoRA: 一貫したOCをシーン横断で
  • NSFW特化LoRA: データセットのNSFW比率を上げて
  • 特定画風LoRA: 特定のイラストレーターやムーブメント
  • マルチLoRAスタック: 質感ブースター + キャラ + NSFW、独立トリガーで使い分け

コードは公開、学習はAPIコストゼロ、モデルはオープンウェイト。障壁はレシピを知っているかどうかだけ——そして今それは公開された。


コード: https://github.com/zhener562/hidream-o1-lora。LoRAはkotonia.ai/studioで使えます。

Kotonia は音声AI、AIチャット、画像生成、チーム共有をひとつにまとめたAIワークスペースです。

試してみる