ログイン今すぐ始める

Kotonia Articles

HiDream-O1-Image 自制 LoRA 的理由——不藏私版

详解为 HiDream-O1-Image 制作通用动漫/半写实质感增强 LoRA 的动机、191 张手动数据收集、NSFW 转换策略，以及 noindex 文章竟成唯一浏览榜首的故事。技术细节的日语版。

作者清水真二2026-05-282分钟阅读

#LoRA#HiDream#图像生成#动漫质感

其他语言日语英语

EN版请点击这里

EN版的日语版。想深入了解架构或学习代码的朋友请参考EN版。本文讲述的是为什么制作它——动机、数据、惊喜，以及转换策略。

三大动机

1. 动漫质感是 HiDream-O1 的短板

HiDream-O1-Image 客观上是顶级模型。T2I Arena 排名第8，开放权重，8B参数。照片级写实和文字绘制表现惊艳。

但动漫/插画类质感明显偏弱。渲染偏绘画感、平坦、缺乏立体感。通过调整提示词能有所改善，但根本上是模型表现力的天花板——源于训练数据分布的问题。解决方案只有 LoRA。

2. I2V 管线进化，瓶颈转向图像生成

我们一直在研究 LTX-2 视频生成。冷启动架构、fp8 量化、社区模型对比。视频质量正在快速提升。

但 Image-to-Video 有个铁律：垃圾进，垃圾出。如果输入图像是 HiDream 那种柔和平庸的输出，视频也会继承这种风格。I2V 模型越好，图像生成端就越成为瓶颈。

为 HiDream 加上美学 LoRA，直接提升整个视频管线的下限。

3. 对审查的担忧（→ 结果一半是错的）

有些模型连轻度裸露都会拒绝。我以为 HiDream-O1 也是如此。为了创作自由，需要 LoRA。

结果发现，基础模型对裸露意外地宽容。只要给出 NSFW 提示词，它就能正常生成裸体。至少对于裸露而言，“打破审查”的动机是错的。

这个发现让 LoRA 的本质价值变得清晰：不是“解禁”，而是“质感增强”。包括 NSFW 在内，提供一致的定向光照、光泽渲染和风格化，才是 LoRA 的职责。

数据：191 张手动挑选与本地 VLM

没有爬取一百万张图片。手动挑选了 191 张高质量插画。主要来自 CivitAI RED 排行榜，按个人喜好挑选动漫、流行、半写实风格。以肖像为主，宽高比各不相同。

字幕由 Gemma-4 E4B（本地多模态 VLM，API 成本为零）生成自然语言描述。所有字幕前都加上 kotonia style 触发器，NSFW 图像则嵌入明确描述（如 NSFW, topless, ...）。

成本：0 日元。191 张图，字幕约 10 分钟。整个数据集仅由一个目录下的 .txt sidecar 文件和 styles.json 构成。

分类：动漫 100 / 半写实 69 / 其他 21 / 流行 1。NSFW 占 191 张中的 34 张。

混合未变浑浊的惊喜

曾担心：把动漫 + 半写实 + 流行混成一个 LoRA，会不会全部平均化，变成毫无特色的糊状物？

结果没有。LoRA 输出了统一的现代动漫/CivitAI 系美学。定向光照、光泽、自信的风格化。似乎在不同风格之间学习了“高质量”的共同因子（好的光照、干净的线条、匀称的比例）。无需聚类。

NSFW 的转化信号

运营 kotonia.ai 时发现了一个意外数据。noindex 的 NSFW 文章在唯一浏览数上排名第一——超过了所有经过 SEO 优化的干净技术文章。

互联网告诉我们：人们渴望这类内容。问题是，浏览者中有多少会注册并增加停留时间。计算很简单：即使只有一小部分 NSFW 读者注册，也能轻松弥补 noindex 损失的 SEO 流量。

这不是新发现——Patreon 和 OnlyFans 能成立也是同样的逻辑——但当你从自己的分析数据中看到数字时，它就变成了现实。LoRA 的 NSFW 能力不是副产品，而是产品策略的一部分。

NSFW 示例

内容警告：泳装/比基尼级别图像。 未满 18 岁不建议浏览。

NSFW LoRA 开启 vs 关闭 — 泳装/比基尼

SFW 提示词下为穿衣状态，仅在 NSFW 提示词下触发的门控功能生效。由于基础模型能生成裸体，LoRA 的贡献在于“视觉质量提升”。

这条管线能做什么

本次 LoRA 是概念验证，也是基础。同样的管线——反向推导推理代码 → PEFT 注入 LoRA → Flow Matching x0-MSE → 本地 VLM 字幕——可以为 O1 训练任何类型的 LoRA：

角色 LoRA：跨场景保持一致的 OC
NSFW 特化 LoRA：提高数据集中 NSFW 比例
特定画风 LoRA：针对特定插画师或运动风格
多 LoRA 堆叠：质感增强 + 角色 + NSFW，通过独立触发器切换使用

代码已公开，训练 API 成本为零，模型开放权重。唯一的障碍是是否知道配方——而现在它已经公开了。

代码：https://github.com/zhener562/hidream-o1-lora。LoRA 可在 kotonia.ai/studio 使用。