Kotonia
ログイン今すぐ始める

Kotonia Articles

HiDream-O1-Image 自制 LoRA 的理由——不藏私版

详解为 HiDream-O1-Image 制作通用动漫/半写实质感增强 LoRA 的动机、191 张手动数据收集、NSFW 转换策略,以及 noindex 文章竟成唯一浏览榜首的故事。技术细节的日语版。

作者 2分钟阅读
#LoRA#HiDream#图像生成#动漫质感
其他语言日语英语

EN版请点击这里

EN版的日语版。想深入了解架构或学习代码的朋友请参考EN版。本文讲述的是为什么制作它——动机、数据、惊喜,以及转换策略。

三大动机

1. 动漫质感是 HiDream-O1 的短板

HiDream-O1-Image 客观上是顶级模型。T2I Arena 排名第8,开放权重,8B参数。照片级写实和文字绘制表现惊艳。

动漫/插画类质感明显偏弱。渲染偏绘画感、平坦、缺乏立体感。通过调整提示词能有所改善,但根本上是模型表现力的天花板——源于训练数据分布的问题。解决方案只有 LoRA。

2. I2V 管线进化,瓶颈转向图像生成

我们一直在研究 LTX-2 视频生成。冷启动架构、fp8 量化、社区模型对比。视频质量正在快速提升。

但 Image-to-Video 有个铁律:垃圾进,垃圾出。如果输入图像是 HiDream 那种柔和平庸的输出,视频也会继承这种风格。I2V 模型越好,图像生成端就越成为瓶颈。

为 HiDream 加上美学 LoRA,直接提升整个视频管线的下限。

3. 对审查的担忧(→ 结果一半是错的)

有些模型连轻度裸露都会拒绝。我以为 HiDream-O1 也是如此。为了创作自由,需要 LoRA。

结果发现,基础模型对裸露意外地宽容。只要给出 NSFW 提示词,它就能正常生成裸体。至少对于裸露而言,“打破审查”的动机是错的。

这个发现让 LoRA 的本质价值变得清晰:不是“解禁”,而是“质感增强”。包括 NSFW 在内,提供一致的定向光照、光泽渲染和风格化,才是 LoRA 的职责。

数据:191 张手动挑选与本地 VLM

没有爬取一百万张图片。手动挑选了 191 张高质量插画。主要来自 CivitAI RED 排行榜,按个人喜好挑选动漫、流行、半写实风格。以肖像为主,宽高比各不相同。

字幕由 Gemma-4 E4B(本地多模态 VLM,API 成本为零)生成自然语言描述。所有字幕前都加上 kotonia style 触发器,NSFW 图像则嵌入明确描述(如 NSFW, topless, ...)。

成本:0 日元。191 张图,字幕约 10 分钟。整个数据集仅由一个目录下的 .txt sidecar 文件和 styles.json 构成。

分类:动漫 100 / 半写实 69 / 其他 21 / 流行 1。NSFW 占 191 张中的 34 张。

混合未变浑浊的惊喜

曾担心:把动漫 + 半写实 + 流行混成一个 LoRA,会不会全部平均化,变成毫无特色的糊状物?

结果没有。LoRA 输出了统一的现代动漫/CivitAI 系美学。定向光照、光泽、自信的风格化。似乎在不同风格之间学习了“高质量”的共同因子(好的光照、干净的线条、匀称的比例)。无需聚类。

NSFW 的转化信号

运营 kotonia.ai 时发现了一个意外数据。noindex 的 NSFW 文章在唯一浏览数上排名第一——超过了所有经过 SEO 优化的干净技术文章。

互联网告诉我们:人们渴望这类内容。问题是,浏览者中有多少会注册并增加停留时间。计算很简单:即使只有一小部分 NSFW 读者注册,也能轻松弥补 noindex 损失的 SEO 流量。

这不是新发现——Patreon 和 OnlyFans 能成立也是同样的逻辑——但当你从自己的分析数据中看到数字时,它就变成了现实。LoRA 的 NSFW 能力不是副产品,而是产品策略的一部分。

NSFW 示例

内容警告:泳装/比基尼级别图像。 未满 18 岁不建议浏览。

NSFW LoRA 开启 vs 关闭 — 泳装/比基尼

SFW 提示词下为穿衣状态,仅在 NSFW 提示词下触发的门控功能生效。由于基础模型能生成裸体,LoRA 的贡献在于“视觉质量提升”。

这条管线能做什么

本次 LoRA 是概念验证,也是基础。同样的管线——反向推导推理代码 → PEFT 注入 LoRA → Flow Matching x0-MSE → 本地 VLM 字幕——可以为 O1 训练任何类型的 LoRA

  • 角色 LoRA:跨场景保持一致的 OC
  • NSFW 特化 LoRA:提高数据集中 NSFW 比例
  • 特定画风 LoRA:针对特定插画师或运动风格
  • 多 LoRA 堆叠:质感增强 + 角色 + NSFW,通过独立触发器切换使用

代码已公开,训练 API 成本为零,模型开放权重。唯一的障碍是是否知道配方——而现在它已经公开了。


代码:https://github.com/zhener562/hidream-o1-lora。LoRA 可在 kotonia.ai/studio 使用。

Kotonia 将语音 AI、AI 聊天、图像生成和团队协作整合到一个 AI 工作区中。

试用 Kotonia