Kotonia
ログイン今すぐ始める

Kotonia Articles

“大厂退出的视频领域”,个人实验全记录——从模型对比到以 I2V 为核心

去掉安全限制的自由创作是否存在小众需求?本文记录了个人开发者用单张本地 GPU,从模型 A/B 测试到将高分辨率 I2V 作为主力的试错过程。

作者 4分钟阅读
#个人开发#生成式AI#视频生成#本地GPU#小众战略#I2V
其他语言日语英语

假设:如果去掉安全限制,小众需求会不会很大

我观察自己平台的分析数据时,注意到与视频生成相关的操作,相比其他功能要多出很多

由此我产生了一个假设。像通用 AI 聊天或专家协作这类领域,会变成与 Anthropic / OpenAI / Google 等供应商之间的成本竞争,个人在同一个擂台上对打是赢不了的。另一方面,大厂受限于条款,无论如何都无法涉足的“去掉安全限制的自由创作”——这个领域是前沿模型在原则上会回避的,所以会不会是留给个人的一片空隙?结合大家对视频生成的高度关注,这里可能潜藏着小众但深厚的需求

为了验证这个假设,我决定实际运行那些没有审查的社区微调模型,并进行比较。以下是我的实验记录,以及最终得出“以 I2V 为核心”这一结论之前的试错过程。

(本文内容为 SFW。露骨的示例和真实的细节,都放在文末的“毫无保留版”里了。)

实验:比较了什么,如何比较

我在一张本地 GPU(RTX PRO 6000 Blackwell, 96 GB)上,并排部署了基础 checkpoint 和社区微调模型,设计了一套使用同一组提示词 × 多个模型进行公平比较的方法。这实际上是把我在图像生成中已经用过的 A/B 测试方法(精选提示词 → 并排联系表 → 找出能胜出的领域)直接移植到了视频上。

验证主要围绕两个维度:

  1. 模型间的 A/B 测试(通用基础模型 vs 社区微调模型)—— 哪个模型在哪个领域胜出
  2. 生成路径的比较(T2V = 文本到视频 vs I2V = 静态图到视频)—— 哪种方式更适合稳定输出

发现

比较维度结果
基础模型 vs 社区微调模型基础模型的物理一致性更强(崩坏较少)。微调模型表现自由度更广,但代价是牺牲了部分泛化能力,人体更容易出现崩坏
T2V(文本到视频)容易出现随机种子抽卡和人体崩坏,不适合稳定输出。前提是需要不断尝试直到抽中好结果 + 调整提示词
多人场景两人以上的互动会导致肢体在不同人物间混在一起,彻底崩溃。应该先确立单人(单个被摄体)的品质
分辨率分辨率越高,细节和人体的完整性越好(“高像素就是正义”)。低分辨率 → 后期超分无法恢复丢失的信息
人体结构负面提示词 / 随机种子选择不易崩坏的种子 + 使用“extra fingers / fused limbs / distorted anatomy …”这类负面提示词,可以提高单人场景的稳定性

结论:以 I2V 为核心

无论用提示词和负面提示词怎么抑制 T2V 的随机种子抽卡和崩坏问题,都无法达到“稳定输出”的要求。于是我改变了思路。

先精心制作一张精美的静态图,然后用 I2V 让它轻轻地动起来。 因为起点(静态图)的人体结构已经是正确的,所以在整个视频片段中,结构上就不容易发生崩坏。实际逐帧查看,确实发现原始图像的完整性在几秒钟的视频中得以保持。这让我感觉到,可以通过路径设计来避开 T2V 的抽卡问题。

这也完全符合角色扮演场景的核心需求——“让用户已有的角色动起来”。最终结论是以 I2V 为核心

瓶颈不是“硬件不足”,而是“思维定势”

不过,以高分辨率运行 I2V 时,显存占用会飙升。在 1024×768 分辨率下,峰值达到 83.5 GB,如果和常驻服务一起运行就会 OOM。“单张 96 GB 可能没法实用”,我几乎要放弃一半了。

然而,深入研究后发现,这甚至不是硬件的问题。只是推理框架中的一行代码——在 no_grad 作用域之外运行了延迟解码,导致不必要的 autograd 图占用了 54 GB 内存。修复之后,显存占用从 83.5 GB 降到了 29.5 GB,而且即使在 2048×1536(3.1 MP) 下也能以 33.6 GB 运行。现在可以不用害怕显存上限,去追求“高像素就是正义”了。

(这个定位问题的过程——分阶段测量峰值以确定根本原因的步骤,以及最初尝试但失败的“VAE 分块细分”的弯路——我分开写成了另一篇技术文章 → 高分辨率 I2V 导致 OOM → 其实只是在 no_grad 外面解码了的故事

正因为个人开发资源有限,如果轻易接受“资源不足”这种测量上的假象,就会放弃本来可以做到的事情。这件事让我深刻体会到了这一点。

在不中断用户服务的情况下进行生产环境实验——GPU 的交通管制

这部分虽然不起眼,但很有效。我只有一张 GPU,而面向用户的生成服务(图像、视频、音频)和我自己的实验、基准测试会争抢它。如果不加防护地同时运行繁重的扩散任务,会立刻 OOM,并且连累用户的请求。既然要在生产环境上做实验,不解决这个问题就毫无意义。

我所做的交通管制:

  • 为繁重任务设置单一锁(信号量,并发数为 1),将图像生成、视频生成、基准测试全部在同一个框架内串行化。这样,GPU 上一次只会运行一个繁重的扩散任务,从结构上避免了 OOM。
  • 优先级:如果用户的付费任务在等待,我自己的实验(视为免费任务)就会让出资源。因为扩散过程无法中途中断,所以不采用抢占式,而是采用“确保下一个空闲的资源一定交给用户”的方式。
  • 外部触发的实验也需获取同一资源:本地运行的基准测试/CLI 也通过 HTTP 的许可中介,获取同一个锁。每次提示词处理都会获取并释放许可,这样在基准测试的间隙,用户的请求可以插队进来。
  • 朴素的善后处理:有一次,基准测试崩溃后一直持有许可导致泄漏,引发了所有生成服务挂起的事故。之后,我添加了一个“5 分钟自动回收闲置许可的 TTL 回收器”。这是典型的事后补救措施。

有了这个交通管制,才实现了“在不中断用户服务的情况下,在后台运行实验”。个人运营中,维护停机就等于机会损失,所以这一点不能偷懒。

目前的运行状态

  • 高质量静态图 → I2V 生成视频的路径,稳定在 30 GB 级别。可以与图像、音频技术栈共存而不会争抢资源。
  • 即使提高分辨率,峰值也基本持平。可以常规使用高分辨率。
  • 已经将每次请求时切换多个模型进行 A/B 测试的机制整合到生产环境中,正在生产环境上打磨出效果好的方案。

大厂退出的领域,由个人,用一张 GPU 来挑战。每当发现瓶颈其实只是“思维定势”时,这场赌局的胜算就又大了一分。

毫无保留版(NSFW・阅览注意)

以上内容均为 SFW。实际上用了哪个社区模型(base / Sulphur / 10Eros),输出了什么结果,以及实用程度如何——包含对比视频和真实细节的真相版,我放在了另一个页面。只给真正想看的人。

🔞 查看真相版(NSFW・阅览注意)→ 包含成人向示例。未满 18 岁者,或不想看到露骨表现的人士,请不要打开。


这个平台(kotonia.ai)是由个人开发并运营的,专注于语音 × 视频的沉浸式角色扮演。

Kotonia 将语音 AI、AI 聊天、图像生成和团队协作整合到一个 AI 工作区中。

试用 Kotonia