Kotonia Articles

“大厂退出的视频领域”，个人实验全记录——从模型对比到以 I2V 为核心

去掉安全限制的自由创作是否存在小众需求？本文记录了个人开发者用单张本地 GPU，从模型 A/B 测试到将高分辨率 I2V 作为主力的试错过程。

作者清水真二2026-05-284分钟阅读

#个人开发#生成式AI#视频生成#本地GPU#小众战略#I2V

假设：如果去掉安全限制，小众需求会不会很大

我观察自己平台的分析数据时，注意到与视频生成相关的操作，相比其他功能要多出很多。

由此我产生了一个假设。像通用 AI 聊天或专家协作这类领域，会变成与 Anthropic / OpenAI / Google 等供应商之间的成本竞争，个人在同一个擂台上对打是赢不了的。另一方面，大厂受限于条款，无论如何都无法涉足的“去掉安全限制的自由创作”——这个领域是前沿模型在原则上会回避的，所以会不会是留给个人的一片空隙？结合大家对视频生成的高度关注，这里可能潜藏着小众但深厚的需求。

为了验证这个假设，我决定实际运行那些没有审查的社区微调模型，并进行比较。以下是我的实验记录，以及最终得出“以 I2V 为核心”这一结论之前的试错过程。

（本文内容为 SFW。露骨的示例和真实的细节，都放在文末的“毫无保留版”里了。）

实验：比较了什么，如何比较

我在一张本地 GPU（RTX PRO 6000 Blackwell, 96 GB）上，并排部署了基础 checkpoint 和社区微调模型，设计了一套使用同一组提示词 × 多个模型进行公平比较的方法。这实际上是把我在图像生成中已经用过的 A/B 测试方法（精选提示词 → 并排联系表 → 找出能胜出的领域）直接移植到了视频上。

验证主要围绕两个维度：

模型间的 A/B 测试（通用基础模型 vs 社区微调模型）—— 哪个模型在哪个领域胜出
生成路径的比较（T2V = 文本到视频 vs I2V = 静态图到视频）—— 哪种方式更适合稳定输出

发现

比较维度	结果
基础模型 vs 社区微调模型	基础模型的物理一致性更强（崩坏较少）。微调模型表现自由度更广，但代价是牺牲了部分泛化能力，人体更容易出现崩坏
T2V（文本到视频）	容易出现随机种子抽卡和人体崩坏，不适合稳定输出。前提是需要不断尝试直到抽中好结果 + 调整提示词
多人场景	两人以上的互动会导致肢体在不同人物间混在一起，彻底崩溃。应该先确立单人（单个被摄体）的品质
分辨率	分辨率越高，细节和人体的完整性越好（“高像素就是正义”）。低分辨率 → 后期超分无法恢复丢失的信息
人体结构负面提示词 / 随机种子	选择不易崩坏的种子 + 使用“extra fingers / fused limbs / distorted anatomy …”这类负面提示词，可以提高单人场景的稳定性

结论：以 I2V 为核心

无论用提示词和负面提示词怎么抑制 T2V 的随机种子抽卡和崩坏问题，都无法达到“稳定输出”的要求。于是我改变了思路。

先精心制作一张精美的静态图，然后用 I2V 让它轻轻地动起来。 因为起点（静态图）的人体结构已经是正确的，所以在整个视频片段中，结构上就不容易发生崩坏。实际逐帧查看，确实发现原始图像的完整性在几秒钟的视频中得以保持。这让我感觉到，可以通过路径设计来避开 T2V 的抽卡问题。

这也完全符合角色扮演场景的核心需求——“让用户已有的角色动起来”。最终结论是以 I2V 为核心。

瓶颈不是“硬件不足”，而是“思维定势”

不过，以高分辨率运行 I2V 时，显存占用会飙升。在 1024×768 分辨率下，峰值达到 83.5 GB，如果和常驻服务一起运行就会 OOM。“单张 96 GB 可能没法实用”，我几乎要放弃一半了。

然而，深入研究后发现，这甚至不是硬件的问题。只是推理框架中的一行代码——在 no_grad 作用域之外运行了延迟解码，导致不必要的 autograd 图占用了 54 GB 内存。修复之后，显存占用从 83.5 GB 降到了 29.5 GB，而且即使在 2048×1536（3.1 MP） 下也能以 33.6 GB 运行。现在可以不用害怕显存上限，去追求“高像素就是正义”了。

（这个定位问题的过程——分阶段测量峰值以确定根本原因的步骤，以及最初尝试但失败的“VAE 分块细分”的弯路——我分开写成了另一篇技术文章 → 高分辨率 I2V 导致 OOM → 其实只是在 no_grad 外面解码了的故事）

正因为个人开发资源有限，如果轻易接受“资源不足”这种测量上的假象，就会放弃本来可以做到的事情。这件事让我深刻体会到了这一点。

在不中断用户服务的情况下进行生产环境实验——GPU 的交通管制

这部分虽然不起眼，但很有效。我只有一张 GPU，而面向用户的生成服务（图像、视频、音频）和我自己的实验、基准测试会争抢它。如果不加防护地同时运行繁重的扩散任务，会立刻 OOM，并且连累用户的请求。既然要在生产环境上做实验，不解决这个问题就毫无意义。

我所做的交通管制：

为繁重任务设置单一锁（信号量，并发数为 1），将图像生成、视频生成、基准测试全部在同一个框架内串行化。这样，GPU 上一次只会运行一个繁重的扩散任务，从结构上避免了 OOM。
优先级：如果用户的付费任务在等待，我自己的实验（视为免费任务）就会让出资源。因为扩散过程无法中途中断，所以不采用抢占式，而是采用“确保下一个空闲的资源一定交给用户”的方式。
外部触发的实验也需获取同一资源：本地运行的基准测试/CLI 也通过 HTTP 的许可中介，获取同一个锁。每次提示词处理都会获取并释放许可，这样在基准测试的间隙，用户的请求可以插队进来。
朴素的善后处理：有一次，基准测试崩溃后一直持有许可导致泄漏，引发了所有生成服务挂起的事故。之后，我添加了一个“5 分钟自动回收闲置许可的 TTL 回收器”。这是典型的事后补救措施。

有了这个交通管制，才实现了“在不中断用户服务的情况下，在后台运行实验”。个人运营中，维护停机就等于机会损失，所以这一点不能偷懒。

目前的运行状态

高质量静态图 → I2V 生成视频的路径，稳定在 30 GB 级别。可以与图像、音频技术栈共存而不会争抢资源。
即使提高分辨率，峰值也基本持平。可以常规使用高分辨率。
已经将每次请求时切换多个模型进行 A/B 测试的机制整合到生产环境中，正在生产环境上打磨出效果好的方案。

大厂退出的领域，由个人，用一张 GPU 来挑战。每当发现瓶颈其实只是“思维定势”时，这场赌局的胜算就又大了一分。

毫无保留版（NSFW・阅览注意）

以上内容均为 SFW。实际上用了哪个社区模型（base / Sulphur / 10Eros），输出了什么结果，以及实用程度如何——包含对比视频和真实细节的真相版，我放在了另一个页面。只给真正想看的人。

🔞 查看真相版（NSFW・阅览注意）→　包含成人向示例。未满 18 岁者，或不想看到露骨表现的人士，请不要打开。

这个平台（kotonia.ai）是由个人开发并运营的，专注于语音 × 视频的沉浸式角色扮演。