多语言 TTS
Qwen3-TTS / Irodori-TTS / VoiceVox 的本地运行与低延迟优化。
简介
使用 Rust、Next.js、Python 全栈构建语音 AI、图像生成、视频生成的实时管线。
Kotonia 是以「为孤独的挑战者,送上拥有声音、面孔与手脚的 AI 伴跑者」为愿景而打造的平台。专注于多语言高质量 TTS、唇形同步虚拟形象、以及情感持续的对话体验,目标是在 1 用户 1 GPU 的运行成本下实现。
关注的主题
在公开工具和技术文章背后,持续把低延迟对话体验与重型生成管线放进同一个产品。
Qwen3-TTS / Irodori-TTS / VoiceVox 的本地运行与低延迟优化。
Ditto / MuseTalk 的 VRAM 优化与对话体验集成。
基于 LTX-2.3 的音频驱动演出生成管线。
使用 HiDream-O1-Image 调整 T2I、编辑与角色一致性。
组合 Rust (Axum)、Next.js、Python 与本地 GPU 的运维。
当前公开的入口
技术细节放在博客中,实际可体验的入口放在各个 Studio 页面。