多言語 TTS
Qwen3-TTS / Irodori-TTS / VoiceVox のローカル運用と低レイテンシ化。
プロフィール
Rust + Next.js + Python のフルスタックで、音声 AI、画像生成、動画生成のリアルタイムパイプラインを設計・実装しています。
Kotonia は「孤独な挑戦者に、声と顔と手足を持つ AI 伴走者を届ける」というビジョンで作っているプラットフォームです。多言語の高品質 TTS、リップシンクアバター、感情の継続する会話体験を 1 人 1 GPU の運用コストで実現することを目指しています。
取り組んでいるテーマ
公開ツールと技術記事の裏側で、低レイテンシな対話体験と重い生成処理を同じプロダクトに収める実装を続けています。
Qwen3-TTS / Irodori-TTS / VoiceVox のローカル運用と低レイテンシ化。
Ditto / MuseTalk の VRAM 最適化と会話体験への統合。
LTX-2.3 による音声起点の演出生成パイプライン。
HiDream-O1-Image の T2I / 編集 / キャラ一貫性の調整。
Rust (Axum) バックエンド、Next.js、Python、ローカル GPU を組み合わせた運用。
Kotonia で公開しているもの
実装の詳しい記録は技術ブログに、実際に触れる入口は各 Studio に置いています。