Липсинк-система — снижение расходов на 99%+ против премиум видео-ИИ
Заменили премиум видео-ИИ ($3–5/мин) на опенсорс-воркфлоу на ComfyUI. То же качество, расходы в центах.
Роль: RTP Agency·Сроки: 6+ месяцев в продакшене·Статус: 3+ коммерческих внедрений
Премиум API видео-ИИ$3–5 / мин
Кастомный ComfyUI-воркфлоуценты / мин
−99%+ к расходам
Бизнес-задача
Агентству моушн-дизайна, делающему рекламные креативы, требовалась генерация липсинк-видео в масштабе. Они платили премиум за ведущий проприетарный API — примерно $0.05–0.08 за секунду видео, что выливалось в:
- $3–5 за минуту сгенерированного видео
- Десятки долларов за готовый креатив
- Неподъёмная экономика при их объёме заказов
Помимо стоимости, они упирались в лимиты API, потолок качества и отсутствие кастомизации, что ограничивало их креатив. Нужно было решение заметно дешевле, без зависимости от внешних API и с возможностью подстройки под их задачи.
Наш подход
Большинство команд либо смирились бы с премиум-ценами, либо попытались бы построить собственную модель. Мы пошли третьим путём: построили production-инфраструктуру вокруг лучших опенсорс-моделей ИИ с оптимизированной по стоимости GPU-оркестрацией.
Оценив доступные варианты, мы выбрали Infinity Talk (на базе Wan 2.1) как основу для липсинка. Ключевые причины:
- Сопоставимой опенсорс-альтернативы на тот момент не было
- Архитектура на ComfyUI позволяла глубокую кастомизацию через модификации воркфлоу
- Качество не уступало премиум-API на задачах агентства — а в части сценариев превосходило
- Можно развернуть на собственном хостинге, полностью убрав зависимость от API
Production-архитектура
Сложность была не в запуске модели, а в доведении до production-уровня.
Мы построили контейнеризированную инфраструктуру деплоя, которая обеспечивает:
- Интерфейс Telegram-бота (через локальный Bot API сервер для больших медиафайлов сверх стандартных лимитов Telegram)
- Оркестрацию воркфлоу для пайплайнов ComfyUI
- Обработку тяжёлых файлов (большие видео на вход и выход)
- Поллинг и вебхук-интеграцию с GPU-провайдерами
- Docker-шаблон, который мы переиспользуем на похожих проектах — подставил конфиг, задеплоил, готово за минуты
Дизайн инфраструктуры модульный и повторяемый — с тех пор мы использовали ту же основу Docker-шаблона для деплоя похожих ИИ-пайплайнов другим клиентам с минимальными правками.
Инженерия стоимости
Вот где экономика становится интересной.
Изначальные расходы на премиум-API (их прежнее решение)
- $3–5 за минуту видео
- Десятки долларов за готовый креатив
- Ограничения по лимитам API
Наша первая реализация (self-hosted GPU на VAST AI)
- $2/час за аренду GPU H200
- Пакетная обработка: десятки видео в час на одном GPU-инстансе
- Стоимость видео: копейки вместо долларов
Текущая оптимизированная версия (RunningHub)
- $15/мес фиксированная подписка для клиента (50K токенов + доступ к премиум-GPU)
- Фактически безлимитная генерация в рамках практики
- Стоимость видео в токенах: ~200 токенов (пренебрежимо мало при таком объёме)
Чистое снижение расходов: 99%+ по сравнению с ценами премиум-API при их объёме.
Сам путь оптимизации показывает ключевой консалтинговый принцип: непрерывная итерация по выбору инфраструктуры. Сначала верным ответом был VAST AI, но когда их цены изменились и появились лучшие альтернативы, переход на RunningHub дал ещё один скачок в экономике.
Photo-to-video против video-to-video
Мы реализовали оба режима с осознанным разделением по сценариям:
- Photo-to-video — быстрее генерация, меньше галлюцинаций, часто выше качество. По умолчанию для большинства задач.
- Video-to-video — нужен конкретным клиентам с длинным форматом (воркфлоу на 5–10 минут). Изначально этот режим был сломан в доступных реализациях; мы отладили и заставили его работать, что стало ключевым отличием.
Рабочий V2V на тот момент не было ни у кого в опенсорс-сообществе, и следующий клиент нашёл нас напрямую через техническую статью, которую мы опубликовали по реализации Infinity Talk.
Признание и обмен знаниями
Опубликовали подробный технический разбор по реализации Infinity Talk, который получил признание редакции и сильный отклик сообщества. Он стал основным референсом для тех, кто заходит в эту тему, и привёл к прямому привлечению клиентов.
Результат
99%+
Снижение расходов против проприетарного API
6+ мес
Непрерывная работа в продакшене
3
Платных коммерческих внедрения
$15/мес
Текущая стоимость инфраструктуры
Для исходного клиента: тот же объём липсинк-видео за долю прежней стоимости. Никаких лимитов API. Настраиваемый воркфлоу под конкретные креативные задачи. 6+ месяцев непрерывной работы в продакшене.
Более широкий коммерческий эффект: 3 платных внедрения у разных клиентов с разными потребностями. Каждое кастомизировано через модификации воркфлоу (где-то V2V, где-то I2V). Основа инфраструктуры переиспользована на нескольких ИИ-проектах.
Технологический стек
| Модели ИИ | Infinity Talk (на базе Wan 2.1) |
| Движок воркфлоу | ComfyUI |
| GPU-вычисления | VAST AI · RunningHub |
| Интерфейс | Telegram Bot API (локальный сервер) |
| Инфраструктура | Docker · оркестрация на Python |
Что это показывает
- Экспертиза в опенсорс-ИИ на production-уровне — не эксперименты, а коммерческие внедрения
- Мышление в духе оптимизации расходов — понимание, когда уместны API-сервисы, а когда self-hosted/альтернативные провайдеры дают огромную экономию
- Мышление о production-инфраструктуре — переиспользуемые Docker-шаблоны, корректная работа с файлами, интеграция с мессенджерами
- Непрерывное улучшение — готовность менять провайдеров инфраструктуры, когда меняется экономика или возможности
- Экспертный контент — обмен знаниями генерирует входящие заявки