Кейс 04

Липсинк-система — снижение затрат на 99%+ против премиум видео-ИИ

Заменили премиум видео-ИИ ($3–5/мин) на опенсорс-воркфлоу на ComfyUI. То же качество, затраты в центах.

Роль: RTP Agency·Сроки: 6+ месяцев в продакшене·Статус: 3+ коммерческих внедрения

Премиум API видео-ИИ$3–5 / мин

Кастомный ComfyUI-воркфлоуценты / мин

−99%+ к расходам

Бизнес-задача

Агентству моушн-дизайна, которое делает рекламные креативы, нужна была генерация липсинк-видео в масштабе. Они платили премиум за ведущий проприетарный API — примерно $0.05–0.08 за секунду видео, что выливалось в:

$3–5 за минуту сгенерированного видео
Десятки долларов за готовый креатив
Неподъёмная экономика при их объёме заказов

Помимо стоимости, они упирались в лимиты API, потолок качества и отсутствие кастомизации, что ограничивало их креатив. Нужно было решение заметно дешевле, без зависимости от внешних API и с возможностью подстройки под их задачи.

Наш подход

Большинство команд либо смирились бы с премиум-ценами, либо попытались бы построить собственную модель. Мы пошли третьим путём: построили production-инфраструктуру вокруг лучших опенсорс-моделей ИИ с оптимизированной по стоимости GPU-оркестрацией.

Оценив доступные варианты, мы выбрали Infinity Talk (на базе Wan 2.1) как основу для липсинка. Ключевые причины:

Сопоставимой опенсорс-альтернативы на тот момент не было
Архитектура на ComfyUI позволяла глубокую кастомизацию через модификации воркфлоу
Качество не уступало премиум-API на задачах агентства — а в части сценариев превосходило
Можно развернуть на собственном хостинге, полностью убрав зависимость от API

Production-архитектура

Сложность была не в запуске модели, а в доведении до production-уровня.

Мы построили контейнеризированную инфраструктуру деплоя, которая обеспечивает:

Интерфейс Telegram-бота (через локальный Bot API сервер для больших медиафайлов сверх стандартных лимитов Telegram)
Оркестрацию воркфлоу для пайплайнов ComfyUI
Обработку тяжёлых файлов (большие видео на вход и выход)
Полинг и вебхук-интеграцию с GPU-провайдерами
Docker-шаблон, который мы повторно используем на похожих проектах — подставил конфиг, задеплоил, готово за минуты

Дизайн инфраструктуры модульный и повторяемый — с тех пор мы использовали ту же основу Docker-шаблона для деплоя похожих ИИ-пайплайнов другим клиентам с минимальными правками.

Инженерия стоимости

Вот где экономика становится интересной.

Начальные затраты на премиум-API (их прежнее решение)

$3–5 за минуту видео
Десятки долларов за готовый креатив
Ограничения по лимитам API

Наша первая реализация (self-hosted GPU на VAST AI)

$2/ч за аренду GPU H200
Пакетная обработка: десятки видео в час на одном GPU-инстансе
Стоимость видео: копейки вместо долларов

Текущая оптимизированная версия (RunningHub)

$15/мес фиксированная подписка для клиента (50K токенов + доступ к премиум-GPU)
Фактически безлимитная генерация в рамках практики
Стоимость видео в токенах: ~200 токенов (пренебрежимо мало при таком объёме)

Чистое снижение затрат: 99%+ по сравнению с ценами премиум-API при их объёме.

Сам путь оптимизации показывает ключевой консалтинговый принцип: непрерывная итерация по выбору инфраструктуры. Сначала правильным ответом был VAST AI, но когда их цены изменились и появились лучшие альтернативы, переход на RunningHub дал ещё один скачок в экономике.

Photo-to-video против video-to-video

Мы реализовали оба режима с осознанным разделением по сценариям:

Photo-to-video — быстрее генерация, меньше галлюцинаций, часто выше качество. По умолчанию для большинства задач.
Video-to-video — нужен конкретным клиентам с длинным форматом (воркфлоу на 5–10 минут). Сначала этот режим был сломан в доступных реализациях; мы отладили и заставили его работать, что стало ключевым отличием.

Рабочего V2V на тот момент не было ни у кого в опенсорс-сообществе, и следующий клиент нашёл нас напрямую через техническую статью, которую мы опубликовали о реализации Infinity Talk.

Признание и обмен знаниями

Опубликовали подробный технический разбор реализации Infinity Talk, который получил признание редакции и сильный отклик сообщества. Он стал основным референсом для тех, кто заходит в эту тему, и привёл к прямому привлечению клиентов.

Результат

99%+

Снижение затрат против проприетарного API

6+ мес

Непрерывная работа в продакшене

Платных коммерческих внедрения

$15/мес

Текущая стоимость инфраструктуры

Для исходного клиента: тот же объём липсинк-видео за долю прежней стоимости. Никаких лимитов API. Настраиваемый воркфлоу под конкретные креативные задачи. 6+ месяцев непрерывной работы в продакшене.

Более широкий коммерческий эффект: 3 платных внедрения у разных клиентов с разными потребностями. Каждое кастомизировано через модификации воркфлоу (где-то V2V, где-то I2V). Основа инфраструктуры повторно использована на нескольких ИИ-проектах.

Технологический стек

Модели ИИ	Infinity Talk (на базе Wan 2.1)
Движок воркфлоу	ComfyUI
GPU-вычисления	VAST AI · RunningHub
Интерфейс	Telegram Bot API (локальный сервер)
Инфраструктура	Docker · оркестрация на Python

Что это демонстрирует

Экспертиза в опенсорс-ИИ на production-уровне — не эксперименты, а коммерческие внедрения
Мышление в духе оптимизации затрат — понимание, когда уместны API-сервисы, а когда self-hosted/альтернативные провайдеры дают огромную экономию
Мышление о production-инфраструктуре — повторно используемые Docker-шаблоны, корректная работа с файлами, интеграция с мессенджерами
Непрерывное улучшение — готовность менять провайдеров инфраструктуры, когда меняется экономика или возможности
Экспертный контент — обмен знаниями генерирует входящие заявки

Похожая задача?

Расскажите, что вы строите — будем рады обсудить.

Обсудить →

← Назад: Metra AI Далее: Motion Control →