Кейс 02

Motion Control воркфлоу — снижение расходов на 84% против премиум видео-ИИ

Заменили премиум-сервисы motion control на опенсорс-воркфлоу на ComfyUI. Около $12 000 годовой экономии на клиента на масштабе продакшена — и возможности, которых нет у премиум-сервисов.

Роль: RTP Agency·Сроки: 4–5 месяцев в продакшене·Статус: Работает с 2 коммерческими клиентами
Kling 2.6 (премиум)$1.20 / видео
Кастомный воркфлоу на Wan 2.2$0.19 / видео
84% к расходам

Бизнес-задача

Агентству цифрового контента нужно было производить видео в промышленном масштабе — сотни и тысячи роликов в месяц. Они рассматривали премиум видео-ИИ-сервисы (Kling 2.6 и подобные) для генерации видео с motion control, где движения исходного видео переносятся на целевого персонажа.

Экономика была жёсткой:

  • Премиум-сервисы берут $0.21–$1.20 за генерацию для motion control (3.5–20 кредитов по ~$0.06–0.08 за кредит)
  • При их объёме (1000+ видео в месяц, цель — 100 видео в час во время продакшен-спринтов) это выливалось в тысячи долларов в месяц только за ИИ-генерацию
  • Кредитные лимиты не давали масштабироваться под реальные потребности по выпуску
  • Контент-политики премиум-сервисов ограничивали, что вообще можно сгенерировать

Им нужна была генерация видео промышленного масштаба, одновременно радикально дешевле и операционно гибкая.

Что было сложным

Motion control нетривиально воспроизвести. Технология требует:

  • Детекция скелета/позы из исходного видео
  • Сегментация персонажа, точно работающая со сложным движением
  • Перенос движения с сохранением и действия, и визуальной связности
  • Обработка фона и контекста, чтобы результат выглядел естественно

Большинство премиум-сервисов (Kling, Hailuo, RunwayML) сделали motion control проприетарной фичей и берут за неё соответственно. Опенсорс-аналоги существовали, но были либо сломаны, либо труднонаходимы, либо требовали глубокой экспертизы в ComfyUI, чтобы довести до production.

Наш подход

После обширного ресёрча и тестов мы определили, что Wan 2.2 — более старая, но недооценённая опенсорс-модель — способна повторить качество премиум motion control при правильной архитектуре воркфлоу на ComfyUI.

Сложность: существующие воркфлоу были либо сломаны, либо требовали ручной сегментации (вручную отмечать, где персонаж на каждом кадре — совершенно непрактично в масштабе).

Итерация 1

Получили сломанный воркфлоу, набитый непонятными моделями и неиспользуемыми LoRA. Срезали до рабочих компонентов, но сегментация всё ещё требовала ручной покадровой разметки. В масштабе продакшена нерабочий вариант.

Итерация 2

После дополнительного ресёрча нашли лучший воркфлоу с автоматическими моделями сегментации. Кастомизировали и стабилизировали под продакшен. Это и стало production-версией.

Текущие доработки

  • Встроили саб-воркфлоу апскейла видео для повышения качества
  • Добавили интерполяцию кадров (плавный вывод 30fps → 60fps)
  • Построили вокруг RunningHub API с параллельной обработкой по нескольким ключам
  • Обработали пограничные случаи (расхождения с объектами между исходным движением и целевым персонажем)

Production-архитектура

  • Воркфлоу ComfyUI на GPU-вычислениях RunningHub
  • GPU класса RTX 5080 достаточно для нагрузки (премиум-железо не нужно)
  • 5 параллельных задач на API-ключ, мульти-ключевая схема для масштабирования сверх лимитов одного аккаунта
  • Время генерации: ~20 минут вычислений на видео на стандартном тарифе
  • Встроено в более широкий контент-пайплайн (как модуль внутри большой системы автоматического производства контента)
  • Доступно через несколько интерфейсов — Telegram-боты, веб-интерфейс или напрямую ComfyUI для продвинутых пользователей

Сравнение возможностей: не просто дешевле, а другие возможности

Помимо стоимости, у премиум-сервисов есть жёсткие технические лимиты, ограничивающие коммерческое использование:

Ограничения премиум-сервиса (Kling 2.6 Motion Control)

  • Максимум 30 секунд за одну непрерывную генерацию
  • Расход кредитов растёт с длительностью (длиннее = экспоненциально дороже)
  • Ограничения контент-политики на ряд коммерческих сценариев

Наша реализация

  • Нет жёсткого лимита длительности — длина видео ограничена только доступным GPU-временем
  • Можно генерировать видео на 1, 2, 10+ минут одной непрерывной генерацией
  • Та же экономика стоимости за секунду, линейно масштабируемая с длительностью
  • Никаких трений с контент-политикой для легитимной коммерческой работы
Для длинного контента это не оптимизация — это пробел в возможностях, который премиум-сервисы попросту не закрывают.

Инженерия стоимости — математика

Структура цен RunningHub

  • $0.0004 за коин
  • 24 коина за минуту GPU-времени
  • ~$0.01 за минуту вычислений

Стоимость видео для типичного 30-секундного ролика

20 минут GPU-времени на видео → 480 коинов → ~$0.19 за видео

Сравнение с Kling 2.6 motion control (то же 30-секундное видео)

15–20 кредитов за генерацию × $0.06–0.08 за кредит → ~$0.90–$1.60 за видео (середина ~$1.20)

При реальном объёме продакшена клиента

Снижение стоимости за видео — это заголовок, но совокупная ценность складывается из трёх усиливающих друг друга факторов: снижение расходов на 84%, снятие лимитов длительности, открывающее форматы контента, которые конкуренты не могут сделать, и операционная гибкость за счёт параллельной обработки по нескольким ключам.

Сравнение качества

Честный ответ: качество не уступает Kling для production-сценария, местами лучше.

Где премиум-сервисы немного выигрывают: пограничные случаи с необычными объектами (например, в исходном видео человек держит коробку, а у целевого персонажа её нет — обе системы тут могут давать артефакты, решается предварительной правкой исходного изображения).

Где наша реализация не уступает или превосходит: стандартные сценарии переноса движения, а это 95%+ объёма продакшена.

Оба иногда галлюцинируют. Это ожидаемое поведение для текущего поколения видео-ИИ — ни премиум, ни опенсорс не свободны от галлюцинаций.

Полученная экспертиза

На этом проекте мы наработали глубокую экспертизу в:

  • Архитектуре воркфлоу ComfyUI — включая отладку, управление библиотеками и экосистему ComfyUI Manager
  • Возможностях опенсорс видео-моделей — в частности, сильных и слабых сторонах Wan 2.2 (отлично для переноса движения, слабее для генерации с нуля)
  • Оптимизации GPU-ресурсов — получение production-качества на потребительских GPU вместо корпоративного железа
  • Интеграции пост-обработки видео — апскейл и интерполяция кадров, встроенные в основной воркфлоу генерации
  • Стабилизации продакшена — работа с неизбежными поломками, когда мейнтейнеры кастомных нод меняют репозитории, версии моделей устаревают и т.д.

Результат

84%
Снижение расходов на масштабе продакшена
~$12K
Годовая экономия на клиента
~$0.19
Стоимость видео при 30-сек ролике
100+/час
Цель промышленной пропускной способности
  • 4–5 месяцев непрерывной работы в продакшене у 2 коммерческих клиентов в активном производстве контента
  • Промышленный выпуск — поддержка целевой пропускной способности 100+ видео в час
  • Возможности сверх премиум-сервисов — нет лимита в 30 секунд на длину видео
  • Интегрированная основа для более широкого пайплайна автоматического производства контента
  • Операционная гибкость — без ограничений контент-политики и кредитных лимитов сверх ёмкости инфраструктуры

Технологический стек

Модель ИИWan 2.2 (опенсорс)
Движок воркфлоуComfyUI
СегментацияАвтоматические модели сегментации
GPU-вычисленияRunningHub (класс RTX 5080)
Обработка видеоFFmpeg
Пост-обработкаАпскейл · Интерполяция кадров

Что это показывает

  • Глубокая экспертиза в опенсорс-ИИ — поиск, отладка и доведение до продакшена воркфлоу, которые не задокументированы и малоизвестны
  • Мышление в духе арбитража стоимости — видеть, когда премиум-сервисы берут доллары за возможности, которые опенсорс даёт за центы
  • Поиск пробелов в возможностях — находить бизнес-ценность в том, чего премиум-сервисы вообще не дают (длинный motion control)
  • Production-инженерия — превращать сломанные или непрактичные воркфлоу в промышленно надёжные
  • Архитектура воркфлоу — связывание нескольких этапов обработки (motion control + сегментация + апскейл + интерполяция) в связные production-пайплайны
  • Оптимизация GPU-вычислений — production-результаты на потребительском уровне железа

Похожая задача?

Расскажите, что вы строите — будем рады обсудить.

Обсудить