Motion Control воркфлоу — зниження витрат на 84% проти преміум відео-ШІ
Замінили преміум-сервіси motion control на опенсорс-воркфлоу на ComfyUI. Близько $12 000 річної економії на клієнта на масштабі продакшену — і можливості, яких немає у преміум-сервісів.
Роль: RTP Agency·Терміни: 4–5 місяців у продакшені·Статус: Працює з 2 комерційними клієнтами
Kling 2.6 (преміум)$1.20 / відео
Кастомний воркфлоу на Wan 2.2$0.19 / відео
−84% до витрат
Бізнес-задача
Агенції цифрового контенту потрібно було виробляти відео в промисловому масштабі — сотні й тисячі роликів на місяць. Вони розглядали преміум відео-ШІ-сервіси (Kling 2.6 і подібні) для генерації відео з motion control, де рухи вихідного відео переносяться на цільового персонажа.
Економіка була жорсткою:
- Преміум-сервіси беруть $0.21–$1.20 за генерацію для motion control (3.5–20 кредитів по ~$0.06–0.08 за кредит)
- За їхнього обсягу (1000+ відео на місяць, мета — 100 відео на годину під час продакшен-спринтів) це виливалося в тисячі доларів на місяць лише за ШІ-генерацію
- Кредитні ліміти не давали масштабуватися під реальні потреби з випуску
- Контент-політики преміум-сервісів обмежували, що взагалі можна згенерувати
Їм потрібна була генерація відео промислового масштабу, водночас радикально дешевше і операційно гнучка.
Що було складним
Motion control нетривіально відтворити. Технологія вимагає:
- Детекція скелета/пози з вихідного відео
- Сегментація персонажа, що точно працює зі складним рухом
- Перенесення руху зі збереженням і дії, і візуальної зв'язності
- Обробка фону і контексту, щоб результат виглядав природно
Більшість преміум-сервісів (Kling, Hailuo, RunwayML) зробили motion control пропрієтарною фічею і беруть за неї відповідно. Опенсорс-аналоги існували, але були або зламані, або важкознаходжувані, або вимагали глибокої експертизи в ComfyUI, щоб довести до production.
Наш підхід
Після широкого ресерчу і тестів ми визначили, що Wan 2.2 — старіша, але недооцінена опенсорс-модель — здатна повторити якість преміум motion control за правильної архітектури воркфлоу на ComfyUI.
Складність: наявні воркфлоу були або зламані, або вимагали ручної сегментації (вручну відмічати, де персонаж на кожному кадрі — цілковито непрактично в масштабі).
Ітерація 1
Отримали зламаний воркфлоу, напханий незрозумілими моделями і невикористовуваними LoRA. Зрізали до робочих компонентів, але сегментація все ще вимагала ручної покадрової розмітки. У масштабі продакшену неробочий варіант.
Ітерація 2
Після додаткового ресерчу знайшли кращий воркфлоу з автоматичними моделями сегментації. Кастомізували і стабілізували під продакшен. Це і стало production-версією.
Поточні доопрацювання
- Вбудували саб-воркфлоу апскейлу відео для підвищення якості
- Додали інтерполяцію кадрів (плавний вивід 30fps → 60fps)
- Побудували навколо RunningHub API з паралельною обробкою по кількох ключах
- Обробили межові випадки (розбіжності з об'єктами між вихідним рухом і цільовим персонажем)
Production-архітектура
- Воркфлоу ComfyUI на GPU-обчисленнях RunningHub
- GPU класу RTX 5080 достатньо для навантаження (преміум-залізо не потрібне)
- 5 паралельних задач на API-ключ, мульти-ключова схема для масштабування понад ліміти одного акаунта
- Час генерації: ~20 хвилин обчислень на відео на стандартному тарифі
- Вбудовано в ширший контент-пайплайн (як модуль усередині великої системи автоматичного виробництва контенту)
- Доступно через кілька інтерфейсів — Telegram-боти, веб-інтерфейс або напряму ComfyUI для просунутих користувачів
Порівняння можливостей: не просто дешевше, а інші можливості
Окрім вартості, у преміум-сервісів є жорсткі технічні ліміти, що обмежують комерційне використання:
Обмеження преміум-сервісу (Kling 2.6 Motion Control)
- Максимум 30 секунд за одну безперервну генерацію
- Витрата кредитів зростає з тривалістю (довше = експоненційно дорожче)
- Обмеження контент-політики на низку комерційних сценаріїв
Наша реалізація
- Немає жорсткого ліміту тривалості — довжина відео обмежена лише доступним GPU-часом
- Можна генерувати відео на 1, 2, 10+ хвилин однією безперервною генерацією
- Та сама економіка вартості за секунду, лінійно масштабована з тривалістю
- Жодних тертів із контент-політикою для легітимної комерційної роботи
Для довгого контенту це не оптимізація — це прогалина у можливостях, яку преміум-сервіси попросту не закривають.
Інженерія вартості — математика
Структура цін RunningHub
- $0.0004 за коїн
- 24 коїни за хвилину GPU-часу
- ~$0.01 за хвилину обчислень
Вартість відео для типового 30-секундного ролика
20 хвилин GPU-часу на відео → 480 коїнів → ~$0.19 за відео
Порівняння з Kling 2.6 motion control (те саме 30-секундне відео)
15–20 кредитів за генерацію × $0.06–0.08 за кредит → ~$0.90–$1.60 за відео (середина ~$1.20)
За реального обсягу продакшену клієнта
Зниження вартості за відео — це заголовок, але сукупна цінність складається з трьох підсилюючих один одного факторів: зниження витрат на 84%, зняття лімітів тривалості, що відкриває формати контенту, які конкуренти не можуть зробити, і операційна гнучкість за рахунок паралельної обробки по кількох ключах.
Порівняння якості
Чесна відповідь: якість не поступається Kling для production-сценарію, місцями краща.
Де преміум-сервіси трохи виграють: межові випадки з незвичними об'єктами (наприклад, у вихідному відео людина тримає коробку, а в цільового персонажа її немає — обидві системи тут можуть давати артефакти, розв'язується попереднім правленням вихідного зображення).
Де наша реалізація не поступається або перевершує: стандартні сценарії перенесення руху, а це 95%+ обсягу продакшену.
Обидва іноді галюцинують. Це очікувана поведінка для поточного покоління відео-ШІ — ні преміум, ні опенсорс не вільні від галюцинацій.
Здобута експертиза
На цьому проєкті ми напрацювали глибоку експертизу в:
- Архітектурі воркфлоу ComfyUI — включно з відлагодженням, управлінням бібліотеками та екосистемою ComfyUI Manager
- Можливостях опенсорс відео-моделей — зокрема, сильних і слабких сторонах Wan 2.2 (чудово для перенесення руху, слабше для генерації з нуля)
- Оптимізації GPU-ресурсів — отримання production-якості на споживчих GPU замість корпоративного заліза
- Інтеграції пост-обробки відео — апскейл і інтерполяція кадрів, вбудовані в основний воркфлоу генерації
- Стабілізації продакшену — робота з неминучими поломками, коли мейнтейнери кастомних нод міняють репозиторії, версії моделей застарівають тощо
Результат
84%
Зниження витрат на масштабі продакшену
~$12K
Річна економія на клієнта
~$0.19
Вартість відео при 30-сек ролику
100+/год
Мета промислової пропускної здатності
- 4–5 місяців безперервної роботи в продакшені у 2 комерційних клієнтів в активному виробництві контенту
- Промисловий випуск — підтримка цільової пропускної здатності 100+ відео на годину
- Можливості понад преміум-сервіси — немає ліміту в 30 секунд на довжину відео
- Інтегрована основа для ширшого пайплайну автоматичного виробництва контенту
- Операційна гнучкість — без обмежень контент-політики та кредитних лімітів понад ємність інфраструктури
Технологічний стек
| Модель ШІ | Wan 2.2 (опенсорс) |
| Рушій воркфлоу | ComfyUI |
| Сегментація | Автоматичні моделі сегментації |
| GPU-обчислення | RunningHub (клас RTX 5080) |
| Обробка відео | FFmpeg |
| Пост-обробка | Апскейл · Інтерполяція кадрів |
Що це демонструє
- Глибока експертиза в опенсорс-ШІ — пошук, відлагодження і доведення до продакшену воркфлоу, які не задокументовані і маловідомі
- Мислення в дусі арбітражу вартості — бачити, коли преміум-сервіси беруть долари за можливості, які опенсорс дає за центи
- Пошук прогалин у можливостях — знаходити бізнес-цінність у тому, чого преміум-сервіси взагалі не дають (довгий motion control)
- Production-інженерія — перетворювати зламані або непрактичні воркфлоу на промислово надійні
- Архітектура воркфлоу — зв'язування кількох етапів обробки (motion control + сегментація + апскейл + інтерполяція) у зв'язні production-пайплайни
- Оптимізація GPU-обчислень — production-результати на споживчому рівні заліза