Автоматизация · youtube

opensourceaidirectory.com12 мая 2026

AnimateDiff в ComfyUI для локальной генерации коротких видео

AnimateDiff добавляет motion modules к Stable Diffusion и позволяет собирать локальные text-to-video workflow в ComfyUI. Статья делает акцент на node-based подходе: все параметры видны, воспроизводимы и удобны для отладки. Для новичков предлагается ComfyUI Portable, установка AnimateDiff-Evolved через ComfyUI Manager и обязательный ComfyUI-VideoHelperSuite для работы с видео и кадрами. Рекомендуемый стартовый motion module — SD1.5 mm_sd_v15_v2.ckpt, а SDXL отмечен как более качественный, но заметно тяжелее по VRAM. Минимум по железу указан как 8GB VRAM «с трюками», комфортно — 12GB+, поэтому RTX 3060 6GB находится ниже заявленного минимума. CPU-only режим назван непрактичным для видео из-за скорости.

ComfyUI + AnimateDiff дают локальный pipeline без подписок и облачных лимитов
Для старта нужны AnimateDiff-Evolved и ComfyUI-VideoHelperSuite
Motion modules кладутся в ComfyUI/models/animatediff/
SD1.5 motion modules стабильнее и легче для первого теста
Заявленный минимум 8GB VRAM, что выше RTX 3060 6GB проекта

opensourceaidirectory.com

animatediff comfyui

qwe.edu.pl12 мая 2026

Wan 2.2 TI2V-5B: локальная установка через pip и flash_attn

Гайд разбирает установку Wan 2.2 для локальной open-source video generation, но фокусируется не на крупных A14B-моделях, а на TI2V-5B. Wan 2.2 от Alibaba Tongyi Lab выпущен под Apache 2.0 и включает T2V-A14B, I2V-A14B и TI2V-5B. Для потребительского железа автор рекомендует именно TI2V-5B: dense 5B, text+image-to-video, VAE с компрессией 16×16×4, поддержка 720p 24fps. Даже TI2V-5B требует около 12 GB VRAM с offload-флагами и лучше чувствует себя на 24 GB RTX 4090/3090, поэтому RTX 3060 6GB напрямую не подходит. Установка рекомендуется через conda + pip, Python 3.10, CUDA 12.4, torch 2.5.1, а не через Poetry. Ключевой практический момент: сначала ставить PyTorch, затем requirements.txt без flash_attn, и только потом отдельно ставить flash_attn с --no-build-isolation.

TI2V-5B — самый реалистичный вариант Wan 2.2 для локального запуска, но минимум всё равно около 12 GB VRAM.
A14B-варианты требуют примерно 80 GB VRAM и не подходят для домашнего RTX 3060 6GB.
Для установки лучше использовать pip, Python 3.10 и заранее поставить torch==2.5.1 под CUDA 12.4.
flash_attn нужно ставить последним, иначе возможен ModuleNotFoundError из-за build isolation.
Windows native автор советует избегать; предпочтительнее Linux или WSL2.

qwe.edu.pl

Wan2.2 TI2V-5B

vrlatech.com13 мая 2026

VRAM-требования для LoRA-тренировки в 2026

Статья разбирает требования к железу для обучения Stable Diffusion LoRA в 2026 году. Для SD 1.5 LoRA указан минимум 8 GB VRAM, для SDXL — около 10-12 GB минимум и 24 GB для комфортной работы. SD 3.5 и Flux требуют заметно больше: Flux.1 Dev/Schnell начинается примерно с 24 GB при quantization, а Flux.2 Dev — с 32 GB. Автор подчеркивает, что главный ограничитель — не размер итоговой LoRA, а память на base model, optimizer states, gradients и training data. Для обучения LoRA экосистема по-прежнему почти полностью NVIDIA/CUDA: Kohya-ss, bitsandbytes, Flash Attention и xFormers лучше поддержаны именно там. AMD ROCm в статье описан как более пригодный для inference, но не как зрелая платформа для LoRA training.

RTX 3060 6GB ниже заявленного минимума даже для SD 1.5 LoRA training
SDXL LoRA практически требует карту уровня 12-24 GB VRAM
Flux LoRA нецелесообразен локально без 24-32 GB VRAM
AMD Radeon 780M стоит рассматривать для batch/inference, а не для training
Для проекта важнее готовые LoRA и inference-оптимизации, чем локальное обучение

vrlatech.com

lora stable-diffusion

spheron.network14 мая 2026

Spheron как маркетплейс аренды enterprise GPU

Spheron описывает себя как маркетплейс аренды NVIDIA GPU из Tier 2/3/4 дата-центров, а не как единый облачный провайдер. Платформа агрегирует H100, H200, B200, B300, A100, GH200, L40S, RTX PRO 6000, RTX 5090 и RTX 4090 с live pricing и поминутной оплатой. Пользователям обещают VM или bare metal, SSH root access, быстрый запуск инстансов и отсутствие vendor lock-in через единый аккаунт. Отдельно выделены on-demand, spot и reserved варианты аренды, включая скидки на spot для batch-задач и кластеры от 8 до 512+ GPU. Материал перечисляет страницы каталога и назначения разных GPU: H100/H200/B200 для крупных LLM, L40S и RTX 4090/5090 для inference, прототипирования и средних экспериментов. В предоставленном фрагменте нет практических бенчмарков video-моделей, ROCm/Vulkan, 6GB VRAM или Radeon 780M.

Spheron — платный GPU rental marketplace с live pricing и per-minute billing.
Доступны H100, H200, B200, A100, L40S, RTX 4090, RTX 5090 и другие NVIDIA GPU.
Есть on-demand, spot и reserved режимы аренды под разные типы нагрузок.
Фрагмент не дает данных по запуску open-source video-моделей на RTX 3060 6GB или Radeon 780M.
Для текущей секции это скорее ориентир по облачным ценам, а не готовое решение pipeline.

spheron.network

gpu-rental spheron

papers.cool14 мая 2026

SANA-WM: open-source world model для минутных 720p видео

SANA-WM — open-source world model на 2.6B параметров для генерации минутных 720p видео с управлением камерой. Модель использует Hybrid Linear Attention: frame-wise Gated DeltaNet вместе с softmax attention для более экономной работы с длинным контекстом. Отдельный Dual-Branch Camera Control нужен для точного следования 6-DoF траекториям камеры. Pipeline двухстадийный: сначала базовая генерация, затем long-video refiner для повышения качества и консистентности. Обучение заняло 15 дней на 64 H100 и примерно 213K публичных видеоклипов с metric-scale pose supervision. Дистиллированная версия с NVFP4 заявлена для RTX 5090 и денойзит 60-секундный 720p клип за 34 секунды, поэтому для RTX 3060 6GB это пока не локальная практическая модель.

2.6B open-source world model для 60-секундных 720p видео
Есть точный 6-DoF camera control через отдельную ветку управления
Двухстадийная схема: stage-1 генерация плюс long-video refiner
Дистиллированный вариант ориентирован на RTX 5090 с NVFP4, не на 6GB VRAM

papers.cool

SANA-WM world-model

thecosmicmeta.com16 мая 2026

SANA-WM генерирует минутные 720p world-video на одной GPU

NVIDIA SANA-WM описывается как open-source world model на 2.6B параметров для генерации длинных 720p-видео из одного изображения и заданной траектории камеры. В отличие от обычных text-to-video моделей, акцент сделан на управляемом 3D-мире, длинной последовательности до 60 секунд и контроле камеры. В статье утверждается, что модель работает почти в реальном времени на одной RTX 5090 благодаря hybrid attention и низкому потреблению памяти. Лицензия Apache 2.0 делает модель потенциально полезной для локальных production-пайплайнов, виртуального продакшена и симуляций. Для текущего проекта важна сама архитектурная идея: image + camera path вместо случайного короткого video prompt. Прямой запуск на RTX 3060 6GB из статьи не подтвержден, поэтому это скорее кандидат на отслеживание, а не немедленная замена текущего slideshow+RIFE пайплайна.

SANA-WM: 2.6B open-source world model от NVIDIA под Apache 2.0.
Вход: одно изображение и camera path; выход: до 60 секунд 720p-видео.
Ключевой фокус: длинная когерентная сцена и точный контроль камеры.
Заявленная производительность относится к RTX 5090, не к 6GB VRAM.
Для AI Sci-Fi Shorts полезен подход story frame -> camera path -> video segment.

thecosmicmeta.com

SANA-WM NVIDIA

chatforest.com10 мая 2026

LTX-Video как быстрый open-source кандидат для AI-видео

LTX-Video от Lightricks позиционируется как быстрый open-source text-to-video и image-to-video модельный стек, закрывающий промежуток между тяжелыми HunyuanVideo/Wan и устаревающим AnimateDiff. Главная архитектурная идея — video VAE с компрессией 1:192, из-за чего transformer работает с меньшим числом latent tokens и быстрее проходит diffusion-инференс. В статье сравнивается контекст: HunyuanVideo требует около 60+ GB VRAM, Wan 2.1 ближе к consumer-классу, но все еще требует около 16 GB, а AnimateDiff помещается в 6-8 GB, но ограничен 16-frame клипами на базе SD 1.5. LTX-Video v0.9-v0.9.8 описывается как 2B-parameter family, выпущенная под Apache 2.0 с весами на HuggingFace и inference-кодом на GitHub. Статья не содержит собственных hands-on тестов и опирается на публичные источники, поэтому реальные требования к RTX 3060 6GB нужно проверять отдельно. Для проекта важен не маркетинг LTX Studio, а сама архитектура: быстрая генерация коротких клипов может заменить часть slideshow+RIFE, если модель реально заведется в ограниченной VRAM.

LTX-Video делает ставку на video VAE с компрессией 1:192 для снижения числа токенов.
Модельная семья v0.9-v0.9.8 имеет около 2B параметров и открыта под Apache 2.0.
В отличие от HunyuanVideo и Wan 2.1, цель LTX-Video — интерактивная скорость на более доступном железе.
Статья не дает собственных бенчмарков и не подтверждает запуск на 6 GB VRAM.
Потенциально полезно для коротких cinematic micro-lore клипов и I2V из GPT Image 2 кадров.

chatforest.com

ltx-video open-source

chatforest.com10 мая 2026

HunyuanVideo и 1.5: сильная open-source модель, но не для 6 GB VRAM

Tencent выпустила HunyuanVideo в декабре 2024 года как open-source видео-модель на 13B параметров с локально доступными весами. На старте модель заняла верхние позиции в VBench 1.0, быстро получила интеграции в ComfyUI, Diffusers и поддержку xDiT, а позже появились LoRA-пайплайны. В ноябре 2025 вышла HunyuanVideo-1.5: 8.3B параметров, SSTA architecture, 1080p super-resolution и генерация до 10 секунд при 24fps. Даже «потребительская» версия требует около 14 GB VRAM, а step-distilled вариант делает 480p I2V примерно за 75 секунд на RTX 4090, что всё равно выше возможностей RTX 3060 6GB. В экосистеме также появились I2V, HunyuanCustom для single-image video с synchronized audio/lip-sync, Avatar и Foley. Важный риск — лицензия Tencent Hunyuan Community License запрещает использование в EU, UK и South Korea, что может мешать публичному распространению пайплайнов и моделей.

HunyuanVideo 13B был сильным open-source T2V релизом с быстрым ростом ComfyUI/Diffusers экосистемы.
HunyuanVideo-1.5 стал легче на уровне параметров, но всё ещё требует около 14 GB VRAM.
Для RTX 3060 6GB модель напрямую непрактична без агрессивного quantization/offload или облака.
HunyuanCustom и Avatar важны для AI music video: single-image animation, audio sync и lip-sync.
Лицензия исключает EU, UK и South Korea, это нужно учитывать при публикации workflow.

chatforest.com

hunyuanvideo video-generation

Свежий срез по 6 проектами SaaS-идеям

AnimateDiff в ComfyUI для локальной генерации коротких видео

Wan 2.2 TI2V-5B: локальная установка через pip и flash_attn

VRAM-требования для LoRA-тренировки в 2026

Spheron как маркетплейс аренды enterprise GPU

SANA-WM: open-source world model для минутных 720p видео

SANA-WM генерирует минутные 720p world-video на одной GPU

LTX-Video как быстрый open-source кандидат для AI-видео

HunyuanVideo и 1.5: сильная open-source модель, но не для 6 GB VRAM

Свежий срез по 6 проектам
и SaaS-идеям