Автоматизация · youtube

nextomoro.com4 мая 2026

Обзор семейства Tencent Hunyuan и open-weights релизов

Hunyuan — семейство моделей Tencent, включающее текстовые LLM, а также отдельные линии для image, video и 3D. В статье перечислены Hunyuan-Large, Hunyuan-T1, Hunyuan 2.0 и Hy3 preview, но технических деталей по HunyuanVideo почти нет. Основной фокус — на текстовых моделях: Hunyuan-Large имеет 389B параметров, 52B active и контекст до 256K токенов. Hy3 preview вышла 23 апреля 2026 года как open-weights модель с 295B total и 21B active параметрами. Часть моделей доступна через Tencent Cloud API и Yuanbao, часть опубликована на Hugging Face. Для текущей задачи видео-генерации статья полезна только как навигация по экосистеме Tencent, а не как практическая инструкция для запуска на 6 GB VRAM.

Hunyuan включает отдельные ветки для text, image, video и 3D.
Hy3 preview — open-weights LLM, но не видео-модель.
HunyuanVideo упомянута без требований к VRAM и workflow.
Статья не даёт данных по quantization, ComfyUI или запуску на RTX 3060 6GB.

nextomoro.com

hunyuan tencent

github.com8 мая 2026

Wan2.2: открытая видеомодель с MoE и 720p TI2V

Wan2.2 — крупное обновление открытых video diffusion моделей Wan с акцентом на качество движения, киношную эстетику и эффективность. В модели используется MoE-архитектура, где разные expert-модели специализируются на этапах denoising, увеличивая общую ёмкость без пропорционального роста вычислений. Обучение расширено относительно Wan2.1: заявлено на 65.6% больше изображений и на 83.2% больше видео, что должно улучшать motion, semantics и aesthetics. Отдельно упомянут 5B Hybrid TI2V вариант с Wan2.2-VAE и компрессией 16×16×4, который поддерживает text-to-video и image-to-video в 720p 24fps. В статье прямо сказано, что 5B модель рассчитана на consumer-grade GPU вроде RTX 4090, но про 6 GB VRAM совместимость данных нет. Также упомянуты ветки Wan2.2-Animate-14B для анимации персонажей и Wan2.2-S2V-14B для audio-driven video generation.

Wan2.2 добавляет MoE в video diffusion pipeline
5B Hybrid TI2V поддерживает T2V и I2V на 720p 24fps
Wan2.2-VAE использует компрессию 16×16×4
Заявлены улучшения motion, semantics и cinematic aesthetics
Минимальные требования под RTX 3060 6GB в статье не указаны

github.com

Wan2.2 video-generation

huggingface.apachecn.org9 мая 2026

Diffusers Text-to-Video с CPU offload и VAE slicing

Материал описывает pipeline Text-to-Video в Hugging Face Diffusers на базе VideoFusion и модели damo-vilab/text-to-video-ms-1.7b. Подход VideoFusion разделяет шум на общий для всех кадров base noise и меняющийся во времени residual noise, чтобы лучше учитывать временную связность видео. В примере короткий ролик генерируется через DiffusionPipeline в fp16 на CUDA и сохраняется через export_to_video. Для снижения расхода памяти предлагаются enable_model_cpu_offload() и enable_vae_slicing(). С этими оптимизациями пример на 64 кадра заявлен как требующий около 7 GB GPU memory в PyTorch 2.0, что выше лимита RTX 3060 6GB. Также показана замена scheduler на DPMSolverMultistepScheduler и уменьшение num_inference_steps до 25 для ускорения генерации.

Модель: damo-vilab/text-to-video-ms-1.7b в Diffusers fp16.
Базовый пример генерирует 16 кадров, около 2 секунд при 8 fps.
CPU offload и VAE slicing снижают потребление VRAM.
64 кадра требуют около 7 GB VRAM, что рискованно для RTX 3060 6GB.
DPMSolverMultistepScheduler можно использовать для ускорения inference.

huggingface.apachecn.org

diffusers text-to-video

huggingface.apachecn.org9 мая 2026

Text2Video-Zero в Diffusers для лёгкой генерации коротких видео

Text2Video-Zero превращает обычные text-to-image модели вроде Stable Diffusion v1.5 в zero-shot text-to-video генератор без дообучения на видео-датасетах. Метод добавляет motion dynamics в latent-коды кадров и использует cross-frame attention, где кадры опираются на первый кадр для сохранения сцены, внешности и идентичности объекта. Pipeline поддерживает генерацию по текстовому prompt, управление через poses или edges, а также Video Instruct-Pix2Pix для instruction-guided video editing. В примере используется Diffusers `TextToVideoZeroPipeline` с `runwayml/stable-diffusion-v1-5`, `torch.float16` и CUDA. По умолчанию генерируется короткий клип на 8 кадров, параметры движения задаются через `motion_field_strength_x/y`, а временное окно через `t0` и `t1`. Для более длинных роликов предлагается chunk-by-chunk генерация с повторным использованием первого кадра и фиксированным seed для временной согласованности.

Работает поверх Stable Diffusion v1.5 без обучения отдельной video-модели.
Cross-frame attention помогает сохранять фон, объект и общий контекст между кадрами.
Базовый пример генерирует 8 кадров и сохраняет MP4 через `imageio` с `fps=4`.
Длинные видео можно собирать чанками, повторяя первый кадр как reference.
Поддерживаются text-to-video, pose/edge guidance и Video Instruct-Pix2Pix.

huggingface.apachecn.org

Text2Video-Zero diffusers

softtechhub.us8 мая 2026

LongCat-Video: open-source модель для длинных AI-видео

Meituan выпустила LongCat-Video, open-source модель генерации видео с 13.6B параметров. Главная заявка модели — генерация длинных роликов до примерно 4 минут в 720p и 30 fps, а не коротких клипов на 5-10 секунд. Архитектура обучалась под Video Continuation, чтобы продлевать видео без сильного дрейфа цвета, мерцания и деградации качества. В статье упомянуты режимы Text-to-Video, Image-to-Video, Video Continuation, Interactive Video Generation и LongCat-Video-Avatar. Под капотом заявлены coarse-to-fine generation, block sparse attention и multi-reward RLHF. Важный практический плюс — MIT license, то есть модель можно использовать и модифицировать без подписки и водяных знаков. Данных о реальных требованиях к VRAM в предоставленном фрагменте нет, поэтому применимость к RTX 3060 6GB пока не подтверждена.

LongCat-Video ориентирована на длинные ролики до 4 минут, а не на короткие 5-10 секундные клипы.
Модель имеет 13.6B параметров, поэтому запуск на 6 ГБ VRAM под вопросом без квантизации или offload.
MIT license делает её потенциально пригодной для собственного YouTube pipeline без платных сервисов.
Video Continuation может быть полезен для продления уже собранных sci-fi сцен.
В статье нет конкретных данных по скорости, VRAM и установке в доступном фрагменте.

softtechhub.us

LongCat-Video open-source

medium.com8 мая 2026

Sulphur-2-Base: локальная video-модель на базе LTX 2.3

Sulphur-2-Base описывается как open-source модель для text-to-video и image-to-video генерации, доступная через Hugging Face. Модель построена поверх экосистемы LTX, предположительно как сильно дообученная версия LTX 2.3, с фокусом на реалистичное движение и кинематографичность. Поддерживаются локальный inference, ComfyUI workflows и LoRA-интеграции, что делает её интересной для кастомных production-pipeline. Автор подчёркивает отличие от коммерческих сервисов: приватная генерация, меньше ограничений, больше контроля над пайплайном. По отзывам сообщества, Sulphur-2-Base должна лучше справляться с jitter, continuity, движением камеры и анимацией людей. В статье заявлено, что модель ориентирована не на новичков, а на опытных пользователей ComfyUI и AI-video workflow. Точные требования к железу в предоставленном фрагменте не раскрыты.

9B text-to-video и image-to-video модель на базе LTX ecosystem
Есть локальный inference, ComfyUI workflows и LoRA compatibility
Главный заявленный плюс — более плавное и реалистичное движение
Модель рассчитана на power users, а не на one-click использование
Информации о запуске на 6GB VRAM в фрагменте статьи нет

medium.com

Sulphur-2-Base LTX

itirupati.com9 мая 2026

Wan AI как open-source база для локальной video generation

Wan AI описан как open-source модель для text-to-video и image-to-video генерации с коммерчески дружественной лицензией. Модель можно запускать локально, размещать в облаке или интегрировать в собственные продукты без оплаты за каждую генерацию через закрытый API. В статье акцент на том, что Wan AI подходит техническим авторам и разработчикам, которым нужен контроль над пайплайном, возможность fine-tuning и отсутствие lock-in у сервисов вроде Runway или Pika. Для запуска упоминаются ComfyUI, dedicated inference servers, Hugging Face, Replicate и fal.ai. Статья не даёт конкретных требований по VRAM, скоростям, квантизации или настройкам для слабых GPU. Для текущего проекта это полезно как сигнал, что Wan стоит держать в списке основных open-source кандидатов, но не как готовое решение под RTX 3060 6GB.

Wan AI поддерживает text-to-video и image-to-video генерацию
Модель можно запускать локально или через cloud providers
Open-weight подход позволяет fine-tuning под свой визуальный стиль
Статья не подтверждает работоспособность на 6 GB VRAM
Упомянуты ComfyUI, Hugging Face, Replicate и fal.ai

itirupati.com

wan-ai open-source-video

opensourceaidirectory.com5 мая 2026

Wan 2.2 локально требует больше VRAM, чем есть в проекте

Wan 2.2 позиционируется как сильная open-source модель для text-to-video и image-to-video генерации без подписок и очередей. В статье подчёркиваются преимущества локального запуска: приватность промптов и референсов, предсказуемая скорость и возможность встроить модель в собственный pipeline. Модель доступна в вариантах 5B и 14B, использует Mixture of Experts и обещает лучшее движение, prompt adherence и стабильность персонажей по сравнению с предыдущей версией. Для комфортной работы автор рекомендует ComfyUI, свежие NVIDIA drivers, CUDA 12.4+, Python 3.10/3.11 и SSD с 50-100GB свободного места. Ключевой риск для проекта: минимально заявлено 8GB VRAM даже для 5B или сильно quantized 14B, а целевая RTX 3060 имеет только 6GB. Поэтому Wan 2.2 выглядит перспективно, но не как готовая основная модель для текущего железа без агрессивной квантизации и снижения разрешения.

Wan 2.2 поддерживает text-to-video и image-to-video
Есть 5B и 14B варианты, 14B требует намного больше VRAM
Минимальный порог статьи — 8GB VRAM, лучше 16GB+
ComfyUI указан как основной путь для локальной установки
Для проекта с RTX 3060 6GB запуск будет пограничным

opensourceaidirectory.com

Wan-2.2 ComfyUI