# 🎬 Автоматизация

Всего постов в архиве: 41

## Выпуск 21 мая 2026

### NVIDIA SANA-WM: world model для 60-секундного видео из одного кадра

*17 мая 2026 · youtube.com*

NVIDIA открыла SANA-WM, world model на 2.6B параметров под Apache 2.0. Модель берет одно изображение и 6-DoF траекторию камеры, затем генерирует до 60 секунд видео 720p с согласованной геометрией. В статье заявлено, что быстрый distilled-AR вариант с NVFP4 рендерит результат примерно за 34 секунды на RTX 5090. Архитектура использует hybrid linear attention, Gated DeltaNet, camera-control embeddings и двухстадийный pipeline для долгой временной консистентности. Это ближе к управляемому previz/storyboard-инструменту, чем к обычному text-to-video, потому что движение камеры задается явно. Для текущего железа проекта важное ограничение: упомянутый рабочий профиль рассчитан на GPU уровня RTX 5090 и около 32 GB VRAM, поэтому RTX 3060 6GB напрямую, скорее всего, не подходит.

- Вход: один concept frame плюс 6-DoF camera trajectory.
- Выход: до 60 секунд 720p видео с устойчивой сценовой геометрией.
- Лицензия Apache 2.0, веса на HuggingFace, код в NVlabs/Sana.
- Заявленный быстрый режим: distilled AR + NVFP4 на RTX 5090.
- Главная польза для канала: cinematic previz и управляемые camera moves из GPT Image 2 кадров.

> 💡 **Действие:** Добавь SANA-WM в backlog youtube-shorts-director как cloud/offload-опцию для теста, а не как локальный pipeline на RTX 3060 6GB. Практический эксперимент: взять 1 GPT Image 2 sci-fi кадр, подготовить 3 короткие 6-DoF траектории камеры и проверить, можно ли получить управляемый 8-18 сек фрагмент для Shorts вместо слайдшоу+RIFE.

Теги: `SANA-WM` `NVIDIA` `world-model` `video-generation` `6DoF` `previz`

[Источник](https://www.youtube.com/watch?v=f1LV-dMrgV4)

---

### Lisuan LX 7G100: совместимость есть, но производительность слабая

*20 мая 2026 · videocardz.com*

Lisuan LX 7G100 — первая потребительская видеокарта на китайской архитектуре TrueGPU с 12 ГБ памяти. В обзоре Chaowanke карта уже запускает многие современные DX12-игры, что лучше стартовой позиции ранних китайских GPU вроде Moore Threads MTT S80. Однако реальные игровые результаты сильно отстают от RTX 4060, RTX 3060, Arc B580 и Radeon RX 6600 XT, несмотря на местами неплохие 3DMark-показатели. В Cyberpunk 2077 при 1080p с FSR3 Quality и frame generation карта выдала 88 FPS против 232 FPS у RTX 4060. В Black Myth: Wukong результат составил 56 FPS против 115 FPS у RTX 4060, а в Forza Horizon 5 — всего 48 FPS на Low. Главная проблема — цена около 3300 RMB или $480, из-за чего карта неконкурентна даже против б/у RTX 30-series и Intel Arc.

- LX 7G100 уже поддерживает современные DX12-игры на старте
- Реальная игровая производительность сильно ниже RTX 4060-class
- 3DMark не отражает практическую скорость в играх
- Цена $480 делает карту неинтересной для покупки
- Драйверы и software stack пока выглядят незрелыми

> 💡 **Действие:** Не рассматривать LX 7G100 для локального AI-video pipeline: даже при 12 ГБ памяти экосистема и драйверы слишком рискованные. Для проекта продолжай ориентироваться на RTX 3060 6GB, ROCm/Vulkan для Radeon 780M и free-tier облако.

Теги: `gpu` `lisuan` `truegpu` `drivers` `hardware`

[Источник](https://videocardz.com/newz/lisuan-lx-7g100-tested-chinas-new-gaming-gpu-runs-modern-titles-but-price-needs-a-reality-check)

---

### Llama 70B требует 48GB+ VRAM и не подходит для текущего железа

*15 мая 2026 · dev.to*

Статья разбирает, сколько VRAM нужно для запуска Llama 70B в разных квантизациях. Для нормального качества автор указывает минимум около 48GB VRAM: Q4_K_M требует примерно 42GB, Q5_K_M около 50GB, Q6_K около 56GB. Одна RTX 5090 32GB может запустить 70B только в агрессивной Q3/Q4-квантизации с заметной потерей качества. Более практичные варианты для 70B — dual RTX 3090, dual RTX 4090 или workstation-карта A6000 48GB. Для multi-GPU упомянуты Ollama с OLLAMA_NUM_GPU=999 и llama.cpp с --tensor-split. Для текущего проекта это не про видео-модели, но полезно как ограничение: локальный 70B-LLM не является реалистичной частью автоматизации на RTX 3060 6GB или Radeon 780M.

- Llama 70B в приемлемом качестве требует примерно 48GB+ VRAM.
- RTX 3060 6GB не подходит даже для сильно урезанного 70B.
- Multi-GPU запуск возможен через Ollama и llama.cpp.
- Статья относится к LLM-инференсу, а не к генерации видео.
- Для проекта важнее малые LLM или облачный API для сценариев и промптов.

> 💡 **Действие:** Не закладывай Llama 70B в локальный pipeline для youtube-shorts-director и youtube-music-video-director. Для автоматизации сценариев и промптов на RTX 3060 6GB тестируй малые модели 7B-14B в Q4/Q5, а 70B оставь только для облака или удаленной машины.

Теги: `llama70b` `vram` `ollama` `llama.cpp` `multi-gpu`

[Источник](https://dev.to/thurmon_demich/best-gpu-for-llama-70b-in-2026-48gb-vram-required-3jal)

---

### Китайская GPU Lisuan 7G100 заявлена на уровне RTX 4060

*20 мая 2026 · news.17173.com*

Lisuan Technology запускает предзаказ видеокарты LX 7G100 Founders Edition на JD.com с оплатой с 22 мая 2026 года. Карта основана на 6nm GPU с собственной архитектурой TrueGPU, собственным instruction set и software stack. Заявлены 12GB GDDR6, PCIe 4.0 x16, 192 texture units, 96 ROP и четыре DisplayPort 1.4a. Компания получила Microsoft WHQL certification, что должно означать официальную совместимость драйверов с Windows. В синтетике указаны 26800 баллов FireStrike и 2268 Steel Nomad, что сравнивается с RTX 4060 около 2302 в похожем тесте. В игре Black Myth: Wukong заявлены 70+ FPS при 1080p High. Статья не содержит данных по CUDA, ROCm, Vulkan compute, PyTorch, AI video inference или запуску моделей.

- LX 7G100 позиционируется как потребительская GPU уровня RTX 4060.
- У карты 12GB GDDR6, что потенциально интересно для локальных AI-задач, но compute-стек не раскрыт.
- WHQL важен для Windows-драйверов, но не доказывает пригодность для генеративных моделей.
- Все бенчмарки в статье относятся к играм и синтетике, не к AI video pipeline.
- Для проекта нет подтверждений работы Hunyuan, Wan, LTX-Video, AnimateDiff или PyTorch.

> 💡 **Действие:** Не добавляй 7G100 в целевой pipeline, пока нет независимых тестов PyTorch/Vulkan/ONNX и AI-video inference. Для текущего проекта продолжай ориентироваться на RTX 3060 6GB и Radeon 780M, а эту GPU оставить в watchlist только как потенциальную будущую альтернативу с 12GB VRAM.

Теги: `lisuan` `gpu` `whql` `rtx4060` `vram` `windows`

[Источник](https://news.17173.com/content/05202026/110808792.shtml)

---

### Lisuan 7G100 близка к RTX 3060, но не подходит для AI-видео

*21 мая 2026 · koc.com.tw*

Lisuan 7G100 представлена как первая китайская игровая видеокарта, которая реально запускает современные 3A-игры из коробки. Карта использует TSMC 6nm, архитектуру TrueGPU, 12GB GDDR6, PCIe 4.0 x16, TDP 225W и заявленные 24 TFLOPs FP32. Поддерживаются DirectX 12, Vulkan 1.3, OpenGL 4.6 и OpenCL 3.0, есть WHQL-драйвер для Windows, но аппаратного ray tracing нет. В игровых тестах 1080p она сильно уступает RTX 4060, Arc B580 и RX 6600 XT, а фактически оказывается ближе к RTX 3060. В Cyberpunk 2077 она показала 88 FPS против 232 FPS у RTX 4060, а в Black Myth: Wukong — 56 FPS против 115 FPS. Цена около 3299 юаней или 480 долларов делает карту невыгодной, особенно с учетом фризов и нестабильной плавности.

- 7G100 имеет 12GB GDDR6 и 24 TFLOPs FP32, но игровая производительность ниже ожиданий.
- Поддержка Vulkan 1.3 и OpenCL 3.0 есть, но CUDA/ROCm-экосистемы для AI-видео нет.
- По практической мощности карта ближе к RTX 3060, но стоит слишком дорого для такого уровня.
- Отсутствие ray tracing и проблемы с фризами показывают незрелость драйверов.

> 💡 **Действие:** Не менять RTX 3060 6GB на Lisuan 7G100: для pipeline youtube-shorts-director и youtube-music-video-director она не дает понятной AI-экосистемы, CUDA-совместимости или преимущества по цене. Можно использовать статью только как ориентир: Vulkan/OpenCL сами по себе не делают карту полезной для локального AI-видео без рабочих сборок ComfyUI/AnimateDiff/LTX/Wan.

Теги: `lisuan` `gpu` `vulkan` `opencl` `rtx3060` `ai-video`

[Источник](https://www.koc.com.tw/archives/643341)

---

### RTX 5090 для 4K path tracing не решает задачи текущего пайплайна

*18 мая 2026 · youtube.com*

Материал — короткий 6-секундный YouTube-бенчмарк про RTX 5090 в 4K gameplay-сценариях. В описании акцент на Blackwell, 32GB GDDR7, 21,760 CUDA cores, 1.8 TB/s bandwidth, DLSS 5 и Ray Reconstruction 2.0. Основной фокус — игры с path tracing вроде Cyberpunk 2077 и Alan Wake 2, а не генерация видео или локальные AI-video модели. Упоминается, что 32GB VRAM помогает стабильности кадра и снижает stuttering в тяжёлых RT-сценах. Для проекта с RTX 3060 6GB и Radeon 780M материал почти не даёт применимых данных: нет тестов video generation, LTX-Video, Wan, AnimateDiff-Lightning или RIFE. Полезность ограничена пониманием, что современные high-end GPU уходят в сторону большого VRAM и neural rendering, но это не ближайший рабочий путь для текущего железа.

- Фокус статьи — RTX 5090, 4K gaming и path tracing, а не AI-video production
- Ключевой технический тезис: 32GB VRAM и высокая bandwidth важны для тяжёлых визуальных задач
- Нет данных по запуску open-source video models на 6GB VRAM или Radeon 780M
- DLSS 5 и Ray Reconstruction 2.0 применимы к рендерингу игр, но не к текущей сборке Shorts/Music pipeline

> 💡 **Действие:** Не трать время на эту статью для автоматизации пайплайна. В дайджесте пометь как нерелевантную и продолжай искать практические тесты LTX-Video, AnimateDiff-Lightning, RIFE или Wan на RTX 3060 6GB.

Теги: `rtx5090` `benchmark` `path-tracing` `dlss5` `not-applicable`

[Источник](https://www.youtube.com/watch?v=rIE14linlqI)

---

### GPT-OSS 20B требует минимум около 10-14 ГБ VRAM

*20 мая 2026 · willitrunai.com*

Статья разбирает требования GPT-OSS 20B к видеопамяти для разных GPU и квантовок. Модель описана как 21B MoE с активацией 3.6B параметров на токен, поэтому вычислительно она быстрее обычной dense 20B-модели, но все веса всё равно должны помещаться в память. Для Q4_K_M указано около 12 ГБ весов и около 2 ГБ KV cache при 8K context, то есть примерно 14 ГБ VRAM. На RTX 4060 Ti 16GB модель должна работать комфортно в Q4_K_M, а на RTX 4070 12GB автор рекомендует IQ3_M из-за риска OOM. Для RTX 4090 24GB доступны Q4_K_M и Q6_K с большим запасом. При 128K context KV cache может добавить ещё 8-15 ГБ, поэтому длинные агентные сценарии резко повышают требования к памяти.

- Q4_K_M требует примерно 14 ГБ VRAM с коротким контекстом
- IQ3_M укладывается примерно в 9.5 ГБ и подходит для 12GB GPU
- MoE снижает compute cost, но не уменьшает объём весов в VRAM
- RTX 3060 6GB из проекта ниже минимального порога даже для IQ3_M
- Длинный context до 128K может добавить 8-15 ГБ KV cache

> 💡 **Действие:** Не пытайся закладывать GPT-OSS 20B как локальный мозг pipeline на RTX 3060 6GB: по данным статьи он не влезает даже в IQ3_M. Для автоматизации shorts/music-video оставь более лёгкую локальную LLM или запускай 20B только на облаке/другой машине с 12-16 ГБ VRAM.

Теги: `gpt-oss-20b` `vram` `quantization` `ollama` `llama.cpp`

[Источник](https://willitrunai.com/blog/gpt-oss-20b-vram-requirements)

---

### Wan 2.1/2.2: VRAM-профили для 1.3B, 5B и 14B

*20 мая 2026 · willitrunai.com*

Wan Video от Alibaba описан как open-source семейство видеомоделей с вариантами 1.3B, 5B TI2V и 14B. Wan 2.2 улучшает motion quality и temporal coherence относительно 2.1, но требования к VRAM остаются такими же. Для 14B главный расход VRAM дает T5-XXL text encoder на 9.4B параметров, поэтому ключевая оптимизация — CPU offload. Флагманский 14B в GGUF Q4 с CPU offload может опускаться до примерно 5-7 GB VRAM на 480p, но с запасом авторы все равно ориентируют на 12-16 GB GPU. Wan 2.2 TI2V-5B требует примерно 6-8 GB VRAM на 480p при FP8 + CPU offload, что близко к лимиту RTX 3060 6GB, но без запаса. Самый реалистичный вариант для 6 GB VRAM — Wan 2.1 T2V-1.3B в GGUF Q4, где заявлено около 4-6 GB VRAM при offload T5.

- Wan 2.2 дает лучшую связность движения, но не увеличивает VRAM относительно 2.1.
- T5 offload экономит около 9 GB VRAM ценой 10-20 секунд на старт генерации.
- Для 14B даже GGUF Q4 на 480p находится на границе 5-7 GB VRAM.
- Wan 2.1 T2V-1.3B GGUF Q4 выглядит минимально жизнеспособным для RTX 3060 6GB.
- Для CPU offload желательно 32 GB RAM; 24 GB указаны как минимум.

> 💡 **Действие:** Для проекта первым тестом поставь Wan 2.1 T2V-1.3B GGUF Q4 с T5 CPU offload на RTX 3060 6GB и ограничь генерацию 480p/короткими клипами. Wan 2.2 TI2V-5B пробуй только как image-to-video эксперимент из GPT Image 2 кадров, если ComfyUI-сборка реально держится в 6 GB с offload.

Теги: `wan-video` `vram` `gguf` `comfyui` `cpu-offload` `rtx3060`

[Источник](https://willitrunai.com/blog/wan-2-2-vram-requirements)

---

## Выпуск 17 мая 2026

### AnimateDiff в ComfyUI для локальной генерации коротких видео

*12 мая 2026 · opensourceaidirectory.com*

AnimateDiff добавляет motion modules к Stable Diffusion и позволяет собирать локальные text-to-video workflow в ComfyUI. Статья делает акцент на node-based подходе: все параметры видны, воспроизводимы и удобны для отладки. Для новичков предлагается ComfyUI Portable, установка AnimateDiff-Evolved через ComfyUI Manager и обязательный ComfyUI-VideoHelperSuite для работы с видео и кадрами. Рекомендуемый стартовый motion module — SD1.5 mm_sd_v15_v2.ckpt, а SDXL отмечен как более качественный, но заметно тяжелее по VRAM. Минимум по железу указан как 8GB VRAM «с трюками», комфортно — 12GB+, поэтому RTX 3060 6GB находится ниже заявленного минимума. CPU-only режим назван непрактичным для видео из-за скорости.

- ComfyUI + AnimateDiff дают локальный pipeline без подписок и облачных лимитов
- Для старта нужны AnimateDiff-Evolved и ComfyUI-VideoHelperSuite
- Motion modules кладутся в ComfyUI/models/animatediff/
- SD1.5 motion modules стабильнее и легче для первого теста
- Заявленный минимум 8GB VRAM, что выше RTX 3060 6GB проекта

> 💡 **Действие:** Добавь в backlog тест AnimateDiff-Evolved на RTX 3060 6GB только в SD1.5-режиме: ComfyUI Portable, mm_sd_v15_v2.ckpt, низкое разрешение и короткий batch на 8-16 кадров. Если не влезет в VRAM, использовать этот workflow как референс для облака/ZeroGPU, а локально оставить RIFE-слайдшоу.

Теги: `animatediff` `comfyui` `sd15` `video` `local-generation`

[Источник](https://opensourceaidirectory.com/how-to-set-up-animatediff-in-comfyui-for-beginners/)

---

### Wan 2.2 TI2V-5B: локальная установка через pip и flash_attn

*12 мая 2026 · qwe.edu.pl*

Гайд разбирает установку Wan 2.2 для локальной open-source video generation, но фокусируется не на крупных A14B-моделях, а на TI2V-5B. Wan 2.2 от Alibaba Tongyi Lab выпущен под Apache 2.0 и включает T2V-A14B, I2V-A14B и TI2V-5B. Для потребительского железа автор рекомендует именно TI2V-5B: dense 5B, text+image-to-video, VAE с компрессией 16×16×4, поддержка 720p 24fps. Даже TI2V-5B требует около 12 GB VRAM с offload-флагами и лучше чувствует себя на 24 GB RTX 4090/3090, поэтому RTX 3060 6GB напрямую не подходит. Установка рекомендуется через conda + pip, Python 3.10, CUDA 12.4, torch 2.5.1, а не через Poetry. Ключевой практический момент: сначала ставить PyTorch, затем requirements.txt без flash_attn, и только потом отдельно ставить flash_attn с --no-build-isolation.

- TI2V-5B — самый реалистичный вариант Wan 2.2 для локального запуска, но минимум всё равно около 12 GB VRAM.
- A14B-варианты требуют примерно 80 GB VRAM и не подходят для домашнего RTX 3060 6GB.
- Для установки лучше использовать pip, Python 3.10 и заранее поставить torch==2.5.1 под CUDA 12.4.
- flash_attn нужно ставить последним, иначе возможен ModuleNotFoundError из-за build isolation.
- Windows native автор советует избегать; предпочтительнее Linux или WSL2.

> 💡 **Действие:** Не трать время на прямой запуск Wan 2.2 TI2V-5B на RTX 3060 6GB как production-вариант: требования начинаются примерно с 12 GB VRAM. Сохрани установочный порядок pip/torch/flash_attn как чеклист для облачного теста или будущего апгрейда GPU, а для текущего pipeline оставь Wan 2.2 только как кандидат для free-tier/арендованного 24 GB GPU.

Теги: `Wan2.2` `TI2V-5B` `flash_attn` `CUDA` `local-video` `RTX4090`

[Источник](https://www.qwe.edu.pl/ai-tools/install-wan-2-2-open-source-video-generation/)

---

### VRAM-требования для LoRA-тренировки в 2026

*13 мая 2026 · vrlatech.com*

Статья разбирает требования к железу для обучения Stable Diffusion LoRA в 2026 году. Для SD 1.5 LoRA указан минимум 8 GB VRAM, для SDXL — около 10-12 GB минимум и 24 GB для комфортной работы. SD 3.5 и Flux требуют заметно больше: Flux.1 Dev/Schnell начинается примерно с 24 GB при quantization, а Flux.2 Dev — с 32 GB. Автор подчеркивает, что главный ограничитель — не размер итоговой LoRA, а память на base model, optimizer states, gradients и training data. Для обучения LoRA экосистема по-прежнему почти полностью NVIDIA/CUDA: Kohya-ss, bitsandbytes, Flash Attention и xFormers лучше поддержаны именно там. AMD ROCm в статье описан как более пригодный для inference, но не как зрелая платформа для LoRA training.

- RTX 3060 6GB ниже заявленного минимума даже для SD 1.5 LoRA training
- SDXL LoRA практически требует карту уровня 12-24 GB VRAM
- Flux LoRA нецелесообразен локально без 24-32 GB VRAM
- AMD Radeon 780M стоит рассматривать для batch/inference, а не для training
- Для проекта важнее готовые LoRA и inference-оптимизации, чем локальное обучение

> 💡 **Действие:** Не планируй локальное обучение LoRA на RTX 3060 6GB и Radeon 780M: используй готовые SDXL/SD 1.5 LoRA для кадров GPT Image/SD-пайплайна, а обучение выноси в free-tier cloud или аренду GPU. В автоматизации добавь проверку VRAM: если задача training, сразу маршрутизировать в облако, если inference/upscale/RIFE — пробовать локально.

Теги: `lora` `stable-diffusion` `sdxl` `flux` `cuda` `vram`

[Источник](https://vrlatech.com/stable-diffusion-lora-training-hardware-requirements/)

---

### Spheron как маркетплейс аренды enterprise GPU

*14 мая 2026 · spheron.network*

Spheron описывает себя как маркетплейс аренды NVIDIA GPU из Tier 2/3/4 дата-центров, а не как единый облачный провайдер. Платформа агрегирует H100, H200, B200, B300, A100, GH200, L40S, RTX PRO 6000, RTX 5090 и RTX 4090 с live pricing и поминутной оплатой. Пользователям обещают VM или bare metal, SSH root access, быстрый запуск инстансов и отсутствие vendor lock-in через единый аккаунт. Отдельно выделены on-demand, spot и reserved варианты аренды, включая скидки на spot для batch-задач и кластеры от 8 до 512+ GPU. Материал перечисляет страницы каталога и назначения разных GPU: H100/H200/B200 для крупных LLM, L40S и RTX 4090/5090 для inference, прототипирования и средних экспериментов. В предоставленном фрагменте нет практических бенчмарков video-моделей, ROCm/Vulkan, 6GB VRAM или Radeon 780M.

- Spheron — платный GPU rental marketplace с live pricing и per-minute billing.
- Доступны H100, H200, B200, A100, L40S, RTX 4090, RTX 5090 и другие NVIDIA GPU.
- Есть on-demand, spot и reserved режимы аренды под разные типы нагрузок.
- Фрагмент не дает данных по запуску open-source video-моделей на RTX 3060 6GB или Radeon 780M.
- Для текущей секции это скорее ориентир по облачным ценам, а не готовое решение pipeline.

> 💡 **Действие:** Не внедрять Spheron в основной pipeline, потому что секция ищет бесплатные или локальные варианты. Можно сохранить как платный fallback-бенчмарк для редких тестов тяжелых video-моделей, но приоритет оставить за RTX 3060 6GB, Radeon 780M, HF Spaces ZeroGPU, Colab и локальными LTX-Video/AnimateDiff-Lightning экспериментами.

Теги: `gpu-rental` `spheron` `h100` `h200` `cloud-gpu` `fallback`

[Источник](https://www.spheron.network/blog/gpu-requirements-cheat-sheet-2026/)

---

### SANA-WM: open-source world model для минутных 720p видео

*14 мая 2026 · papers.cool*

SANA-WM — open-source world model на 2.6B параметров для генерации минутных 720p видео с управлением камерой. Модель использует Hybrid Linear Attention: frame-wise Gated DeltaNet вместе с softmax attention для более экономной работы с длинным контекстом. Отдельный Dual-Branch Camera Control нужен для точного следования 6-DoF траекториям камеры. Pipeline двухстадийный: сначала базовая генерация, затем long-video refiner для повышения качества и консистентности. Обучение заняло 15 дней на 64 H100 и примерно 213K публичных видеоклипов с metric-scale pose supervision. Дистиллированная версия с NVFP4 заявлена для RTX 5090 и денойзит 60-секундный 720p клип за 34 секунды, поэтому для RTX 3060 6GB это пока не локальная практическая модель.

- 2.6B open-source world model для 60-секундных 720p видео
- Есть точный 6-DoF camera control через отдельную ветку управления
- Двухстадийная схема: stage-1 генерация плюс long-video refiner
- Дистиллированный вариант ориентирован на RTX 5090 с NVFP4, не на 6GB VRAM

> 💡 **Действие:** Не пытайся запускать SANA-WM на RTX 3060 6GB сейчас; добавь в backlog отслеживание weights/code/distilled quantization. Для youtube-shorts-director полезнее забрать идею: хранить camera trajectory как явный параметр story-frame pipeline и добавить отдельный refiner-pass после сборки slideshow+RIFE.

Теги: `SANA-WM` `world-model` `video-generation` `camera-control` `diffusion-transformer` `NVFP4`

[Источник](https://papers.cool/arxiv/2605.15178)

---

### SANA-WM генерирует минутные 720p world-video на одной GPU

*16 мая 2026 · thecosmicmeta.com*

NVIDIA SANA-WM описывается как open-source world model на 2.6B параметров для генерации длинных 720p-видео из одного изображения и заданной траектории камеры. В отличие от обычных text-to-video моделей, акцент сделан на управляемом 3D-мире, длинной последовательности до 60 секунд и контроле камеры. В статье утверждается, что модель работает почти в реальном времени на одной RTX 5090 благодаря hybrid attention и низкому потреблению памяти. Лицензия Apache 2.0 делает модель потенциально полезной для локальных production-пайплайнов, виртуального продакшена и симуляций. Для текущего проекта важна сама архитектурная идея: image + camera path вместо случайного короткого video prompt. Прямой запуск на RTX 3060 6GB из статьи не подтвержден, поэтому это скорее кандидат на отслеживание, а не немедленная замена текущего slideshow+RIFE пайплайна.

- SANA-WM: 2.6B open-source world model от NVIDIA под Apache 2.0.
- Вход: одно изображение и camera path; выход: до 60 секунд 720p-видео.
- Ключевой фокус: длинная когерентная сцена и точный контроль камеры.
- Заявленная производительность относится к RTX 5090, не к 6GB VRAM.
- Для AI Sci-Fi Shorts полезен подход story frame -> camera path -> video segment.

> 💡 **Действие:** Добавь SANA-WM в watchlist `youtube-shorts-director` как будущий backend для шага `story frame -> controlled camera video`, но не трать время на локальный запуск на RTX 3060 6GB без подтвержденных low-VRAM бенчмарков. Практически сейчас можно адаптировать промпты скилла: для каждого ключевого кадра сохранять отдельное поле `camera_path`, чтобы позже подставить его в SANA-WM или аналогичный world-model backend.

Теги: `SANA-WM` `NVIDIA` `world-model` `video-generation` `camera-control` `Apache-2.0`

[Источник](https://thecosmicmeta.com/nvidias-sana-wm-minute-scale-720p-video-ai-on-one-gpu/)

---

### LTX-Video как быстрый open-source кандидат для AI-видео

*10 мая 2026 · chatforest.com*

LTX-Video от Lightricks позиционируется как быстрый open-source text-to-video и image-to-video модельный стек, закрывающий промежуток между тяжелыми HunyuanVideo/Wan и устаревающим AnimateDiff. Главная архитектурная идея — video VAE с компрессией 1:192, из-за чего transformer работает с меньшим числом latent tokens и быстрее проходит diffusion-инференс. В статье сравнивается контекст: HunyuanVideo требует около 60+ GB VRAM, Wan 2.1 ближе к consumer-классу, но все еще требует около 16 GB, а AnimateDiff помещается в 6-8 GB, но ограничен 16-frame клипами на базе SD 1.5. LTX-Video v0.9-v0.9.8 описывается как 2B-parameter family, выпущенная под Apache 2.0 с весами на HuggingFace и inference-кодом на GitHub. Статья не содержит собственных hands-on тестов и опирается на публичные источники, поэтому реальные требования к RTX 3060 6GB нужно проверять отдельно. Для проекта важен не маркетинг LTX Studio, а сама архитектура: быстрая генерация коротких клипов может заменить часть slideshow+RIFE, если модель реально заведется в ограниченной VRAM.

- LTX-Video делает ставку на video VAE с компрессией 1:192 для снижения числа токенов.
- Модельная семья v0.9-v0.9.8 имеет около 2B параметров и открыта под Apache 2.0.
- В отличие от HunyuanVideo и Wan 2.1, цель LTX-Video — интерактивная скорость на более доступном железе.
- Статья не дает собственных бенчмарков и не подтверждает запуск на 6 GB VRAM.
- Потенциально полезно для коротких cinematic micro-lore клипов и I2V из GPT Image 2 кадров.

> 💡 **Действие:** Добавь LTX-Video v0.9.x в backlog тестов для RTX 3060 6GB: проверить I2V из 4-6 GPT Image 2 story frames с low VRAM настройками и сравнить результат против текущего slideshow+RIFE. Если не влезет в 6 GB, оставить как кандидат для HF Spaces/Colab, а локально использовать только RIFE/interpolation.

Теги: `ltx-video` `open-source` `text-to-video` `image-to-video` `vae` `rtx3060`

[Источник](https://chatforest.com/reviews/ltx-video-lightricks-fast-open-source-text-to-video-i2v-2b/)

---

### HunyuanVideo и 1.5: сильная open-source модель, но не для 6 GB VRAM

*10 мая 2026 · chatforest.com*

Tencent выпустила HunyuanVideo в декабре 2024 года как open-source видео-модель на 13B параметров с локально доступными весами. На старте модель заняла верхние позиции в VBench 1.0, быстро получила интеграции в ComfyUI, Diffusers и поддержку xDiT, а позже появились LoRA-пайплайны. В ноябре 2025 вышла HunyuanVideo-1.5: 8.3B параметров, SSTA architecture, 1080p super-resolution и генерация до 10 секунд при 24fps. Даже «потребительская» версия требует около 14 GB VRAM, а step-distilled вариант делает 480p I2V примерно за 75 секунд на RTX 4090, что всё равно выше возможностей RTX 3060 6GB. В экосистеме также появились I2V, HunyuanCustom для single-image video с synchronized audio/lip-sync, Avatar и Foley. Важный риск — лицензия Tencent Hunyuan Community License запрещает использование в EU, UK и South Korea, что может мешать публичному распространению пайплайнов и моделей.

- HunyuanVideo 13B был сильным open-source T2V релизом с быстрым ростом ComfyUI/Diffusers экосистемы.
- HunyuanVideo-1.5 стал легче на уровне параметров, но всё ещё требует около 14 GB VRAM.
- Для RTX 3060 6GB модель напрямую непрактична без агрессивного quantization/offload или облака.
- HunyuanCustom и Avatar важны для AI music video: single-image animation, audio sync и lip-sync.
- Лицензия исключает EU, UK и South Korea, это нужно учитывать при публикации workflow.

> 💡 **Действие:** Не пытайся встраивать HunyuanVideo-1.5 как локальный backend для RTX 3060 6GB: добавь его в backlog только как cloud/ZeroGPU/Colab-кандидат для I2V тестов. Для текущего pipeline оставь GPT Image 2 + RIFE, а из статьи забери идею отдельного этапа audio/lip-sync для Suno-клипов через HunyuanCustom/Avatar-аналоги.

Теги: `hunyuanvideo` `video-generation` `i2v` `lipsync` `comfyui` `vram`

[Источник](https://chatforest.com/reviews/hunyuanvideo-tencent-open-source-video-generation/)

---

## Выпуск 11 мая 2026

### Обзор семейства Tencent Hunyuan и open-weights релизов

*4 мая 2026 · nextomoro.com*

Hunyuan — семейство моделей Tencent, включающее текстовые LLM, а также отдельные линии для image, video и 3D. В статье перечислены Hunyuan-Large, Hunyuan-T1, Hunyuan 2.0 и Hy3 preview, но технических деталей по HunyuanVideo почти нет. Основной фокус — на текстовых моделях: Hunyuan-Large имеет 389B параметров, 52B active и контекст до 256K токенов. Hy3 preview вышла 23 апреля 2026 года как open-weights модель с 295B total и 21B active параметрами. Часть моделей доступна через Tencent Cloud API и Yuanbao, часть опубликована на Hugging Face. Для текущей задачи видео-генерации статья полезна только как навигация по экосистеме Tencent, а не как практическая инструкция для запуска на 6 GB VRAM.

- Hunyuan включает отдельные ветки для text, image, video и 3D.
- Hy3 preview — open-weights LLM, но не видео-модель.
- HunyuanVideo упомянута без требований к VRAM и workflow.
- Статья не даёт данных по quantization, ComfyUI или запуску на RTX 3060 6GB.

> 💡 **Действие:** Не тратить время на эту статью для production-pipeline. Отдельно искать именно HunyuanVideo inference/ComfyUI/low-VRAM гайды, потому что здесь нет практических данных для запуска видео на RTX 3060 6GB.

Теги: `hunyuan` `tencent` `open-weights` `llm` `hunyuanvideo`

[Источник](https://nextomoro.com/hunyuan/)

---

### Wan2.2: открытая видеомодель с MoE и 720p TI2V

*8 мая 2026 · github.com*

Wan2.2 — крупное обновление открытых video diffusion моделей Wan с акцентом на качество движения, киношную эстетику и эффективность. В модели используется MoE-архитектура, где разные expert-модели специализируются на этапах denoising, увеличивая общую ёмкость без пропорционального роста вычислений. Обучение расширено относительно Wan2.1: заявлено на 65.6% больше изображений и на 83.2% больше видео, что должно улучшать motion, semantics и aesthetics. Отдельно упомянут 5B Hybrid TI2V вариант с Wan2.2-VAE и компрессией 16×16×4, который поддерживает text-to-video и image-to-video в 720p 24fps. В статье прямо сказано, что 5B модель рассчитана на consumer-grade GPU вроде RTX 4090, но про 6 GB VRAM совместимость данных нет. Также упомянуты ветки Wan2.2-Animate-14B для анимации персонажей и Wan2.2-S2V-14B для audio-driven video generation.

- Wan2.2 добавляет MoE в video diffusion pipeline
- 5B Hybrid TI2V поддерживает T2V и I2V на 720p 24fps
- Wan2.2-VAE использует компрессию 16×16×4
- Заявлены улучшения motion, semantics и cinematic aesthetics
- Минимальные требования под RTX 3060 6GB в статье не указаны

> 💡 **Действие:** Не ставь Wan2.2 как основной локальный генератор на RTX 3060 6GB: статья указывает consumer GPU уровня 4090, а не 6 GB. Добавь в backlog проверку Wan2.2 5B через ComfyUI/Diffusers только при наличии quantization/offload-рецепта или бесплатного HuggingFace/ModelScope Space для теста I2V по кадрам из текущего пайплайна.

Теги: `Wan2.2` `video-generation` `TI2V` `MoE` `Diffusers` `ComfyUI`

[Источник](https://github.com/Hwijune/Wan2.2)

---

### Diffusers Text-to-Video с CPU offload и VAE slicing

*9 мая 2026 · huggingface.apachecn.org*

Материал описывает pipeline Text-to-Video в Hugging Face Diffusers на базе VideoFusion и модели damo-vilab/text-to-video-ms-1.7b. Подход VideoFusion разделяет шум на общий для всех кадров base noise и меняющийся во времени residual noise, чтобы лучше учитывать временную связность видео. В примере короткий ролик генерируется через DiffusionPipeline в fp16 на CUDA и сохраняется через export_to_video. Для снижения расхода памяти предлагаются enable_model_cpu_offload() и enable_vae_slicing(). С этими оптимизациями пример на 64 кадра заявлен как требующий около 7 GB GPU memory в PyTorch 2.0, что выше лимита RTX 3060 6GB. Также показана замена scheduler на DPMSolverMultistepScheduler и уменьшение num_inference_steps до 25 для ускорения генерации.

- Модель: damo-vilab/text-to-video-ms-1.7b в Diffusers fp16.
- Базовый пример генерирует 16 кадров, около 2 секунд при 8 fps.
- CPU offload и VAE slicing снижают потребление VRAM.
- 64 кадра требуют около 7 GB VRAM, что рискованно для RTX 3060 6GB.
- DPMSolverMultistepScheduler можно использовать для ускорения inference.

> 💡 **Действие:** Добавь в локальный тестовый скрипт Diffusers вариант с damo-vilab/text-to-video-ms-1.7b, enable_model_cpu_offload(), enable_vae_slicing() и DPMSolverMultistepScheduler на 16 кадрах. Не планируй 64 кадра на RTX 3060 6GB без дополнительных оптимизаций, потому что заявленное потребление около 7 GB.

Теги: `diffusers` `text-to-video` `videofusion` `cpu-offload` `vae-slicing` `fp16`

[Источник](https://huggingface.apachecn.org/docs/diffusers/api/pipelines/text_to_video)

---

### Text2Video-Zero в Diffusers для лёгкой генерации коротких видео

*9 мая 2026 · huggingface.apachecn.org*

Text2Video-Zero превращает обычные text-to-image модели вроде Stable Diffusion v1.5 в zero-shot text-to-video генератор без дообучения на видео-датасетах. Метод добавляет motion dynamics в latent-коды кадров и использует cross-frame attention, где кадры опираются на первый кадр для сохранения сцены, внешности и идентичности объекта. Pipeline поддерживает генерацию по текстовому prompt, управление через poses или edges, а также Video Instruct-Pix2Pix для instruction-guided video editing. В примере используется Diffusers `TextToVideoZeroPipeline` с `runwayml/stable-diffusion-v1-5`, `torch.float16` и CUDA. По умолчанию генерируется короткий клип на 8 кадров, параметры движения задаются через `motion_field_strength_x/y`, а временное окно через `t0` и `t1`. Для более длинных роликов предлагается chunk-by-chunk генерация с повторным использованием первого кадра и фиксированным seed для временной согласованности.

- Работает поверх Stable Diffusion v1.5 без обучения отдельной video-модели.
- Cross-frame attention помогает сохранять фон, объект и общий контекст между кадрами.
- Базовый пример генерирует 8 кадров и сохраняет MP4 через `imageio` с `fps=4`.
- Длинные видео можно собирать чанками, повторяя первый кадр как reference.
- Поддерживаются text-to-video, pose/edge guidance и Video Instruct-Pix2Pix.

> 💡 **Действие:** Добавь Text2Video-Zero как fallback-режим для RTX 3060 6GB: генерируй 8-кадровые micro-shots из уже готовых prompt'ов, затем растягивай их через RIFE/интерполяцию. Для Sci-Fi роликов используй chunk_size 4 и фиксированный seed, чтобы проверить, можно ли заменить часть ручного слайдшоу на короткие движения без платных сервисов.

Теги: `Text2Video-Zero` `diffusers` `Stable-Diffusion` `CUDA` `video-generation`

[Источник](https://huggingface.apachecn.org/docs/diffusers/api/pipelines/text_to_video_zero)

---

### LongCat-Video: open-source модель для длинных AI-видео

*8 мая 2026 · softtechhub.us*

Meituan выпустила LongCat-Video, open-source модель генерации видео с 13.6B параметров. Главная заявка модели — генерация длинных роликов до примерно 4 минут в 720p и 30 fps, а не коротких клипов на 5-10 секунд. Архитектура обучалась под Video Continuation, чтобы продлевать видео без сильного дрейфа цвета, мерцания и деградации качества. В статье упомянуты режимы Text-to-Video, Image-to-Video, Video Continuation, Interactive Video Generation и LongCat-Video-Avatar. Под капотом заявлены coarse-to-fine generation, block sparse attention и multi-reward RLHF. Важный практический плюс — MIT license, то есть модель можно использовать и модифицировать без подписки и водяных знаков. Данных о реальных требованиях к VRAM в предоставленном фрагменте нет, поэтому применимость к RTX 3060 6GB пока не подтверждена.

- LongCat-Video ориентирована на длинные ролики до 4 минут, а не на короткие 5-10 секундные клипы.
- Модель имеет 13.6B параметров, поэтому запуск на 6 ГБ VRAM под вопросом без квантизации или offload.
- MIT license делает её потенциально пригодной для собственного YouTube pipeline без платных сервисов.
- Video Continuation может быть полезен для продления уже собранных sci-fi сцен.
- В статье нет конкретных данных по скорости, VRAM и установке в доступном фрагменте.

> 💡 **Действие:** Не пытайся сразу ставить LongCat-Video как основной генератор на RTX 3060 6GB: сначала проверь GitHub на наличие low-VRAM режима, quantization/FP8/offload и ComfyUI nodes. Если появится рабочий 6GB-профиль, протестируй её именно для Video Continuation: продлевать ключевые sci-fi кадры из текущего pipeline вместо ручной склейки слайдшоу.

Теги: `LongCat-Video` `open-source` `video-generation` `MIT` `video-continuation` `low-vram`

[Источник](https://softtechhub.us/2026/05/08/this-open-source-ai-video-model/)

---

### Sulphur-2-Base: локальная video-модель на базе LTX 2.3

*8 мая 2026 · medium.com*

Sulphur-2-Base описывается как open-source модель для text-to-video и image-to-video генерации, доступная через Hugging Face. Модель построена поверх экосистемы LTX, предположительно как сильно дообученная версия LTX 2.3, с фокусом на реалистичное движение и кинематографичность. Поддерживаются локальный inference, ComfyUI workflows и LoRA-интеграции, что делает её интересной для кастомных production-pipeline. Автор подчёркивает отличие от коммерческих сервисов: приватная генерация, меньше ограничений, больше контроля над пайплайном. По отзывам сообщества, Sulphur-2-Base должна лучше справляться с jitter, continuity, движением камеры и анимацией людей. В статье заявлено, что модель ориентирована не на новичков, а на опытных пользователей ComfyUI и AI-video workflow. Точные требования к железу в предоставленном фрагменте не раскрыты.

- 9B text-to-video и image-to-video модель на базе LTX ecosystem
- Есть локальный inference, ComfyUI workflows и LoRA compatibility
- Главный заявленный плюс — более плавное и реалистичное движение
- Модель рассчитана на power users, а не на one-click использование
- Информации о запуске на 6GB VRAM в фрагменте статьи нет

> 💡 **Действие:** Добавь Sulphur-2-Base в список моделей для теста в ComfyUI, но сначала проверь наличие quantized/low-VRAM workflow под LTX 2.3. На RTX 3060 6GB пробуй только короткие I2V-клипы с aggressive offload/unload, потому что 9B base-модель без оптимизаций, скорее всего, не влезет.

Теги: `Sulphur-2-Base` `LTX` `ComfyUI` `I2V` `T2V` `LoRA`

[Источник](https://medium.com/data-science-in-your-pocket/sulphur-2-base-uncensored-free-ai-video-generation-model-e6a75764a351)

---

### Wan AI как open-source база для локальной video generation

*9 мая 2026 · itirupati.com*

Wan AI описан как open-source модель для text-to-video и image-to-video генерации с коммерчески дружественной лицензией. Модель можно запускать локально, размещать в облаке или интегрировать в собственные продукты без оплаты за каждую генерацию через закрытый API. В статье акцент на том, что Wan AI подходит техническим авторам и разработчикам, которым нужен контроль над пайплайном, возможность fine-tuning и отсутствие lock-in у сервисов вроде Runway или Pika. Для запуска упоминаются ComfyUI, dedicated inference servers, Hugging Face, Replicate и fal.ai. Статья не даёт конкретных требований по VRAM, скоростям, квантизации или настройкам для слабых GPU. Для текущего проекта это полезно как сигнал, что Wan стоит держать в списке основных open-source кандидатов, но не как готовое решение под RTX 3060 6GB.

- Wan AI поддерживает text-to-video и image-to-video генерацию
- Модель можно запускать локально или через cloud providers
- Open-weight подход позволяет fine-tuning под свой визуальный стиль
- Статья не подтверждает работоспособность на 6 GB VRAM
- Упомянуты ComfyUI, Hugging Face, Replicate и fal.ai

> 💡 **Действие:** Добавь Wan AI в backlog тестов, но проверяй только облегчённые ComfyUI workflow с low-VRAM/quantized настройками. На RTX 3060 6GB не трать время на полный запуск без явного гайда по VRAM, сначала ищи Wan workflow с image-to-video короткими клипами и агрессивным offload.

Теги: `wan-ai` `open-source-video` `comfyui` `image-to-video` `low-vram`

[Источник](https://itirupati.com/wan-ai/)

---

### Wan 2.2 локально требует больше VRAM, чем есть в проекте

*5 мая 2026 · opensourceaidirectory.com*

Wan 2.2 позиционируется как сильная open-source модель для text-to-video и image-to-video генерации без подписок и очередей. В статье подчёркиваются преимущества локального запуска: приватность промптов и референсов, предсказуемая скорость и возможность встроить модель в собственный pipeline. Модель доступна в вариантах 5B и 14B, использует Mixture of Experts и обещает лучшее движение, prompt adherence и стабильность персонажей по сравнению с предыдущей версией. Для комфортной работы автор рекомендует ComfyUI, свежие NVIDIA drivers, CUDA 12.4+, Python 3.10/3.11 и SSD с 50-100GB свободного места. Ключевой риск для проекта: минимально заявлено 8GB VRAM даже для 5B или сильно quantized 14B, а целевая RTX 3060 имеет только 6GB. Поэтому Wan 2.2 выглядит перспективно, но не как готовая основная модель для текущего железа без агрессивной квантизации и снижения разрешения.

- Wan 2.2 поддерживает text-to-video и image-to-video
- Есть 5B и 14B варианты, 14B требует намного больше VRAM
- Минимальный порог статьи — 8GB VRAM, лучше 16GB+
- ComfyUI указан как основной путь для локальной установки
- Для проекта с RTX 3060 6GB запуск будет пограничным

> 💡 **Действие:** Не переводить основной pipeline на Wan 2.2 сейчас: сначала проверить наличие 5B/quantized ComfyUI workflow под 6GB VRAM и протестировать короткие 480p clips. Если модель уходит в OOM, оставить Wan 2.2 в backlog и сфокусироваться на AnimateDiff-Lightning/LTX-Video/Wan distill вариантах, где явно подтверждён запуск на 6GB.

Теги: `Wan-2.2` `ComfyUI` `text-to-video` `image-to-video` `VRAM` `quantization`

[Источник](https://opensourceaidirectory.com/how-to-use-wan-2-2-locally-complete-step-by-step-guide-for-creators/)

---

## Выпуск 10 мая 2026

### Tencent Hunyuan: семейство LLM, image, video и 3D-моделей

*4 мая 2026 · nextomoro.com*

Hunyuan — семейство моделей Tencent, включающее текстовые LLM, image generation, HunyuanVideo и Hunyuan3D. В статье основной фокус на текстовой линейке: Hunyuan-Large, Hunyuan-T1, Hunyuan 2.0 и Hy3 preview. Hy3 preview вышла 23 апреля 2026 года как open-weights модель на 295B параметров total и 21B active. Часть моделей доступна через Hugging Face, часть только через Tencent Cloud API и Yuanbao. Для локального self-hosting упомянуты Hunyuan-Large, Hunyuan-A13B и Hy3 preview, но статья не даёт практических требований к VRAM. Про HunyuanVideo сказано только как про отдельную video-линейку без деталей запуска, квантизации или consumer GPU.

- Hunyuan — не одна модель, а семейство для text, image, video и 3D.
- Hy3 preview — open-weights релиз апреля 2026 года с 256K context.
- Hunyuan-Large имеет 389B total и 52B active параметров.
- HunyuanVideo упомянута, но без технических данных по локальному запуску.
- Статья полезна как справка по экосистеме Tencent, но не как гайд по video generation.

> 💡 **Действие:** Не тратить время на внедрение по этой статье: она не отвечает на главный вопрос про запуск HunyuanVideo на RTX 3060 6GB. Добавь HunyuanVideo в список для отдельной проверки, но искать нужно конкретно VRAM-требования, ComfyUI workflow, quant/FP8/GGUF и примеры запуска на 6 GB.

Теги: `hunyuan` `tencent` `hunyuanvideo` `open-weights` `llm`

[Источник](https://nextomoro.com/hunyuan/)

---

### Wan и HunyuanVideo как локальные I2V-варианты без платных сервисов

*8 мая 2026 · crepal.ai*

Материал разбирает бесплатные и open-source варианты image-to-video, делая акцент на локальном запуске вместо Runway, Pika и Kling с серверными фильтрами. Главный кандидат — Wan: Wan 2.1 1.3B требует около 8.19 GB VRAM, а Wan 2.2 использует MoE-архитектуру с 27B параметрами и 14B активными на генерацию. Для качества автор выделяет Wan 2.2, но реальные скорости всё ещё ограничены: 14B на RTX 4090 даёт примерно 5 секунд 480P за 4 минуты. Для ComfyUI упоминаются Wan 2.2 Remix и Lightning LoRAs, которые ускоряют рендер ценой небольшого падения качества. Второй вариант — HunyuanVideo 1.5 на 8.3B параметров, но минимум 14 GB VRAM делает его тяжёлым для RTX 3060 6GB. GGUF-квантизация для HunyuanVideo может снизить требования до 8-12 GB VRAM, но это всё равно выше целевого GPU проекта.

- Wan 2.1 1.3B близок к consumer GPU, но 8.19 GB VRAM выше лимита RTX 3060 6GB.
- Wan 2.2 даёт лучшее движение и физику, но требует серьёзной оптимизации или облака.
- Lightning LoRAs для Wan могут быть полезны для быстрых тестовых прогонов в ComfyUI.
- HunyuanVideo 1.5 легче старого HunyuanVideo, но всё ещё не подходит напрямую под 6 GB VRAM.
- Open-source видео пока сильнее в коротких клипах до 5 секунд, чем в сложной длинной динамике.

> 💡 **Действие:** Для проекта попробуй не HunyuanVideo, а Wan 2.1 1.3B или Wan 2.2 Remix в ComfyUI с агрессивной экономией VRAM: low resolution, короткие 3-5 сек сцены, Lightning LoRA и offload/unload между нодами. Если RTX 3060 6GB не тянет даже Wan 1.3B, используй эту связку как кандидат для Hugging Face Spaces/Colab, а локально оставь интерполяцию и сборку.

Теги: `wan` `hunyuanvideo` `comfyui` `i2v` `gguf` `lightning-lora`

[Источник](https://crepal.ai/blog/aivideo/aivideo-free-nsfw-image-to-video-ai/)

---

### Wan2.2: открытая видеомодель с MoE и 720P TI2V

*8 мая 2026 · github.com*

Wan2.2 — крупное обновление открытой линейки Wan для генерации видео, включая text-to-video и image-to-video. В модели используется Mixture-of-Experts для разделения этапов denoising между специализированными экспертами без роста вычислительной стоимости. Авторы делают упор на cinematic aesthetics: данные размечены по свету, композиции, контрасту и цветовой тональности. По сравнению с Wan2.1 обучение расширено на 65.6% больше изображений и 83.2% больше видео, что должно улучшать движение, семантику и стиль. Упомянут 5B hybrid TI2V-вариант с Wan2.2-VAE, компрессией 16×16×4, 720P при 24fps и запуском на consumer-grade GPU уровня RTX 4090. Также в экосистеме есть Wan2.2-Animate-14B и Wan2.2-S2V-14B, но они явно тяжелее для локального железа проекта.

- Wan2.2 добавляет MoE-архитектуру в video diffusion.
- 5B TI2V-модель поддерживает text-to-video и image-to-video в 720P@24fps.
- Заявлен запуск на consumer GPU, но примером указан RTX 4090, не 6 ГБ VRAM.
- Wan2.2-Animate-14B интегрирован в Diffusers и доступен через HF/ModelScope.
- Apache-2.0 делает репозиторий пригодным для локальных экспериментов и форков.

> 💡 **Действие:** Не пытайся запускать Wan2.2 5B/14B напрямую на RTX 3060 6GB как основной pipeline. Добавь Wan2.2 в backlog для облачного/free-tier теста через Hugging Face Space или ModelScope, а локально ищи quantized/ComfyUI-сборки с offload и low-VRAM режимом.

Теги: `Wan2.2` `video-generation` `TI2V` `MoE` `Diffusers` `low-vram`

[Источник](https://github.com/Hwijune/Wan2.2)

---

### Diffusers Text-to-Video с CPU offload и VAE slicing

*9 мая 2026 · huggingface.apachecn.org*

Документация описывает pipeline Text-to-Video в Hugging Face Diffusers на базе VideoFusion и модели damo-vilab/text-to-video-ms-1.7b. Пример генерирует короткий ролик на 16 кадров через DiffusionPipeline в fp16 и экспортирует результат через export_to_video. Для более длинного видео на 64 кадра предлагаются enable_model_cpu_offload и enable_vae_slicing, чтобы снизить потребление VRAM. В статье указано, что 64 кадра при PyTorch 2.0, fp16 и этих оптимизациях требуют около 7 GB GPU memory. Также показана замена scheduler на DPMSolverMultistepScheduler и запуск с num_inference_steps=25. Для проекта это пограничный вариант: 7 GB выше лимита RTX 3060 6GB, но 16-32 кадра с offload могут быть тестируемы.

- Модель: damo-vilab/text-to-video-ms-1.7b через Diffusers
- Оптимизации: enable_model_cpu_offload и enable_vae_slicing
- 64 кадра требуют около 7 GB VRAM даже в fp16
- DPMSolverMultistepScheduler позволяет сократить шаги до 25
- Pipeline помечен как research purposes only

> 💡 **Действие:** Попробуй добавить в локальный тестовый скрипт Diffusers запуск damo-vilab/text-to-video-ms-1.7b только на 16-32 кадра с enable_model_cpu_offload, enable_vae_slicing и DPMSolverMultistepScheduler. Для 64 кадров на RTX 3060 6GB не планируй production, потому что заявленное потребление около 7 GB.

Теги: `diffusers` `text-to-video` `VideoFusion` `cpu-offload` `vae-slicing` `fp16`

[Источник](https://huggingface.apachecn.org/docs/diffusers/api/pipelines/text_to_video)

---

### Text2Video-Zero как лёгкий zero-shot video pipeline на Stable Diffusion

*9 мая 2026 · huggingface.apachecn.org*

Text2Video-Zero позволяет генерировать короткое видео без обучения новых video-моделей, используя обычные text-to-image модели вроде Stable Diffusion v1.5. Подход добавляет motion dynamics в latent-коды кадров и использует cross-frame attention к первому кадру, чтобы лучше сохранять фон, объект и внешний вид между кадрами. Pipeline в diffusers поддерживает text-to-video, генерацию с подсказками по pose/edges и Video Instruct-Pix2Pix для instruction-guided video editing. В примере используется TextToVideoZeroPipeline с runwayml/stable-diffusion-v1-5, torch.float16 и CUDA. По умолчанию генерируется 8 кадров, есть параметры motion_field_strength_x/y, t0/t1 и video_length. Для более длинных роликов предлагается chunk-by-chunk генерация с повторным использованием первого кадра и фиксированного seed для временной согласованности.

- Работает поверх Stable Diffusion v1.5 без обучения на video dataset
- Генерация короткая: default video_length = 8 кадров и fps = 4 в примере
- Cross-frame attention использует первый кадр для сохранения идентичности объекта
- Есть chunk-by-chunk режим для более длинного видео с меньшей нагрузкой
- Поддерживаются pose/edges guidance и Video Instruct-Pix2Pix

> 💡 **Действие:** Добавь TextToVideoZeroPipeline как fallback-режим для RTX 3060 6GB: генерируй 8-кадровые micro-shots из уже готовых промптов gpt-image-film-director, затем склеивай и интерполируй. Сначала протестируй SD 1.5 в fp16 с chunk_size=4, потому что это ближе к текущему железу, чем тяжёлые Hunyuan/Wan-пайплайны.

Теги: `text2video-zero` `diffusers` `stable-diffusion` `fp16` `low-vram` `video-editing`

[Источник](https://huggingface.apachecn.org/docs/diffusers/api/pipelines/text_to_video_zero)

---

### LongCat-Video обещает локальную генерацию видео до 4 минут

*8 мая 2026 · softtechhub.us*

Meituan выпустила open-source модель LongCat-Video для локальной генерации длинных видео. Модель имеет 13.6B параметров и заявлена как система для роликов до примерно 4 минут в 720p при 30 fps. В статье подчёркивается, что LongCat-Video обучалась на Video Continuation, чтобы лучше удерживать цвет, стиль и качество во времени. Поддерживаются text-to-video, image-to-video, продолжение видео, interactive video generation и LongCat-Video-Avatar. Среди технических идей упомянуты coarse-to-fine generation, block sparse attention и multi-reward RLHF. Важный плюс для независимого YouTube-пайплайна — MIT license, без подписок, watermark и облачной обработки. В предоставленном фрагменте нет конкретных требований к VRAM, поэтому пригодность для RTX 3060 6GB пока не подтверждена.

- LongCat-Video ориентирована на long-form video, а не только 5-10 секундные клипы
- Заявлены ролики до 4 минут в 720p и 30 fps
- Модель открыта под MIT license, можно использовать и модифицировать коммерчески
- Есть режимы text-to-video, image-to-video и video continuation
- Требования к железу в фрагменте статьи не раскрыты

> 💡 **Действие:** Добавь LongCat-Video в список кандидатов для теста, но сначала проверь GitHub на VRAM requirements и наличие quant/low-VRAM режима. Для RTX 3060 6GB пробовать только если есть offload, FP8/quant или ComfyUI workflow с unload/reload; иначе рассматривать как cloud/мини-батч исследование, а не рабочую замену текущему пайплайну.

Теги: `LongCat-Video` `open-source` `video-generation` `MIT` `long-form` `local-ai`

[Источник](https://softtechhub.us/2026/05/08/this-open-source-ai-video-model/)

---

### Sulphur 2 Base: локальная T2V/I2V модель на базе LTX

*8 мая 2026 · medium.com*

Sulphur 2 Base — open-source модель видео-генерации на Hugging Face для Text-to-Video и Image-to-Video. В статье указано, что модель имеет 9B параметров и основана на сильно дообученной экосистеме LTX 2.3. Основной фокус — локальный запуск, ComfyUI workflows, LoRA-интеграции и более свободная настройка без ограничений коммерческих облачных сервисов. Автор выделяет улучшенное качество движения: меньше jitter, лучше непрерывность кадров, более реалистичная анимация и кинематографичное движение камеры. Модель явно ориентирована не на новичков, а на advanced ComfyUI users, исследователей и авторов кастомных workflow. В статье упоминаются workflow templates, custom nodes, optimization experiments и quantized variants, но конкретные требования к VRAM в предоставленном фрагменте не раскрыты.

- Sulphur 2 Base поддерживает T2V и I2V для локальной видео-генерации.
- Модель заявлена как 9B и построена поверх LTX 2.3 ecosystem.
- Есть поддержка ComfyUI workflows и LoRA integrations.
- Главное обещание — более плавное и реалистичное движение.
- Точных требований к VRAM в доступном тексте нет.

> 💡 **Действие:** Не заменяй текущий pipeline сразу: 9B модель почти наверняка тяжёлая для RTX 3060 6GB без quantized/low-vram workflow. Добавь Sulphur-2-base в backlog и протестируй только I2V через ComfyUI quantized variant на коротком 2-4 сек клипе; если будет OOM, использовать как референс и ждать GGUF/FP8/low-vram сборку.

Теги: `Sulphur-2-base` `LTX` `ComfyUI` `I2V` `T2V` `low-vram`

[Источник](https://medium.com/data-science-in-your-pocket/sulphur-2-base-uncensored-free-ai-video-generation-model-e6a75764a351)

---

### Wan 2.2 локально для text-to-video и image-to-video

*5 мая 2026 · opensourceaidirectory.com*

Wan 2.2 представлен как сильная open-source модель для локальной генерации видео без подписок и очередей. Модель поддерживает text-to-video и image-to-video, а также интеграцию в кастомные пайплайны с ComfyUI, ControlNet и LoRA. В статье отмечены улучшения относительно предыдущей версии: более плавное движение, лучшее следование prompt, стабильность персонажей между кадрами и физика движения. Wan 2.2 использует MoE-архитектуру и доступен в вариантах 5B и 14B параметров. Для минимального запуска указан 8GB VRAM для 5B или сильно квантизованного 14B, комфортный режим требует 16GB+ VRAM, а идеальный — 24GB+. Также нужны 32-64GB RAM, NVMe SSD и 50-100GB свободного места под модели, VAE, text encoders и результаты.

- Wan 2.2 ориентирован на локальный text-to-video и image-to-video без облачных лимитов.
- Минимальный порог в статье — 8GB VRAM, что выше RTX 3060 6GB в проекте.
- 5B вариант выглядит единственным реалистичным кандидатом для экспериментов на слабом железе.
- ComfyUI упомянут как основной путь установки и интеграции в production pipeline.
- Для 14B нужны FP8/квантизация и более мощная GPU, иначе запуск будет непрактичным.

> 💡 **Действие:** Не ставь Wan 2.2 как основной генератор на RTX 3060 6GB: сначала проверь наличие ComfyUI-сборки 5B с квантизацией/offload и попробуй короткий image-to-video тест на низком разрешении. Если модель не укладывается в VRAM, оставить Wan 2.2 в списке облачных/будущих кандидатов, а локально продолжать искать более лёгкие AnimateDiff-Lightning/LTX-Video/Wan GGUF варианты.

Теги: `wan-2.2` `text-to-video` `image-to-video` `comfyui` `quantization` `local-video`

[Источник](https://opensourceaidirectory.com/how-to-use-wan-2-2-locally-complete-step-by-step-guide-for-creators/)

---

### Gemma 4 31B требует 24GB+ VRAM для локального inference

*3 мая 2026 · gemma4.wiki*

Материал сравнивает Gemma 4 31B на RTX 3090, 4090 и 5090 для локального inference. Главный вывод: для dense 31B VRAM является жёстким ограничением, а скорость генерации уже определяет комфорт работы. В тестах RTX 3090 даёт около 35.7 tok/s, RTX 4090 — 42.3 tok/s, RTX 5090 — 64.8 tok/s. Для MoE-like варианта Gemma 4 26B-A4B скорости сильно выше: примерно 120, 147 и 182 tok/s соответственно. Автор подчёркивает, что короткие промпты плохо отражают реальную производительность, потому что скрывают проблемы prompt processing. Для сценариев длинного текста, JSON и сценариев разница между GPU становится заметной со временем.

- Gemma 4 31B практически ориентирована на GPU с 24GB+ VRAM.
- RTX 3060 6GB не подходит для комфортного запуска dense 31B.
- MoE-like модели дают заметно лучшую скорость при меньшей активной нагрузке.
- Для длинных сценариев важны и prompt processing, и tok/s генерации.

> 💡 **Действие:** Не пытайся строить YouTube pipeline на Gemma 4 31B для RTX 3060 6GB. Для локальной генерации сценариев и JSON-планов проверь меньшие quantized MoE/7B-14B модели, а 31B оставь только как ориентир для будущего апгрейда GPU до 24GB+ VRAM.

Теги: `gemma4` `local-llm` `gpu` `vram` `moe` `inference`

[Источник](https://www.gemma4.wiki/requirements/Gemma-4-31B-GPU)

---

### Сравнение AI video моделей 2026 для production-пайплайна

*5 мая 2026 · resource.digen.ai*

Материал сравнивает актуальные AI video generation модели 2026 года по качеству, управляемости, стабильности движения, цене и API-интеграции. Runway Gen-4 назван лучшим вариантом для cinematic realism и точного контроля движения. Seedance 2.0 выделяется как вариант для разработчиков благодаря стабильному API и интеграции в автоматизированные workflow. Luma AI и Pollo AI подаются как более выгодные по цене инструменты для social media контента. В статье подчёркивается сдвиг от простого text-to-video к director-level controls: camera paths, lighting adjustments, prompt adherence и temporal consistency. Для оценки моделей предлагается прогонять одинаковые stress-test prompts и отдельно проверять клипы длиннее 10 секунд на flickering и сохранение внешности персонажа.

- Runway Gen-4 сильнее подходит для киношного контроля и визуального качества.
- Seedance 2.0 интересен для автоматизации через API и SDK.
- Luma AI и Pollo AI могут быть дешевле для коротких роликов и превью.
- Ключевые метрики сравнения: prompt adherence, temporal consistency, cost per second.
- Рынок смещается к управляемым сценам с камерой, светом и physics-based rendering.

> 💡 **Действие:** Собери локальный benchmark-набор из 5 sci-fi prompts и прогоняй их через доступные облачные модели как эталон качества, а локальный RTX 3060 pipeline сравнивай по тем же метрикам: стабильность персонажа, flickering, длина клипа и стоимость. Seedance 2.0 стоит отдельно проверить как внешний API-этап для автоматической сборки сцен, если локальная генерация на 6GB VRAM не даст приемлемую temporal consistency.

Теги: `video-generation` `runway` `seedance` `luma-ai` `benchmark` `automation`

[Источник](https://resource.digen.ai/ai-video-generation-model-comparison-2026/)

---

### Рейтинг GPU по цене для AI inference и локальных задач

*4 мая 2026 · gpupoet.com*

В майском рейтинге GPU Poet сравниваются видеокарты по цене и производительности для gaming, AI inference и LLM training. Для AI inference автор выделяет INT8 как основной режим локального обслуживания LLM через llama.cpp и vLLM. Лучшие показатели $/INT8 TOPS у Intel Arc B580 и B570, но их минус — менее зрелая экосистема OneAPI/IPEX-LLM по сравнению с CUDA. Среди NVIDIA самым понятным вариантом назван RTX 3080: 10GB VRAM, 238 INT8 TOPS и более предсказуемый CUDA-путь. Для большего запаса VRAM автор отмечает RTX 4070 Ti с 12GB как чистый вариант для inference. Для training и fine-tuning подчёркивается, что 16GB VRAM — практический минимум, а старые дешёвые карты вроде Tesla P100 имеют ограничения по современным фреймворкам.

- Для AI-задач важнее VRAM и поддержка CUDA, чем чистая цена за FPS
- Intel Arc выглядит выгодно по INT8 TOPS, но рискованнее из-за софта
- RTX 3080 10GB — более надёжный бюджетный CUDA-вариант
- RTX 4070 Ti 12GB даёт больше запаса для локального inference
- Для обучения и fine-tuning 16GB VRAM фактически нижняя граница

> 💡 **Действие:** Для проекта не менять RTX 3060 6GB на Intel Arc ради цены: pipeline локального video/LLM лучше держать на CUDA. Если планировать апгрейд под генерацию видео, смотреть минимум на NVIDIA 10-12GB VRAM, практичнее RTX 3080 10GB или RTX 4070 Ti 12GB, а Radeon 780M оставить для ночных batch-задач без GPU-зависимого inference.

Теги: `gpu` `cuda` `inference` `rtx3080` `rtx4070ti` `vram`

[Источник](https://gpupoet.com/gpu/market-report/gpu-market-report-may-2026)

---

### Локальные LLM для RTX 3060: упор на 8B Q4/Q5

*8 мая 2026 · knightli.com*

Статья рекомендует подбирать локальные LLM под реальный лимит VRAM, а не только под размер файла модели. Для RTX 3060 12GB оптимальным классом названы 7B/8B/9B модели в GGUF-квантизации Q4_K_M или Q5_K_M. Q4_K_M предлагается как более стабильный вариант, Q5_K_M — как вариант с лучшим качеством при большей нагрузке на VRAM. Среди базовых моделей названы Qwen3 8B, Llama 3.1 8B Instruct, Gemma 3 12B и DeepSeek R1 Distill Qwen 8B. Gemma 3 12B описана как верхняя практическая граница для 12GB VRAM, с рекомендацией держать небольшой context. Для 30B и 70B моделей статья советует не делать их ежедневной основой из-за низкой скорости и CPU offload.

- Для RTX 3060 12GB лучший баланс дают 7B-9B модели в Q4_K_M/Q5_K_M.
- VRAM тратится не только на модель, но и на context, KV cache, batch size и runtime.
- Qwen3 8B подходит для суммаризации, переписывания, RAG и легких agent flows.
- Llama 3.1 8B Instruct остается стабильной baseline-моделью для английского контента.
- DeepSeek R1 Distill Qwen 8B полезна для reasoning-экспериментов, но может быть медленнее.

> 💡 **Действие:** Для проекта не переносить рекомендации напрямую: у тебя RTX 3060 6GB, поэтому вместо 8B Q5 начинай с 3B-4B или 7B/8B только в Q4 с коротким context. Используй такую LLM не для text-to-video, а как локальный ночной/фоновый шаг: генерация сценария, shot list, промптов для gpt-image-film-director и разметки сцен перед видеогенерацией.

Теги: `rtx3060` `gguf` `q4_k_m` `local-llm` `pipeline` `prompting`

[Источник](https://www.knightli.com/en/2026/05/08/rtx-3060-local-llm-models/)

---

### VRAM как главный лимит локальных AI-задач в 2026

*3 мая 2026 · laptophub.net*

Главный вывод статьи: для локальных AI-нагрузок VRAM важнее почти всех остальных характеристик GPU, потому что модель либо помещается в видеопамять, либо резко замедляется через offload в RAM. Минимальный практический уровень в 2026 году автор оценивает как 8GB VRAM для базового inference на малых моделях, 12-16GB для повседневной работы и 24GB+ для крупных моделей или локального fine-tuning. Для LLM inference дана грубая формула: около 2GB VRAM на 1B параметров в FP16. Quantization вроде Q4_K_M снижает требования примерно на 72-75%, поэтому 7B-8B модели могут помещаться в 5-6GB VRAM. Отдельно подчёркнуто, что длинный context window съедает дополнительную VRAM через KV cache. Fine-tuning требует намного больше памяти, потому что кроме весов нужно держать gradients, optimizer states и activations.

- 8GB VRAM хватает только для базового inference на небольших моделях
- Q4_K_M позволяет запускать 7B-8B модели примерно в 5-6GB VRAM
- 13B-14B модели уже требуют около 8-10GB VRAM даже в quantized-режиме
- Длинный context window может сломать расчёт по VRAM из-за KV cache
- Full fine-tuning локально обычно требует в 3-4 раза больше VRAM, чем inference

> 💡 **Действие:** Для RTX 3060 6GB планируй video-pipeline вокруг quantized inference и маленьких моделей: 7B-8B Q4_K_M для сценариев/промптов, без локального fine-tuning. Для генерации видео не рассчитывай на тяжёлые T2V-модели в полном качестве: делай тестовый pipeline с короткими клипами, aggressive quantization/offload и ночным batch на мини-ПК только для CPU/utility-задач вроде нарезки, апскейла очередей и сборки ffmpeg.

Теги: `vram` `quantization` `Q4_K_M` `local-ai` `rtx3060` `inference`

[Источник](https://www.laptophub.net/how-much-vram-for-ai-workloads/)

---

### RTX 5090 и 5080 для локального AI-инференса

*8 мая 2026 · knightli.com*

RTX 5090 и RTX 5080 сравниваются как карты для локальных AI-задач, где важны не только CUDA-ядра, но и VRAM, пропускная способность памяти и поддержка софта. RTX 5090 получает 32GB GDDR7, 512-bit шину и около 1.79TB/s bandwidth, поэтому лучше подходит для крупных LLM, длинного контекста, image generation и video AI. RTX 5080 ограничена 16GB GDDR7 и 256-bit шиной, но остаётся разумным вариантом для 7B/8B/14B моделей, лёгких video-задач и разработки. Статья подчёркивает правило: VRAM решает, запустится ли workload, а bandwidth влияет на ощущаемую скорость. FP4 в Blackwell потенциально снижает расход памяти и трафик данных, но ускорение будет зависеть от поддержки в TensorRT, фреймворках и конкретных моделях. Для 70B-класса даже 32GB не гарантируют комфортную работу без аккуратных настроек контекста и памяти.

- RTX 5090 сильнее за счёт 32GB VRAM и высокой bandwidth.
- RTX 5080 не решает задачи, которые уже упираются в VRAM.
- 16GB хватает для малых и средних моделей, но быстро ограничивает multimodal pipeline.
- FP4 полезен только там, где его реально поддерживают модели и runtime.

> 💡 **Действие:** Для текущей RTX 3060 6GB не планируй тяжёлый text-to-video pipeline как локальный realtime-процесс: делай ставку на максимально квантованные модели, короткие клипы и batch-рендер. Если апгрейд GPU попадёт в план, приоритет для автоматизации видео — карта с 24-32GB VRAM, а не просто более быстрый 16GB вариант.

Теги: `rtx5090` `rtx5080` `blackwell` `vram` `fp4` `video-ai`

[Источник](https://www.knightli.com/en/2026/05/08/rtx-5090-5080-ai-inference-benchmark/)

---

### BACH 1.0 для генерации cinematic video в 1080p 30fps

*6 мая 2026 · bach1.org*

BACH 1.0 позиционируется как cinematic AI video engine для генерации видео из текста и reference images. Заявлены native 1080p, 30fps, среднее время генерации меньше 60 секунд и монтажи до 30 секунд. Основные технические обещания: Physics-Native Attention, Dual DiT architecture и proprietary MSSL для уменьшения motion blur и просадок frame rate. Важный для нарративных роликов пункт — сохранение лица, одежды и пропорций персонажа между сценами. Есть режимы Text to Video, Image to Video, Create Image + Convert, Element to Video и Montage для coherent multi-shot sequences из одного prompt. По статье это выглядит как облачный/продуктовый генератор, а не локальная модель для RTX 3060 или Radeon 780M.

- Native 1080p 30fps заявлены без upscale и frame interpolation
- Montage mode генерирует multi-shot sequences до 30 секунд из одного prompt
- Character consistency покрывает лицо, одежду и пропорции между сценами
- Image to Video и Element to Video подходят для оживления готовых AI-кадров
- Нет данных о локальном запуске, весах модели или требованиях к VRAM

> 💡 **Действие:** Не пытайся встраивать BACH 1.0 как локальный backend: по статье нет признаков self-hosted модели под RTX 3060 6GB. Используй материал как чеклист требований к своему pipeline: multi-shot prompt, character consistency, image-to-video и автоматическая сборка 30-секундных сцен вместо ручного slideshow.

Теги: `BACH-1.0` `text-to-video` `image-to-video` `montage` `1080p` `character-consistency`

[Источник](https://www.bach1.org/)

---

### Практический VRAM-бюджет для локальных AI-моделей

*8 мая 2026 · knightli.com*

Статья разбирает, какие локальные AI-модели реально запускать на RTX 4060 Laptop с 8GB VRAM, и главный вывод — важнее не запуск модели, а удержание всего workflow внутри видеопамяти. Даже на 8GB часть памяти съедают Windows, драйверы и фоновые процессы, поэтому реальный бюджет часто ближе к 6.5-7.2GB. Для LLM автор рекомендует 3B-8B модели в 4-bit GGUF, например Gemma 4 E4B, DeepSeek R1 Distill 7B/8B, Qwen 3 8B и Qwen 2.5 Coder 3B/7B. Для изображений стабильной базой остаются SD 1.5 и SDXL через ComfyUI, Forge или Fooocus, а FLUX требует GGUF, NF4, FP8 или других low-VRAM workflow. Если модель начинает выгружаться в системную память, производительность резко падает, поэтому меньшая модель полностью на GPU обычно лучше большой с offload. Для проекта с RTX 3060 6GB выводы применимы ещё жёстче: нужно целиться в quantized/low-VRAM пайплайны и избегать тяжёлых 14B+ LLM и полноразмерных image/video моделей.

- 8GB VRAM в 2026 — минимальный комфортный уровень, а 6GB требует ещё более строгой экономии памяти
- Для локальной логики и сценариев лучше брать 3B-7B GGUF Q4, а не пытаться запускать крупные модели
- SD 1.5 и SDXL остаются практичной базой для генерации кадров и LoRA/ControlNet workflow
- FLUX на слабой VRAM имеет смысл только через GGUF/NF4/FP8 low-VRAM сборки
- CPU/system memory offload лучше избегать: он ломает скорость автоматического pipeline

> 💡 **Действие:** Для RTX 3060 6GB собери тестовый ComfyUI pipeline вокруг SD 1.5 или SDXL low-VRAM, а FLUX пробуй только в GGUF Q4/NF4 варианте. Для автоматизации сценариев и промптов используй локальную 3B-7B GGUF Q4 модель, чтобы не тратить VRAM, нужную генерации кадров.

Теги: `rtx4060` `vram` `gguf` `sdxl` `flux` `comfyui`

[Источник](https://www.knightli.com/en/2026/05/08/laptop-rtx-4060-8gb-local-ai-models/)

---

## Выпуск 8 мая 2026

### LTX Desktop как локальный редактор и генератор AI-видео

*3 мая 2026 · solosoft.dev*

LTX Desktop — open-source desktop-приложение от Lightricks для генерации и редактирования видео на базе семейства LTX. Оно работает локально и поддерживает Text-to-Video, Image-to-Video, Audio-to-Video и Video-to-Video. В отличие от облачных сервисов, генерации выполняются на пользовательском GPU без подписок, очередей и отправки данных наружу. В статье отдельно выделен встроенный HTTP API, через который внешние инструменты могут запускать генерации программно. Главный ограничитель — железо: заявленный минимум составляет 16 GB VRAM, рекомендовано 24 GB+, поэтому RTX 3060 6GB не проходит по требованиям. Для текущего проекта это скорее ориентир интерфейса и API-пайплайна, чем готовый инструмент для основного ПК.

- Локальное desktop-приложение для LTX-моделей без облачной зависимости
- Поддерживает text/image/audio/video-to-video режимы
- Есть HTTP API для автоматического запуска генераций
- Минимум 16 GB VRAM делает запуск на RTX 3060 6GB маловероятным
- Подходит как референс для автоматизации, но не как основной генератор на текущем GPU

> 💡 **Действие:** Не планируй LTX Desktop как основной text-to-video backend для RTX 3060 6GB. Возьми из статьи идею локального HTTP API: оберни свой существующий slideshow/image-to-video pipeline в такой же локальный сервис, чтобы youtube-ai-video-director мог запускать генерации и сборку ролика программно.

Теги: `ltx` `desktop` `local-video` `http-api` `text-to-video`

[Источник](https://www.solosoft.dev/post/ltx-desktop-video-editor-2026/)

---