Weekly AI Digest
Последний выпуск · 21 мая 2026
Готово · 21 мая 2026
Codex
Архивный выпуск 10 мая 2026 К свежему выпуску
AI weekly · неделя 19/2026

Свежий срез по 6 проектам
и SaaS-идеям

Курируется автоматически каждое воскресенье. Каждая карточка — статья за неделю, отфильтрованная под конкретный раздел и переведённая на русский.

Следующий запуск
24 мая 2026, 10:00
Автоматизация Идеи для роликов
Цель раздела
Production уже в двух скиллах: `youtube-shorts-director` (cinematic micro-lore 8-18 сек) и `youtube-music-video-director` (Suno-клипы 1-3 мин). ЦЕЛЬ — больше автоматизации этих pipeline-ов + ловить момент когда становится реально гонять видео-модели на МОИХ машинах: главный ПК (RTX 3060 6GB) или мини-ПК (Ryzen 7 7840HS, Radeon 780M iGPU, 28 ГБ shared). Что ищем: — Бесплатные / open-source видео-модели запускаемые на 6 ГБ VRAM ИЛИ на 780M iGPU (ROCm/Vulkan): Hunyuan, Wan, L…
Скачать раздел .md
nextomoro.com4 мая 2026

Tencent Hunyuan: семейство LLM, image, video и 3D-моделей

Hunyuan — семейство моделей Tencent, включающее текстовые LLM, image generation, HunyuanVideo и Hunyuan3D. В статье основной фокус на текстовой линейке: Hunyuan-Large, Hunyuan-T1, Hunyuan 2.0 и Hy3 preview. Hy3 preview вышла 23 апреля 2026 года как open-weights модель на 295B параметров total и 21B active. Часть моделей доступна через Hugging Face, часть только через Tencent Cloud API и Yuanbao. Для локального self-hosting упомянуты Hunyuan-Large, Hunyuan-A13B и Hy3 preview, но статья не даёт практических требований к VRAM. Про HunyuanVideo сказано только как про отдельную video-линейку без деталей запуска, квантизации или consumer GPU.

  • Hunyuan — не одна модель, а семейство для text, image, video и 3D.
  • Hy3 preview — open-weights релиз апреля 2026 года с 256K context.
  • Hunyuan-Large имеет 389B total и 52B active параметров.
  • HunyuanVideo упомянута, но без технических данных по локальному запуску.
  • Статья полезна как справка по экосистеме Tencent, но не как гайд по video generation.
crepal.ai8 мая 2026

Wan и HunyuanVideo как локальные I2V-варианты без платных сервисов

Материал разбирает бесплатные и open-source варианты image-to-video, делая акцент на локальном запуске вместо Runway, Pika и Kling с серверными фильтрами. Главный кандидат — Wan: Wan 2.1 1.3B требует около 8.19 GB VRAM, а Wan 2.2 использует MoE-архитектуру с 27B параметрами и 14B активными на генерацию. Для качества автор выделяет Wan 2.2, но реальные скорости всё ещё ограничены: 14B на RTX 4090 даёт примерно 5 секунд 480P за 4 минуты. Для ComfyUI упоминаются Wan 2.2 Remix и Lightning LoRAs, которые ускоряют рендер ценой небольшого падения качества. Второй вариант — HunyuanVideo 1.5 на 8.3B параметров, но минимум 14 GB VRAM делает его тяжёлым для RTX 3060 6GB. GGUF-квантизация для HunyuanVideo может снизить требования до 8-12 GB VRAM, но это всё равно выше целевого GPU проекта.

  • Wan 2.1 1.3B близок к consumer GPU, но 8.19 GB VRAM выше лимита RTX 3060 6GB.
  • Wan 2.2 даёт лучшее движение и физику, но требует серьёзной оптимизации или облака.
  • Lightning LoRAs для Wan могут быть полезны для быстрых тестовых прогонов в ComfyUI.
  • HunyuanVideo 1.5 легче старого HunyuanVideo, но всё ещё не подходит напрямую под 6 GB VRAM.
  • Open-source видео пока сильнее в коротких клипах до 5 секунд, чем в сложной длинной динамике.
github.com8 мая 2026

Wan2.2: открытая видеомодель с MoE и 720P TI2V

Wan2.2 — крупное обновление открытой линейки Wan для генерации видео, включая text-to-video и image-to-video. В модели используется Mixture-of-Experts для разделения этапов denoising между специализированными экспертами без роста вычислительной стоимости. Авторы делают упор на cinematic aesthetics: данные размечены по свету, композиции, контрасту и цветовой тональности. По сравнению с Wan2.1 обучение расширено на 65.6% больше изображений и 83.2% больше видео, что должно улучшать движение, семантику и стиль. Упомянут 5B hybrid TI2V-вариант с Wan2.2-VAE, компрессией 16×16×4, 720P при 24fps и запуском на consumer-grade GPU уровня RTX 4090. Также в экосистеме есть Wan2.2-Animate-14B и Wan2.2-S2V-14B, но они явно тяжелее для локального железа проекта.

  • Wan2.2 добавляет MoE-архитектуру в video diffusion.
  • 5B TI2V-модель поддерживает text-to-video и image-to-video в 720P@24fps.
  • Заявлен запуск на consumer GPU, но примером указан RTX 4090, не 6 ГБ VRAM.
  • Wan2.2-Animate-14B интегрирован в Diffusers и доступен через HF/ModelScope.
  • Apache-2.0 делает репозиторий пригодным для локальных экспериментов и форков.
huggingface.apachecn.org9 мая 2026

Diffusers Text-to-Video с CPU offload и VAE slicing

Документация описывает pipeline Text-to-Video в Hugging Face Diffusers на базе VideoFusion и модели damo-vilab/text-to-video-ms-1.7b. Пример генерирует короткий ролик на 16 кадров через DiffusionPipeline в fp16 и экспортирует результат через export_to_video. Для более длинного видео на 64 кадра предлагаются enable_model_cpu_offload и enable_vae_slicing, чтобы снизить потребление VRAM. В статье указано, что 64 кадра при PyTorch 2.0, fp16 и этих оптимизациях требуют около 7 GB GPU memory. Также показана замена scheduler на DPMSolverMultistepScheduler и запуск с num_inference_steps=25. Для проекта это пограничный вариант: 7 GB выше лимита RTX 3060 6GB, но 16-32 кадра с offload могут быть тестируемы.

  • Модель: damo-vilab/text-to-video-ms-1.7b через Diffusers
  • Оптимизации: enable_model_cpu_offload и enable_vae_slicing
  • 64 кадра требуют около 7 GB VRAM даже в fp16
  • DPMSolverMultistepScheduler позволяет сократить шаги до 25
  • Pipeline помечен как research purposes only
huggingface.apachecn.org9 мая 2026

Text2Video-Zero как лёгкий zero-shot video pipeline на Stable Diffusion

Text2Video-Zero позволяет генерировать короткое видео без обучения новых video-моделей, используя обычные text-to-image модели вроде Stable Diffusion v1.5. Подход добавляет motion dynamics в latent-коды кадров и использует cross-frame attention к первому кадру, чтобы лучше сохранять фон, объект и внешний вид между кадрами. Pipeline в diffusers поддерживает text-to-video, генерацию с подсказками по pose/edges и Video Instruct-Pix2Pix для instruction-guided video editing. В примере используется TextToVideoZeroPipeline с runwayml/stable-diffusion-v1-5, torch.float16 и CUDA. По умолчанию генерируется 8 кадров, есть параметры motion_field_strength_x/y, t0/t1 и video_length. Для более длинных роликов предлагается chunk-by-chunk генерация с повторным использованием первого кадра и фиксированного seed для временной согласованности.

  • Работает поверх Stable Diffusion v1.5 без обучения на video dataset
  • Генерация короткая: default video_length = 8 кадров и fps = 4 в примере
  • Cross-frame attention использует первый кадр для сохранения идентичности объекта
  • Есть chunk-by-chunk режим для более длинного видео с меньшей нагрузкой
  • Поддерживаются pose/edges guidance и Video Instruct-Pix2Pix
softtechhub.us8 мая 2026

LongCat-Video обещает локальную генерацию видео до 4 минут

Meituan выпустила open-source модель LongCat-Video для локальной генерации длинных видео. Модель имеет 13.6B параметров и заявлена как система для роликов до примерно 4 минут в 720p при 30 fps. В статье подчёркивается, что LongCat-Video обучалась на Video Continuation, чтобы лучше удерживать цвет, стиль и качество во времени. Поддерживаются text-to-video, image-to-video, продолжение видео, interactive video generation и LongCat-Video-Avatar. Среди технических идей упомянуты coarse-to-fine generation, block sparse attention и multi-reward RLHF. Важный плюс для независимого YouTube-пайплайна — MIT license, без подписок, watermark и облачной обработки. В предоставленном фрагменте нет конкретных требований к VRAM, поэтому пригодность для RTX 3060 6GB пока не подтверждена.

  • LongCat-Video ориентирована на long-form video, а не только 5-10 секундные клипы
  • Заявлены ролики до 4 минут в 720p и 30 fps
  • Модель открыта под MIT license, можно использовать и модифицировать коммерчески
  • Есть режимы text-to-video, image-to-video и video continuation
  • Требования к железу в фрагменте статьи не раскрыты
medium.com8 мая 2026

Sulphur 2 Base: локальная T2V/I2V модель на базе LTX

Sulphur 2 Base — open-source модель видео-генерации на Hugging Face для Text-to-Video и Image-to-Video. В статье указано, что модель имеет 9B параметров и основана на сильно дообученной экосистеме LTX 2.3. Основной фокус — локальный запуск, ComfyUI workflows, LoRA-интеграции и более свободная настройка без ограничений коммерческих облачных сервисов. Автор выделяет улучшенное качество движения: меньше jitter, лучше непрерывность кадров, более реалистичная анимация и кинематографичное движение камеры. Модель явно ориентирована не на новичков, а на advanced ComfyUI users, исследователей и авторов кастомных workflow. В статье упоминаются workflow templates, custom nodes, optimization experiments и quantized variants, но конкретные требования к VRAM в предоставленном фрагменте не раскрыты.

  • Sulphur 2 Base поддерживает T2V и I2V для локальной видео-генерации.
  • Модель заявлена как 9B и построена поверх LTX 2.3 ecosystem.
  • Есть поддержка ComfyUI workflows и LoRA integrations.
  • Главное обещание — более плавное и реалистичное движение.
  • Точных требований к VRAM в доступном тексте нет.
opensourceaidirectory.com5 мая 2026

Wan 2.2 локально для text-to-video и image-to-video

Wan 2.2 представлен как сильная open-source модель для локальной генерации видео без подписок и очередей. Модель поддерживает text-to-video и image-to-video, а также интеграцию в кастомные пайплайны с ComfyUI, ControlNet и LoRA. В статье отмечены улучшения относительно предыдущей версии: более плавное движение, лучшее следование prompt, стабильность персонажей между кадрами и физика движения. Wan 2.2 использует MoE-архитектуру и доступен в вариантах 5B и 14B параметров. Для минимального запуска указан 8GB VRAM для 5B или сильно квантизованного 14B, комфортный режим требует 16GB+ VRAM, а идеальный — 24GB+. Также нужны 32-64GB RAM, NVMe SSD и 50-100GB свободного места под модели, VAE, text encoders и результаты.

  • Wan 2.2 ориентирован на локальный text-to-video и image-to-video без облачных лимитов.
  • Минимальный порог в статье — 8GB VRAM, что выше RTX 3060 6GB в проекте.
  • 5B вариант выглядит единственным реалистичным кандидатом для экспериментов на слабом железе.
  • ComfyUI упомянут как основной путь установки и интеграции в production pipeline.
  • Для 14B нужны FP8/квантизация и более мощная GPU, иначе запуск будет непрактичным.
gemma4.wiki3 мая 2026

Gemma 4 31B требует 24GB+ VRAM для локального inference

Материал сравнивает Gemma 4 31B на RTX 3090, 4090 и 5090 для локального inference. Главный вывод: для dense 31B VRAM является жёстким ограничением, а скорость генерации уже определяет комфорт работы. В тестах RTX 3090 даёт около 35.7 tok/s, RTX 4090 — 42.3 tok/s, RTX 5090 — 64.8 tok/s. Для MoE-like варианта Gemma 4 26B-A4B скорости сильно выше: примерно 120, 147 и 182 tok/s соответственно. Автор подчёркивает, что короткие промпты плохо отражают реальную производительность, потому что скрывают проблемы prompt processing. Для сценариев длинного текста, JSON и сценариев разница между GPU становится заметной со временем.

  • Gemma 4 31B практически ориентирована на GPU с 24GB+ VRAM.
  • RTX 3060 6GB не подходит для комфортного запуска dense 31B.
  • MoE-like модели дают заметно лучшую скорость при меньшей активной нагрузке.
  • Для длинных сценариев важны и prompt processing, и tok/s генерации.
resource.digen.ai5 мая 2026

Сравнение AI video моделей 2026 для production-пайплайна

Материал сравнивает актуальные AI video generation модели 2026 года по качеству, управляемости, стабильности движения, цене и API-интеграции. Runway Gen-4 назван лучшим вариантом для cinematic realism и точного контроля движения. Seedance 2.0 выделяется как вариант для разработчиков благодаря стабильному API и интеграции в автоматизированные workflow. Luma AI и Pollo AI подаются как более выгодные по цене инструменты для social media контента. В статье подчёркивается сдвиг от простого text-to-video к director-level controls: camera paths, lighting adjustments, prompt adherence и temporal consistency. Для оценки моделей предлагается прогонять одинаковые stress-test prompts и отдельно проверять клипы длиннее 10 секунд на flickering и сохранение внешности персонажа.

  • Runway Gen-4 сильнее подходит для киношного контроля и визуального качества.
  • Seedance 2.0 интересен для автоматизации через API и SDK.
  • Luma AI и Pollo AI могут быть дешевле для коротких роликов и превью.
  • Ключевые метрики сравнения: prompt adherence, temporal consistency, cost per second.
  • Рынок смещается к управляемым сценам с камерой, светом и physics-based rendering.
gpupoet.com4 мая 2026

Рейтинг GPU по цене для AI inference и локальных задач

В майском рейтинге GPU Poet сравниваются видеокарты по цене и производительности для gaming, AI inference и LLM training. Для AI inference автор выделяет INT8 как основной режим локального обслуживания LLM через llama.cpp и vLLM. Лучшие показатели $/INT8 TOPS у Intel Arc B580 и B570, но их минус — менее зрелая экосистема OneAPI/IPEX-LLM по сравнению с CUDA. Среди NVIDIA самым понятным вариантом назван RTX 3080: 10GB VRAM, 238 INT8 TOPS и более предсказуемый CUDA-путь. Для большего запаса VRAM автор отмечает RTX 4070 Ti с 12GB как чистый вариант для inference. Для training и fine-tuning подчёркивается, что 16GB VRAM — практический минимум, а старые дешёвые карты вроде Tesla P100 имеют ограничения по современным фреймворкам.

  • Для AI-задач важнее VRAM и поддержка CUDA, чем чистая цена за FPS
  • Intel Arc выглядит выгодно по INT8 TOPS, но рискованнее из-за софта
  • RTX 3080 10GB — более надёжный бюджетный CUDA-вариант
  • RTX 4070 Ti 12GB даёт больше запаса для локального inference
  • Для обучения и fine-tuning 16GB VRAM фактически нижняя граница
knightli.com8 мая 2026

Локальные LLM для RTX 3060: упор на 8B Q4/Q5

Статья рекомендует подбирать локальные LLM под реальный лимит VRAM, а не только под размер файла модели. Для RTX 3060 12GB оптимальным классом названы 7B/8B/9B модели в GGUF-квантизации Q4_K_M или Q5_K_M. Q4_K_M предлагается как более стабильный вариант, Q5_K_M — как вариант с лучшим качеством при большей нагрузке на VRAM. Среди базовых моделей названы Qwen3 8B, Llama 3.1 8B Instruct, Gemma 3 12B и DeepSeek R1 Distill Qwen 8B. Gemma 3 12B описана как верхняя практическая граница для 12GB VRAM, с рекомендацией держать небольшой context. Для 30B и 70B моделей статья советует не делать их ежедневной основой из-за низкой скорости и CPU offload.

  • Для RTX 3060 12GB лучший баланс дают 7B-9B модели в Q4_K_M/Q5_K_M.
  • VRAM тратится не только на модель, но и на context, KV cache, batch size и runtime.
  • Qwen3 8B подходит для суммаризации, переписывания, RAG и легких agent flows.
  • Llama 3.1 8B Instruct остается стабильной baseline-моделью для английского контента.
  • DeepSeek R1 Distill Qwen 8B полезна для reasoning-экспериментов, но может быть медленнее.
laptophub.net3 мая 2026

VRAM как главный лимит локальных AI-задач в 2026

Главный вывод статьи: для локальных AI-нагрузок VRAM важнее почти всех остальных характеристик GPU, потому что модель либо помещается в видеопамять, либо резко замедляется через offload в RAM. Минимальный практический уровень в 2026 году автор оценивает как 8GB VRAM для базового inference на малых моделях, 12-16GB для повседневной работы и 24GB+ для крупных моделей или локального fine-tuning. Для LLM inference дана грубая формула: около 2GB VRAM на 1B параметров в FP16. Quantization вроде Q4_K_M снижает требования примерно на 72-75%, поэтому 7B-8B модели могут помещаться в 5-6GB VRAM. Отдельно подчёркнуто, что длинный context window съедает дополнительную VRAM через KV cache. Fine-tuning требует намного больше памяти, потому что кроме весов нужно держать gradients, optimizer states и activations.

  • 8GB VRAM хватает только для базового inference на небольших моделях
  • Q4_K_M позволяет запускать 7B-8B модели примерно в 5-6GB VRAM
  • 13B-14B модели уже требуют около 8-10GB VRAM даже в quantized-режиме
  • Длинный context window может сломать расчёт по VRAM из-за KV cache
  • Full fine-tuning локально обычно требует в 3-4 раза больше VRAM, чем inference
knightli.com8 мая 2026

RTX 5090 и 5080 для локального AI-инференса

RTX 5090 и RTX 5080 сравниваются как карты для локальных AI-задач, где важны не только CUDA-ядра, но и VRAM, пропускная способность памяти и поддержка софта. RTX 5090 получает 32GB GDDR7, 512-bit шину и около 1.79TB/s bandwidth, поэтому лучше подходит для крупных LLM, длинного контекста, image generation и video AI. RTX 5080 ограничена 16GB GDDR7 и 256-bit шиной, но остаётся разумным вариантом для 7B/8B/14B моделей, лёгких video-задач и разработки. Статья подчёркивает правило: VRAM решает, запустится ли workload, а bandwidth влияет на ощущаемую скорость. FP4 в Blackwell потенциально снижает расход памяти и трафик данных, но ускорение будет зависеть от поддержки в TensorRT, фреймворках и конкретных моделях. Для 70B-класса даже 32GB не гарантируют комфортную работу без аккуратных настроек контекста и памяти.

  • RTX 5090 сильнее за счёт 32GB VRAM и высокой bandwidth.
  • RTX 5080 не решает задачи, которые уже упираются в VRAM.
  • 16GB хватает для малых и средних моделей, но быстро ограничивает multimodal pipeline.
  • FP4 полезен только там, где его реально поддерживают модели и runtime.
bach1.org6 мая 2026

BACH 1.0 для генерации cinematic video в 1080p 30fps

BACH 1.0 позиционируется как cinematic AI video engine для генерации видео из текста и reference images. Заявлены native 1080p, 30fps, среднее время генерации меньше 60 секунд и монтажи до 30 секунд. Основные технические обещания: Physics-Native Attention, Dual DiT architecture и proprietary MSSL для уменьшения motion blur и просадок frame rate. Важный для нарративных роликов пункт — сохранение лица, одежды и пропорций персонажа между сценами. Есть режимы Text to Video, Image to Video, Create Image + Convert, Element to Video и Montage для coherent multi-shot sequences из одного prompt. По статье это выглядит как облачный/продуктовый генератор, а не локальная модель для RTX 3060 или Radeon 780M.

  • Native 1080p 30fps заявлены без upscale и frame interpolation
  • Montage mode генерирует multi-shot sequences до 30 секунд из одного prompt
  • Character consistency покрывает лицо, одежду и пропорции между сценами
  • Image to Video и Element to Video подходят для оживления готовых AI-кадров
  • Нет данных о локальном запуске, весах модели или требованиях к VRAM
knightli.com8 мая 2026

Практический VRAM-бюджет для локальных AI-моделей

Статья разбирает, какие локальные AI-модели реально запускать на RTX 4060 Laptop с 8GB VRAM, и главный вывод — важнее не запуск модели, а удержание всего workflow внутри видеопамяти. Даже на 8GB часть памяти съедают Windows, драйверы и фоновые процессы, поэтому реальный бюджет часто ближе к 6.5-7.2GB. Для LLM автор рекомендует 3B-8B модели в 4-bit GGUF, например Gemma 4 E4B, DeepSeek R1 Distill 7B/8B, Qwen 3 8B и Qwen 2.5 Coder 3B/7B. Для изображений стабильной базой остаются SD 1.5 и SDXL через ComfyUI, Forge или Fooocus, а FLUX требует GGUF, NF4, FP8 или других low-VRAM workflow. Если модель начинает выгружаться в системную память, производительность резко падает, поэтому меньшая модель полностью на GPU обычно лучше большой с offload. Для проекта с RTX 3060 6GB выводы применимы ещё жёстче: нужно целиться в quantized/low-VRAM пайплайны и избегать тяжёлых 14B+ LLM и полноразмерных image/video моделей.

  • 8GB VRAM в 2026 — минимальный комфортный уровень, а 6GB требует ещё более строгой экономии памяти
  • Для локальной логики и сценариев лучше брать 3B-7B GGUF Q4, а не пытаться запускать крупные модели
  • SD 1.5 и SDXL остаются практичной базой для генерации кадров и LoRA/ControlNet workflow
  • FLUX на слабой VRAM имеет смысл только через GGUF/NF4/FP8 low-VRAM сборки
  • CPU/system memory offload лучше избегать: он ломает скорость автоматического pipeline