Weekly AI Digest
Последний выпуск · 21 мая 2026
Готово · 21 мая 2026
Codex
Архивный выпуск 17 мая 2026 К свежему выпуску
AI weekly · неделя 20/2026

Свежий срез по 6 проектам
и SaaS-идеям

Курируется автоматически каждое воскресенье. Каждая карточка — статья за неделю, отфильтрованная под конкретный раздел и переведённая на русский.

Следующий запуск
24 мая 2026, 10:00
Автоматизация Идеи для роликов
Цель раздела
Production уже в двух скиллах: `youtube-shorts-director` (cinematic micro-lore 8-18 сек) и `youtube-music-video-director` (Suno-клипы 1-3 мин). ЦЕЛЬ — больше автоматизации этих pipeline-ов + ловить момент когда становится реально гонять видео-модели на МОИХ машинах: главный ПК (RTX 3060 6GB) или мини-ПК (Ryzen 7 7840HS, Radeon 780M iGPU, 28 ГБ shared). Что ищем: — Бесплатные / open-source видео-модели запускаемые на 6 ГБ VRAM ИЛИ на 780M iGPU (ROCm/Vulkan): Hunyuan, Wan, L…
Скачать раздел .md
opensourceaidirectory.com12 мая 2026

AnimateDiff в ComfyUI для локальной генерации коротких видео

AnimateDiff добавляет motion modules к Stable Diffusion и позволяет собирать локальные text-to-video workflow в ComfyUI. Статья делает акцент на node-based подходе: все параметры видны, воспроизводимы и удобны для отладки. Для новичков предлагается ComfyUI Portable, установка AnimateDiff-Evolved через ComfyUI Manager и обязательный ComfyUI-VideoHelperSuite для работы с видео и кадрами. Рекомендуемый стартовый motion module — SD1.5 mm_sd_v15_v2.ckpt, а SDXL отмечен как более качественный, но заметно тяжелее по VRAM. Минимум по железу указан как 8GB VRAM «с трюками», комфортно — 12GB+, поэтому RTX 3060 6GB находится ниже заявленного минимума. CPU-only режим назван непрактичным для видео из-за скорости.

  • ComfyUI + AnimateDiff дают локальный pipeline без подписок и облачных лимитов
  • Для старта нужны AnimateDiff-Evolved и ComfyUI-VideoHelperSuite
  • Motion modules кладутся в ComfyUI/models/animatediff/
  • SD1.5 motion modules стабильнее и легче для первого теста
  • Заявленный минимум 8GB VRAM, что выше RTX 3060 6GB проекта
qwe.edu.pl12 мая 2026

Wan 2.2 TI2V-5B: локальная установка через pip и flash_attn

Гайд разбирает установку Wan 2.2 для локальной open-source video generation, но фокусируется не на крупных A14B-моделях, а на TI2V-5B. Wan 2.2 от Alibaba Tongyi Lab выпущен под Apache 2.0 и включает T2V-A14B, I2V-A14B и TI2V-5B. Для потребительского железа автор рекомендует именно TI2V-5B: dense 5B, text+image-to-video, VAE с компрессией 16×16×4, поддержка 720p 24fps. Даже TI2V-5B требует около 12 GB VRAM с offload-флагами и лучше чувствует себя на 24 GB RTX 4090/3090, поэтому RTX 3060 6GB напрямую не подходит. Установка рекомендуется через conda + pip, Python 3.10, CUDA 12.4, torch 2.5.1, а не через Poetry. Ключевой практический момент: сначала ставить PyTorch, затем requirements.txt без flash_attn, и только потом отдельно ставить flash_attn с --no-build-isolation.

  • TI2V-5B — самый реалистичный вариант Wan 2.2 для локального запуска, но минимум всё равно около 12 GB VRAM.
  • A14B-варианты требуют примерно 80 GB VRAM и не подходят для домашнего RTX 3060 6GB.
  • Для установки лучше использовать pip, Python 3.10 и заранее поставить torch==2.5.1 под CUDA 12.4.
  • flash_attn нужно ставить последним, иначе возможен ModuleNotFoundError из-за build isolation.
  • Windows native автор советует избегать; предпочтительнее Linux или WSL2.
vrlatech.com13 мая 2026

VRAM-требования для LoRA-тренировки в 2026

Статья разбирает требования к железу для обучения Stable Diffusion LoRA в 2026 году. Для SD 1.5 LoRA указан минимум 8 GB VRAM, для SDXL — около 10-12 GB минимум и 24 GB для комфортной работы. SD 3.5 и Flux требуют заметно больше: Flux.1 Dev/Schnell начинается примерно с 24 GB при quantization, а Flux.2 Dev — с 32 GB. Автор подчеркивает, что главный ограничитель — не размер итоговой LoRA, а память на base model, optimizer states, gradients и training data. Для обучения LoRA экосистема по-прежнему почти полностью NVIDIA/CUDA: Kohya-ss, bitsandbytes, Flash Attention и xFormers лучше поддержаны именно там. AMD ROCm в статье описан как более пригодный для inference, но не как зрелая платформа для LoRA training.

  • RTX 3060 6GB ниже заявленного минимума даже для SD 1.5 LoRA training
  • SDXL LoRA практически требует карту уровня 12-24 GB VRAM
  • Flux LoRA нецелесообразен локально без 24-32 GB VRAM
  • AMD Radeon 780M стоит рассматривать для batch/inference, а не для training
  • Для проекта важнее готовые LoRA и inference-оптимизации, чем локальное обучение
spheron.network14 мая 2026

Spheron как маркетплейс аренды enterprise GPU

Spheron описывает себя как маркетплейс аренды NVIDIA GPU из Tier 2/3/4 дата-центров, а не как единый облачный провайдер. Платформа агрегирует H100, H200, B200, B300, A100, GH200, L40S, RTX PRO 6000, RTX 5090 и RTX 4090 с live pricing и поминутной оплатой. Пользователям обещают VM или bare metal, SSH root access, быстрый запуск инстансов и отсутствие vendor lock-in через единый аккаунт. Отдельно выделены on-demand, spot и reserved варианты аренды, включая скидки на spot для batch-задач и кластеры от 8 до 512+ GPU. Материал перечисляет страницы каталога и назначения разных GPU: H100/H200/B200 для крупных LLM, L40S и RTX 4090/5090 для inference, прототипирования и средних экспериментов. В предоставленном фрагменте нет практических бенчмарков video-моделей, ROCm/Vulkan, 6GB VRAM или Radeon 780M.

  • Spheron — платный GPU rental marketplace с live pricing и per-minute billing.
  • Доступны H100, H200, B200, A100, L40S, RTX 4090, RTX 5090 и другие NVIDIA GPU.
  • Есть on-demand, spot и reserved режимы аренды под разные типы нагрузок.
  • Фрагмент не дает данных по запуску open-source video-моделей на RTX 3060 6GB или Radeon 780M.
  • Для текущей секции это скорее ориентир по облачным ценам, а не готовое решение pipeline.
papers.cool14 мая 2026

SANA-WM: open-source world model для минутных 720p видео

SANA-WM — open-source world model на 2.6B параметров для генерации минутных 720p видео с управлением камерой. Модель использует Hybrid Linear Attention: frame-wise Gated DeltaNet вместе с softmax attention для более экономной работы с длинным контекстом. Отдельный Dual-Branch Camera Control нужен для точного следования 6-DoF траекториям камеры. Pipeline двухстадийный: сначала базовая генерация, затем long-video refiner для повышения качества и консистентности. Обучение заняло 15 дней на 64 H100 и примерно 213K публичных видеоклипов с metric-scale pose supervision. Дистиллированная версия с NVFP4 заявлена для RTX 5090 и денойзит 60-секундный 720p клип за 34 секунды, поэтому для RTX 3060 6GB это пока не локальная практическая модель.

  • 2.6B open-source world model для 60-секундных 720p видео
  • Есть точный 6-DoF camera control через отдельную ветку управления
  • Двухстадийная схема: stage-1 генерация плюс long-video refiner
  • Дистиллированный вариант ориентирован на RTX 5090 с NVFP4, не на 6GB VRAM
thecosmicmeta.com16 мая 2026

SANA-WM генерирует минутные 720p world-video на одной GPU

NVIDIA SANA-WM описывается как open-source world model на 2.6B параметров для генерации длинных 720p-видео из одного изображения и заданной траектории камеры. В отличие от обычных text-to-video моделей, акцент сделан на управляемом 3D-мире, длинной последовательности до 60 секунд и контроле камеры. В статье утверждается, что модель работает почти в реальном времени на одной RTX 5090 благодаря hybrid attention и низкому потреблению памяти. Лицензия Apache 2.0 делает модель потенциально полезной для локальных production-пайплайнов, виртуального продакшена и симуляций. Для текущего проекта важна сама архитектурная идея: image + camera path вместо случайного короткого video prompt. Прямой запуск на RTX 3060 6GB из статьи не подтвержден, поэтому это скорее кандидат на отслеживание, а не немедленная замена текущего slideshow+RIFE пайплайна.

  • SANA-WM: 2.6B open-source world model от NVIDIA под Apache 2.0.
  • Вход: одно изображение и camera path; выход: до 60 секунд 720p-видео.
  • Ключевой фокус: длинная когерентная сцена и точный контроль камеры.
  • Заявленная производительность относится к RTX 5090, не к 6GB VRAM.
  • Для AI Sci-Fi Shorts полезен подход story frame -> camera path -> video segment.
chatforest.com10 мая 2026

LTX-Video как быстрый open-source кандидат для AI-видео

LTX-Video от Lightricks позиционируется как быстрый open-source text-to-video и image-to-video модельный стек, закрывающий промежуток между тяжелыми HunyuanVideo/Wan и устаревающим AnimateDiff. Главная архитектурная идея — video VAE с компрессией 1:192, из-за чего transformer работает с меньшим числом latent tokens и быстрее проходит diffusion-инференс. В статье сравнивается контекст: HunyuanVideo требует около 60+ GB VRAM, Wan 2.1 ближе к consumer-классу, но все еще требует около 16 GB, а AnimateDiff помещается в 6-8 GB, но ограничен 16-frame клипами на базе SD 1.5. LTX-Video v0.9-v0.9.8 описывается как 2B-parameter family, выпущенная под Apache 2.0 с весами на HuggingFace и inference-кодом на GitHub. Статья не содержит собственных hands-on тестов и опирается на публичные источники, поэтому реальные требования к RTX 3060 6GB нужно проверять отдельно. Для проекта важен не маркетинг LTX Studio, а сама архитектура: быстрая генерация коротких клипов может заменить часть slideshow+RIFE, если модель реально заведется в ограниченной VRAM.

  • LTX-Video делает ставку на video VAE с компрессией 1:192 для снижения числа токенов.
  • Модельная семья v0.9-v0.9.8 имеет около 2B параметров и открыта под Apache 2.0.
  • В отличие от HunyuanVideo и Wan 2.1, цель LTX-Video — интерактивная скорость на более доступном железе.
  • Статья не дает собственных бенчмарков и не подтверждает запуск на 6 GB VRAM.
  • Потенциально полезно для коротких cinematic micro-lore клипов и I2V из GPT Image 2 кадров.
chatforest.com10 мая 2026

HunyuanVideo и 1.5: сильная open-source модель, но не для 6 GB VRAM

Tencent выпустила HunyuanVideo в декабре 2024 года как open-source видео-модель на 13B параметров с локально доступными весами. На старте модель заняла верхние позиции в VBench 1.0, быстро получила интеграции в ComfyUI, Diffusers и поддержку xDiT, а позже появились LoRA-пайплайны. В ноябре 2025 вышла HunyuanVideo-1.5: 8.3B параметров, SSTA architecture, 1080p super-resolution и генерация до 10 секунд при 24fps. Даже «потребительская» версия требует около 14 GB VRAM, а step-distilled вариант делает 480p I2V примерно за 75 секунд на RTX 4090, что всё равно выше возможностей RTX 3060 6GB. В экосистеме также появились I2V, HunyuanCustom для single-image video с synchronized audio/lip-sync, Avatar и Foley. Важный риск — лицензия Tencent Hunyuan Community License запрещает использование в EU, UK и South Korea, что может мешать публичному распространению пайплайнов и моделей.

  • HunyuanVideo 13B был сильным open-source T2V релизом с быстрым ростом ComfyUI/Diffusers экосистемы.
  • HunyuanVideo-1.5 стал легче на уровне параметров, но всё ещё требует около 14 GB VRAM.
  • Для RTX 3060 6GB модель напрямую непрактична без агрессивного quantization/offload или облака.
  • HunyuanCustom и Avatar важны для AI music video: single-image animation, audio sync и lip-sync.
  • Лицензия исключает EU, UK и South Korea, это нужно учитывать при публикации workflow.