# 🎭 4D & 4th Wall

Всего постов в архиве: 16

## Выпуск 21 мая 2026

### Квантовый multiverse как референс для 4D-глубины

*16 мая 2026 · artfund.org*

Libby Heaney представляет выставку Life in the Multiverse в Sainsbury Centre с 16 мая по 4 октября 2026 года. Проект использует quantum computing для создания иммерсивных и participatory digital installations. В центре работы — многослойные изображения, движения и звуки, собранные через quantum coding в dream-like, cosmic и нелинейные пространства. Посетители могут физически войти в скульптурную работу и стать частью цифрового multiverse. Визуальная логика строится на ощущении взаимосвязанности, размытых границ тела, пространства и времени. Дополнительно выставка включает серию акварелей, где растекающаяся краска сравнивается с quantum particles и entanglement.

- Полезен не сюжет, а приём многослойного пространства вокруг зрителя
- Идея digital multiverse хорошо ложится на 4D depth-stack и parallax
- Физическое «вхождение» зрителя в работу можно перевести в broken screen POV
- Акварельное entanglement даёт референс для текучих, размытых foreground-слоёв

> 💡 **Действие:** Сделай тестовый prompt для 4D-сцены с Jade или Kitana: добавь quantum multiverse depth layers, translucent overlapping image trails, dream-like cosmic parallax и foreground weapon breaking through the viewer space. Используй это как абстрактный фон вокруг героини, но оставь главный 4D-акцент на оружии почти в объективе.

Теги: `quantum-art` `multiverse` `immersive` `parallax` `4d-depth`

[Источник](https://www.artfund.org/explore/exhibitions/2026/05/16/life-in-the-multiverse-libby-heaney)

---

### 2D-арт как pop-up книга через 3D-камеру

*21 мая 2026 · creativebloq.com*

Creative Bloq разбирает, как At Fate’s End сохраняет вид hand-drawn 2D-игры, но использует 3D-технологии для ощущения объёма. Арт-директор Jo Gauthier объясняет, что 3D-камера помогает сделать плоские слои более живыми и похожими на pop-up picture book. Главная идея для секции — не просто рисовать персонажа крупно, а строить кадр как набор глубинных слоёв перед камерой. Такой подход усиливает parallax, separation между foreground/midground/background и ощущение физической сцены. Для 4D-кадров это полезный референс: оружие или рука в foreground могут работать как ближайший слой pop-up конструкции, а героиня — как доминирующий второй слой. В статье мало конкретных технических деталей в предоставленном фрагменте, но сам приём хорошо ложится на depth-stack эстетику проекта.

- 2D-визуал можно усиливать 3D-камерой без потери hand-drawn ощущения
- Pop-up picture book — удачная метафора для depth-stack композиции
- Ключевой эффект строится на слоях, parallax и разделении планов
- Приём применим к 4th wall кадрам с weapon-toward-camera
- At Fate’s End полезен как игровой референс для псевдо-3D глубины

> 💡 **Действие:** В 4D-шаблонах GPT Image 2 добавь формулировку: “hand-drawn 2D heroine staged like a 3D pop-up picture book, separated foreground weapon layer, midground looming character, deep background layers, strong parallax”. Протестируй на Jade или Kitana: оружие почти касается объектива, а тело и фон разложены как театральные 2D-плоскости в 3D-пространстве.

Теги: `3d-camera` `2d-art` `parallax` `depth-stack` `pop-up-book` `game-art`

[Источник](https://www.creativebloq.com/3d/video-game-design/how-at-fates-end-uses-3d-camera-tricks-to-make-its-2d-art-feel-alive)

---

### HyperFrames от HeyGen: HTML как язык для AI-видео

*18 мая 2026 · medium.com*

HeyGen представила HyperFrames как open-source framework для генерации видео через обычные HTML, CSS и анимационные runtime. Идея в том, что композиция собирается как web-страница: видео, изображения, аудио и анимации описываются HTML-разметкой, а затем рендерятся в MP4. Автор подчёркивает, что это удобно для AI-агентов, потому что модели уже хорошо понимают HTML и могут править видео по текстовым командам. В репозитории заявлены skills для Claude Code, Cursor, Gemini CLI и Codex, включая GSAP timelines, captions, TTS, shader transitions, audio-reactive animation, Three.js и Lottie pipelines. Статья противопоставляет HyperFrames Remotion: Remotion делает ставку на React-компоненты, а HyperFrames — на более простой raw HTML. Главный вывод: программируемое видео смещается в сторону AI-native workflows, где человек описывает намерение, а агент редактирует production pipeline.

- HyperFrames превращает HTML/CSS-композиции в рендеримые MP4-видео.
- Фреймворк ориентирован на AI-агентов, а не на ручной timeline editing.
- Поддерживаются GSAP, captions, TTS, shader transitions, Three.js и Lottie.
- Ключевое отличие от Remotion — ставка на raw HTML вместо React.
- Для текущего проекта это скорее референс workflow, чем прямой инструмент генерации кадров.

> 💡 **Действие:** Не переносить HyperFrames в основной pipeline, потому что проект сейчас работает через GPT Image 2 в ChatGPT.com. Но можно забрать принцип HTML-композиции как раскадровочный шаблон: описывать 4D-кадр слоями foreground / character / background / camera distortion, чтобы GPT Image 2 лучше держал depth-stack и parallax.

Теги: `hyperframes` `heygen` `html-video` `ai-agents` `workflow`

[Источник](https://medium.com/data-science-in-your-pocket/heygen-hyperframes-open-source-video-generation-framework-bcb9c447b444)

---

### SANA-WM от NVIDIA для 720p-видео с 6-DoF камерой

*16 мая 2026 · marktechpost.com*

NVIDIA представила SANA-WM — open-source world model на 2.6B параметров для генерации минутных 720p-видео по начальному изображению и действиям. Модель построена на SANA-Video и использует Diffusion Transformer, обученный под длинные роллауты с metric-scale 6-DoF camera control. Заявлены три режима single-GPU inference: bidirectional generator для качества, chunk-causal autoregressive generator для последовательного видео и distilled autoregressive generator для скорости. Дистиллированная версия, по статье, денойзит 60-секундный 720p-клип за 34 секунды на RTX 5090 с NVFP4 quantization. Архитектурно модель заменяет большую часть attention-блоков на frame-wise Gated DeltaNet, чтобы держать длинный контекст без квадратичного роста памяти. Для управления камерой используется dual-branch подход: грубая UCPE-ветка для траектории и fine Plücker mixing для геометрических деталей. Для проекта это скорее референс на язык камеры и depth control, чем практический инструмент, потому что рабочее железо — ChatGPT.com с GPT Image 2, без локального запуска моделей.

- Ключевая идея для секции — не персонаж, а управляемая 6-DoF камера и длинный depth-aware rollout.
- Frame-wise Gated DeltaNet решает проблему дрейфа в минутных видеопоследовательностях.
- UCPE и Plücker mixing можно перевести в промптовый язык как camera rays, metric depth, parallax и controlled camera trajectory.
- Single-GPU inference всё равно требует RTX 5090 и не применим напрямую к GPT Image 2 через ChatGPT Plus.

> 💡 **Действие:** Добавь в 4D depth-stack шаблон отдельный блок camera language: "metric 6-DoF camera feel, exaggerated camera rays, strong parallax between weapon tip and face, foreground object nearly touching a 14mm fisheye lens". Используй это для Jade/Kitana/Scorpion fem, чтобы усилить ощущение не просто wide-angle позы, а управляемой 3D-сцены с глубиной.

Теги: `sana-wm` `world-model` `6dof-camera` `video-generation` `parallax` `depth-stack`

[Источник](https://www.marktechpost.com/2026/05/16/nvidia-introduces-sana-wm-a-2-6b-parameter-open-source-world-model-that-generates-minute-scale-720p-video-on-a-single-gpu/)

---

### Image-blaster превращает один кадр в 3D-сцену

*16 мая 2026 · vp-land.com*

Nicholas Neilson из World Labs выпустил экспериментальный open-source toolkit image-blaster, который превращает одно изображение в исследуемую 3D-сцену. Пайплайн объединяет Marble для image-to-3D генерации, Claude Code как оркестратор и fal для вычислений. На выходе заявлены meshes, physics-ready геометрия, baked lighting и сгенерированный audio. Важная деталь: это личный side project, а не официальный продукт World Labs, без поддержки и roadmap. Claude Code здесь выступает не просто IDE-помощником, а runtime-слоем для творческого пайплайна, который цепляет API, обрабатывает ошибки и пишет сборочный скрипт. Репозиторий на момент статьи возвращал 404, поэтому проект мог быть переименован, скрыт или удалён.

- Главная идея — один 2D-кадр можно разложить в полноценную 3D-среду.
- Claude Code используется как связующий агент между моделями и сервисами.
- Marble отвечает за геометрию и окружение, fal — за inference и compute.
- Проект важнее как паттерн agent-orchestrated creative pipeline, чем как готовый инструмент.
- Для проекта с GPT Image 2 полезна сама логика depth-stack сцены, а не конкретный toolkit.

> 💡 **Действие:** Сделай отдельный prompt-шаблон для GPT Image 2: описывай кадр как «source frame for image-to-3D scene», с явными слоями foreground/midground/background, physics-ready objects, parallax depth и baked cinematic lighting. Для 4D-сцен добавь формулировки вроде «weapon nearly touching the virtual camera, foreground mesh-like occlusion, explorable 3D diorama feel», чтобы усилить иллюзию объёма без реального 3D-пайплайна.

Теги: `image-to-3d` `claude-code` `marble` `world-labs` `depth-stack` `creative-pipeline`

[Источник](https://www.vp-land.com/p/image-blaster-turns-one-image-into-a-full-3d-scene-using-claude-code)

---

### Разбор AI-изображения на слои для повторной композиции

*20 мая 2026 · dev.to*

Автор описывает Melius-пайплайн, который разбирает готовое изображение на рекомпонуемые слои вместо полного reprompting. Идея в том, что обычная правка промптом разрушает удачную сцену: меняются свет, геометрия, фон и детали, которые модель заново пересобирает. В пайплайне analyzer LLM создает JSON-схему до семи слоев: background, middle ground, foreground и до четырех subject-слоев. Затем отдельные extractor LLM формируют isolation prompt для каждого слоя, а NanoBanana Pro регенерирует элементы на chroma green с сохранением позиции, масштаба и света. После удаления зеленого фона финальный NanoBanana Pro pass собирает прозрачные слои в единую композицию, позволяя двигать, масштабировать, удалять или заменять элементы. Для 4D-кадров это полезно как концепция: foreground-объект, персонаж и фон лучше мыслить отдельными depth-слоями, а не одной плоской сценой.

- Reprompting ломает удачную композицию, потому что модель заново пересобирает всю сцену.
- Пайплайн делит изображение на background, middle ground, foreground и subject-слои.
- Chroma green используется как промежуточный фон для изоляции объектов.
- Финальная сборка позволяет менять позицию, масштаб и наличие отдельных слоев.
- Подход хорошо ложится на depth-stack и breaking 4th wall композиции.

> 💡 **Действие:** Для GPT Image 2 попробуй писать 4D-промпт как явную слоистую сцену: background arena, midground heroine, extreme foreground weapon/hand almost touching lens, separate parallax depth planes. В итерациях проси менять только foreground-слой или только позу героини, фиксируя lighting, camera, background geometry и depth-stack layout.

Теги: `melius` `layering` `composition` `depth-stack` `prompting`

[Источник](https://dev.to/igorgridel/how-i-decompose-any-image-into-recomposable-layers-on-melius-1k60)

---

### OcclusionFormer для контроля Z-order в сложных 4D-кадрах

*18 мая 2026 · github.com*

OcclusionFormer — новый open-source проект FudanCVL для layout-grounded image generation с явным управлением Z-order. Главная проблема, которую он решает, — перепутанный передний и задний план при пересечении bounding boxes, когда объекты начинают смешиваться текстурами. Метод разделяет генерацию инстансов, задаёт порядок перекрытий через volume-rendering-inspired transmittance и добавляет queried alignment для точного соответствия layout. Вместе с кодом опубликованы inference package, веса модели и датасет SA-Z с occlusion order и amodal supervision. Практически это не подходит напрямую под текущий пайплайн GPT Image 2 через ChatGPT.com, потому что требует локального FLUX.1-dev, checkpoint и Python-инференса. Но сама идея полезна как референс для промптов: foreground-объект, персонаж, фон и точки перекрытия нужно описывать как отдельные слои с явным front/back order.

- Ключевая идея — явно задавать Z-order для пересекающихся объектов.
- Метод борется с entangled textures в сценах с плотными occlusion.
- SA-Z добавляет occlusion order и amodal supervision к layout-аннотациям.
- Инференс рассчитан на FLUX.1-dev и layout JSON, не на ChatGPT.com.
- Для 4D-кадров полезна логика послойного описания foreground, героя и background.

> 💡 **Действие:** В 4D depth-stack шаблонах попробуй добавить блок: "strict Z-order: weapon tip closest to lens, hand behind weapon, face behind hand, torso behind face, background last; no texture blending between layers". Это должно помочь GPT Image 2 лучше держать оружие или руку в огромном foreground без слипания с лицом и фоном.

Теги: `OcclusionFormer` `z-order` `layout-to-image` `occlusion` `FLUX`

[Источник](https://github.com/FudanCVL/OcclusionFormer)

---

### SHL0MS выдал Monet за AI и превратил критику в перформанс

*18 мая 2026 · sleek-mag.com*

SHL0MS опубликовал Water Lilies Monet на X, назвал изображение AI-generated и попросил объяснить, почему оно хуже «настоящего» Monet. Тысячи людей начали критиковать мазки, композицию, форму лилий и общую эстетику, не зная, что обсуждают реальную работу Monet. Проект Inferior Image показывает, как ярлык AI меняет восприятие качества, авторства и «души» изображения. Важная часть работы — не сам JPEG, а развернувшееся дерево комментариев, мета-дискуссий и публичных реакций. SHL0MS рассматривает интернет не как канал распространения, а как полноценную художественную среду. После вирусности он также заминтил изображение как NFT, добавив вопрос о том, где именно находится произведение: в посте, реакции аудитории или токене.

- Один и тот же визуал воспринимается иначе, если его маркировать как AI-generated.
- Критика аудитории стала частью произведения, а не внешней реакцией на него.
- Интернет-перформанс строится на провокации, комментариях и рекурсивной мета-дискуссии.
- Тема полезна для понимания того, как зритель заранее судит AI-визуал по ожиданиям.

> 💡 **Действие:** Для 4D-секции возьми это как идею A/B-поста: один и тот же depth-stack кадр с Kitana или Jade показывать как «AI frame» и как «AAA key art reference», затем сравнить, какие элементы зритель начнёт критиковать. В промптах GPT Image 2 усиливай не только перспективу, но и намеренную «музейную» композиционность, чтобы кадр выглядел как дорогая постановка, а не просто эффектный AI-трюк.

Теги: `ai-art` `performance-art` `authenticity` `social-media` `perception`

[Источник](https://www.sleek-mag.com/article/how-shl0ms-turned-a-monet-water-lilies-painting-into-viral-performance-art-by-calling-it-ai/)

---

## Выпуск 17 мая 2026

### Квадратный 4D-кадр через padding вместо кропа

*12 мая 2026 · dev.to*

Материал описывает workaround для генерации идеально квадратного AI-видео, когда модель плохо держит native aspect ratio 1:1. Идея в том, чтобы сначала сделать квадратную композицию внутри вертикального 9:16 кадра, добавив сверху и снизу чёрные полосы. Затем этот кадр подаётся в Veo 3.1 Lite как start/end frame, чтобы модель анимировала центр и не ломала края. После генерации FFmpeg обрезает чёрные полосы, возвращая чистый квадрат без артефактов от кропа. Для проекта важен не сам Veo/API-пайплайн, а приём: фиксировать нужную композицию через «защитную рамку» и заранее запрещать модели достраивать края. Это можно перенести на статичные GPT Image 2-промпты для 4D depth-stack, где foreground-оружие должно оставаться в центре и не теряться при квадратном кадрировании.

- Padding помогает сохранить центр композиции без edge hallucinations.
- Start/end frame используется как якорь для стабильного loop и framing.
- Чёрные полосы работают как техническая зона, которую потом можно обрезать.
- Приём полезен для 1:1 кадров с экстремальным foreground и fisheye distortion.

> 💡 **Действие:** Для GPT Image 2 попробуй промптить 4D-сцены как «square composition centered inside a taller 9:16 frame with clean black safety bars above and below, weapon locked in the central square», затем просить финальный 1:1 crop/composition без изменения перспективы. Это особенно полезно для Kitana/Jade/Mileena, где веер, staff или sai должны почти касаться объектива и не обрезаться хаотично.

Теги: `veo-3.1` `nanobanana-2` `aspect-ratio` `padding` `ffmpeg` `4d-framing`

[Источник](https://dev.to/googleai/hacking-perfectly-square-ai-videos-with-veo-31-and-nanobanana-2-5cpn)

---

### Pixparkle как чатовый workflow для итераций изображения

*11 мая 2026 · coderlegion.com*

Pixparkle позиционируется как chat-based AI image generator, где изображение уточняется через последующие сообщения без потери контекста. Главный акцент статьи — исправить две частые проблемы генераторов: плохой рендеринг текста и необходимость начинать промпт заново при каждой правке. Сервис использует Flux Fast для быстрых черновиков и семейство Google Nano Banana, включая Nano Banana Pro на базе Gemini 3 Pro. Nano Banana Pro заявлен как лучший вариант для эстетики, читаемого текста и сохранения character consistency в разных сценах. Важны также 4K-вывод, широкий набор aspect ratios, включая ultra-wide форматы, и редактирование по референсному изображению через чат. Для текущего проекта сама платформа не используется, но полезна логика итерационного чата: сначала дешёвый черновой кадр, затем точечные правки перспективы, света, foreground-объекта и финальный upscale/hero shot.

- Pixparkle делает ставку на диалоговую доработку изображения с сохранением контекста.
- Nano Banana Pro описан как сильный режим для текста, композиции и character consistency.
- Поддерживаются 4K, разные aspect ratios и редактирование референсных изображений.
- Workflow полезен как модель: черновик, уточнения, финальный hero shot.
- Для проекта это не замена GPT Image 2, а референс процесса итераций.

> 💡 **Действие:** В GPT Image 2 попробуй вести 4D-сцену как один чат: сначала сгенерируй базовый кадр heroine + fisheye 14mm + weapon near lens, затем отдельными сообщениями усиливай foreground scale, parallax, tilted horizon и looming eye contact вместо переписывания полного промпта с нуля.

Теги: `pixparkle` `nano-banana` `chat-workflow` `image-generation` `4k` `iteration`

[Источник](https://coderlegion.com/17428/pixparkle-chat-based-ai-image-generato)

---

### Krea AI как быстрый референс-студийный пайплайн

*12 мая 2026 · fullstackcreators.com*

Krea AI описывается как браузерная creative suite с real-time canvas, доступом к 64+ AI-моделям, видео, 3D-ассетам, upscaling и node workflow. Главная идея сервиса — уйти от цикла prompt-wait-tweak и обновлять изображение почти мгновенно, заявлено до 50 мс. Пользователь может набросать композицию, загрузить референс, добавить текстовый prompt и сразу видеть, как меняются поза, стиль и композиция. После редизайна интерфейса в марте 2026 Krea позиционируется как единое рабочее место без технической настройки, ближе к дизайн-студии, чем к обычному prompt box. В статье отдельно упоминается Voice Mode для iPad, где можно говорить инструкции во время рисования. Для проекта важен не сам инструмент, а принцип: сначала фиксировать крупные foreground-формы и композиционный жест, а уже потом добивать стиль промптом.

- Real-time canvas позволяет управлять композицией через скетч, а не только текстом
- Krea совмещает image, video, 3D, upscaling и node workflows в одном интерфейсе
- Ключевой паттерн — sketch/reference задаёт позу и depth-stack, prompt задаёт стиль
- Voice Mode показывает тренд на мультимодальное управление сценой: жест плюс голос
- Для 4D-кадров полезна идея быстрых итераций foreground-объекта перед финальным рендером

> 💡 **Действие:** В prompt-библиотеке для GPT Image 2 добавь отдельный препромпт: сначала описывать грубый «скетч» сцены словами — huge weapon/hand shape covering 40% foreground, face behind it, 14mm fisheye, tilted horizon — и только затем стиль персонажа. Для Kitana/Jade/Mileena сделай 3 теста, где foreground-форма явно важнее костюма: веер, staff или kunai должны почти касаться объектива.

Теги: `krea-ai` `realtime-canvas` `workflow` `4d-depth` `prompting`

[Источник](https://fullstackcreators.com/krea-ai-creative-suite-creators/)

---

### Pi Mono как стек для AI-агентов, но не для 4D-визуала

*11 мая 2026 · pyshine.com*

Pi Mono описан как full-stack toolkit для создания AI coding agents от Mario Zechner, автора libGDX. Проект состоит из пяти npm-пакетов: pi-ai, pi-agent-core, pi-coding-agent, pi-tui и pi-web-ui. Главная идея стека — минимальное ядро без встроенных sub-agents, plan mode, MCP и permission popups, с переносом кастомизации в extensions, skills, prompt templates и themes. Базовый слой pi-ai отвечает за unified multi-provider LLM API, streaming, tool calling и работу с контекстом. Поверх него pi-agent-core добавляет stateful Agent runtime с prompt(), continue(), abort(), tool execution и event dispatch. Для текущей секции про 4D depth-stack, fisheye foreground и breaking 4th wall статья почти не даёт визуальных референсов.

- Pi Mono — инфраструктура для AI coding agents, а не инструмент генерации изображений.
- Архитектура построена как независимые слои npm-пакетов.
- Философия проекта — минимальное ядро и расширение через extensions и skills.
- Прямых приёмов для GPT Image 2, перспективы, parallax или 4D-композиции нет.

> 💡 **Действие:** Не применимо к проекту, прочитать для общего развития. Не добавляй в prompt-библиотеку 4D & 4th Wall, потому что статья про агентную инфраструктуру, а не про визуальные композиции или референсы.

Теги: `ai-agent` `npm` `toolkit` `coding-agent`

[Источник](https://pyshine.com/Pi-Mono-Full-Stack-AI-Agent-Toolkit/)

---

### VLM-агенты и самораспознавание в зеркале

*12 мая 2026 · scirate.com*

Работа вводит 3D-бенчмарк для embodied VLM-агентов, где модель должна понять скрытый атрибут собственного тела через отражение в зеркале. Агент действует от первого лица, смотрит в зеркало и выбирает цель, соответствующую увиденному признаку, при этом нужно не перепутать себя с другим объектом. Авторы проверяют, не решает ли модель задачу по подсказкам: убирают зеркало, добавляют вводящие в заблуждение признаки и закрывают отражение. Сильные VLM лучше используют отражённые визуальные данные для действия, а слабые часто смотрят в зеркало, но неверно извлекают self-relevant информацию. Отдельно показано, что фразы о «себе» в языке не доказывают настоящую визуально заземлённую self-identification. Для проекта статья полезна не как AI-art референс, а как идея сцены: зеркало, POV, отражение и конфликт между зрителем, персонажем и камерой.

- Ключевой сетап: first-person agent видит себя через зеркало и должен действовать по отражению.
- Полезная визуальная механика для 4th wall: зеркало как второй слой глубины и self/other confusion.
- Occluded reflections и misleading cues можно перенести в промпты как частично закрытое отражение.
- Сильная тема для кадра: персонаж нависает над камерой, а в зеркале видно истинную позу или оружие.

> 💡 **Действие:** Сделай один 4D-шаблон с зеркалом: героиня нависает над объективом, оружие почти касается камеры, а в background mirror видно её отражение и второй слой действия. Для GPT Image 2 добавь фразы вроде "first-person mirror self-recognition scene", "occluded reflection", "foreground weapon nearly touching the lens", "14mm fisheye parallax".

Теги: `VLM` `mirror` `POV` `4th-wall` `fisheye` `depth-stack`

[Источник](https://scirate.com/arxiv/2605.08816)

---

### CAPT как концепт когнитивной AI-архитектуры

*11 мая 2026 · huggingface.co*

CAPT описывается как не модель и не fine-tune, а «когнитивная операционная система» для AI. Автор заявляет архитектуру с 139 399 nodes, 222 112 edges, 46 modules и примерно 38 000 строк Python. Основная идея — система якобы отслеживает собственное рассуждение, регулирует ресурсы и защищает себя от повреждений или атак. В статье перечислены модули вроде META для метакогниции, ALLO для ресурсной регуляции и IMMU для защиты. Также упоминаются NEDA, HMC, QIPC, CIG и HDR как слои событий, памяти, консенсуса, причинного анализа и hyper-dimensional reasoning. Материал подан скорее как концептуальная презентация архитектуры, без практических примеров для генерации изображений или визуального пайплайна.

- CAPT позиционируется как AI-архитектура поверх моделей, а не как отдельная модель.
- Ключевой акцент — self-monitoring, confidence calibration, resource budgeting и threat detection.
- В статье есть схема модульной системы, но нет готовых визуальных референсов.
- Для 4D & 4th Wall секции прямой пользы почти нет.

> 💡 **Действие:** Не применимо к проекту, прочитать для общего развития

Теги: `architecture` `metacognition` `ai-system` `concept` `huggingface`

[Источник](https://huggingface.co/blog/Knowurknot/public-debut)

---

### SANA-WM генерирует 720p-видео мира из кадра и движения камеры

*16 мая 2026 · thecosmicmeta.com*

NVIDIA SANA-WM описывается как open-source world model на 2.6B параметров для генерации минутного 720p-видео на одной GPU. Модель принимает одно изображение и заданный camera path, после чего строит связный виртуальный мир с управляемым движением камеры. В статье подчёркивается отличие от обычных text-to-video систем: фокус не на коротком клипе, а на длинной последовательности с контролем 3D-навигации. Упоминается near-real-time работа на RTX 5090 и гибридная attention-архитектура для снижения потребления памяти. SANA-WM позиционируется как инструмент для virtual production, симуляций, walkthrough и интерактивного видео. Для текущего проекта это не прямой рабочий инструмент, потому что пайплайн завязан на GPT Image 2 в ChatGPT.com, но сама логика camera path полезна для промптов 4D depth-stack.

- Ключевой приём: single image плюс controlled camera path вместо статичного text-to-video.
- Модель рассчитана на длинные 60-секундные 720p-сцены, а не на короткие 4-8 секундные клипы.
- 6-DoF camera control хорошо ложится на идею parallax и breaking 4th wall.
- Практически применима скорее как референс языка постановки, чем как инструмент проекта.

> 💡 **Действие:** В 4D-шаблонах для GPT Image 2 добавь формулировки из world model-подхода: “single frame from a controlled 6-DoF camera path, extreme foreground object crossing the lens, strong parallax layers, coherent 3D world behind her”. Протестируй на Jade или Kitana с оружием в foreground, чтобы усилить ощущение кадра из движущейся камеры, а не обычного постера.

Теги: `SANA-WM` `world-model` `video-ai` `camera-control` `parallax` `4d-depth`

[Источник](https://thecosmicmeta.com/nvidias-sana-wm-minute-scale-720p-video-ai-on-one-gpu/)

---

### Hailuo 02 усилил контроль start/end frames для динамичных видео

*14 мая 2026 · minimax.io*

MiniMax описывает обновление Hailuo 02 с функциями Start and End Frame и End Frame Only для видеогенерации. Основной акцент сделан на лучшем следовании сложным инструкциям, где модель должна связывать начальный и финальный кадр через заданное движение камеры и объекта. В статье отдельно выделены быстрые zoom-in, orbit camera, perspective shifts и трансформационные переходы. Для секции 4D полезна идея строить сцену не как статичный кадр, а как замороженный момент между стартовым и финальным состоянием. Примеры с экстремальной физикой, паркуром и гимнастикой подходят как референс для looming pose, сильного parallax и foreground-объекта, летящего в камеру. Прямо в проекте Hailuo не используется, но принципы start/end frame можно перенести в GPT Image 2 как описание кадра с явным предыдущим и следующим движением.

- Start and End Frame задаёт контролируемую траекторию между двумя ключевыми кадрами.
- Модель делает упор на сложные инструкции: rapid push-in, orbit camera, perspective shifts.
- Extreme physics-based dynamics полезны как язык для поз с прыжком, выпадом и оружием в объектив.
- End Frame Only предлагает мыслить от финального доминантного кадра назад к движению.
- Для проекта это не инструмент, а референсный подход к формулировке 4D-промптов.

> 💡 **Действие:** Для GPT Image 2 добавь в 4D-шаблон блок: «this is the final freeze-frame after a rapid push-in from POV, weapon/hand already crossed the screen plane, background still shows motion parallax». Протестируй на Jade staff и Kitana fan: финальный кадр должен выглядеть как end frame видео, где объект уже почти ударил в объектив.

Теги: `Hailuo-02` `video-generation` `start-end-frames` `camera-motion` `4d-depth`

[Источник](https://www.minimax.io/news/minimax-hailuo-02-start-end-frames-feature-is-now-live)

---