Continual Harness для самоулучшающихся игровых агентов
Статья описывает Continual Harness — оболочку для foundation agents, которая позволяет агенту улучшать себя во время одного длинного прохождения без сброса эпизода. Авторы исходят из экспериментов Gemini Plays Pokemon, где агент проходил длинные игры Pokemon с памятью, инструментами, планированием и human-in-the-loop доработкой harness. Новый подход убирает человека из цикла: агент сам чередует действия в среде с рефакторингом собственного prompt, sub-agents, skills и memory на основе прошлых траекторий. В отличие от prompt-optimization методов, которым нужны повторные эпизоды и reset, Continual Harness адаптируется онлайн внутри одной непрерывной партии. На Pokemon Red и Emerald метод снижает стоимость в button-press относительно минимального baseline и частично догоняет hand-engineered expert harness. Также описан цикл process-reward co-learning, где rollout open-source агента переоценивается frontier teacher и используется для обновления модели без сброса окружения.
- Ключевая идея — не просто хранить state, а позволять агенту менять prompt, skills и memory во время длинного run.
- Метод ориентирован на long-horizon partial-observability задачи, где нельзя удобно перезапускать эпизод.
- Прошлые trajectory data используются как материал для самоанализа и улучшения стратегии.
- Для игрового агента важна разница между минимальным raw interface и expert harness с доменными подсказками.
- Process-reward teacher loop можно отделить от основного gameplay loop и применять как post-run улучшение.