Вместо того, чтобы обучать нейросеть тысячами партий, они используют LLM для генерации исполняемого кода правил игры.
Метод создаёт модель игрового мира в виде Python-кода. Этот код затем используется совместно с планировщиком MCTS (Monte Carlo Tree Search) для выбора действий.
Игры здесь — удобный тестовый стенд, так как та же технология применима к:
1. Робототехнике
2. Многоагентному планированию
3. Задачам с неопределённостью
Ранее Meta(запрещенная в РФ) выпустила модель, цель которой научить LLM симулировать выполнение кода. А тут у Google модель генерирует код.