Вы здесь

Google DeepMind: ИИ создал RL-алгоритм, превзошедший разработанные людьми

Дата публикации:28.10.2025, 14:39

194

Поделись с друзьями!

В Nature вышла работа команды Дэвида Сильвера (создателя AlphaGo), в которой они разработали подход, где мета-сеть учится генерировать правила обновления для RL-агентов.

Вместо того, чтобы жёстко прописывать формулы, как в классических методах, система:

- Собирает опыт от популяции агентов в сотнях разных сред
- Обучает мета-сеть, которая производит правила обновления параметров агентов
- Оптимизирует мета-параметры так, чтобы максимизировать долгосрочные награды.

Система сама решает, что предсказывать.

Полученный алгоритм назвали DiscoRL (Discovered Reinforcement Learning). Его протестировали на нескольких бенчмарках:

Atari (57 игр): DiscoRL показал SOTA результаты, превзойдя Rainbow DQN, PPO и другие классические методы по медианной награде.

Обобщение на новые задачи: Без дополнительного обучения алгоритм достиг сильных результатов на ProcGen, показал конкурентные результаты на DMLab, NetHack, Crafter и Sokoban.

Масштабирование: Увеличение разнообразия обучающих сред (с 57 до 103) улучшило обобщение. Система не переобучается на узкий набор задач.

Интересная находка - Обнаруженные предсказания ведут себя не как классические value-функции. Они "активируются" (резко растут) перед значимыми событиями — большими наградами или изменениями политики. Это emergent behavior, который не был заложен изначально.

Что это даёт?

Для исследований: Меньше времени на ручное проектирование алгоритмов, больше фокуса на разнообразии данных и архитектуре мета-сети.

Для практики: Потенциально более адаптивные алгоритмы для робототехники, игр, оптимизации. Если правила обучения подстраиваются под распределение задач, это может ускорить применение RL в новых доменах.

Это шаг к рекурсивному самоулучшению — системы, которые учатся учиться. Аналогия с биологией: как эволюция создала способность к обучению у животных, так здесь алгоритм "эволюционирует" через опыт популяции агентов.

Ограничения:
1. Обучение требует сотен млн шагов по средам с популяцией агентов.
2. Пока подход протестирован на off-policy RL с replay buffer. Как он работает в on-policy настройках или в continuous control задачах — открытый вопрос.
3. Все эксперименты в симуляторах (Atari, ProcGen и т.д.). Перенос на физических роботов или реальные системы пока не продемонстрирован.
4. Хотя авторы анализируют поведение предсказаний, понять, почему конкретное правило обновления работает, сложнее, чем с явными формулами классических методов.