В Nature вышла работа команды Дэвида Сильвера (создателя AlphaGo), в которой они разработали подход, где мета-сеть учится генерировать правила обновления для RL-агентов.
Вместо того, чтобы жёстко прописывать формулы, как в классических методах, система:
- Собирает опыт от популяции агентов в сотнях разных сред
- Обучает мета-сеть, которая производит правила обновления параметров агентов
- Оптимизирует мета-параметры так, чтобы максимизировать долгосрочные награды.
Система сама решает, что предсказывать.
Полученный алгоритм назвали DiscoRL (Discovered Reinforcement Learning). Его протестировали на нескольких бенчмарках:
Atari (57 игр): DiscoRL показал SOTA результаты, превзойдя Rainbow DQN, PPO и другие классические методы по медианной награде.
Обобщение на новые задачи: Без дополнительного обучения алгоритм достиг сильных результатов на ProcGen, показал конкурентные результаты на DMLab, NetHack, Crafter и Sokoban.
Масштабирование: Увеличение разнообразия обучающих сред (с 57 до 103) улучшило обобщение. Система не переобучается на узкий набор задач.
Интересная находка - Обнаруженные предсказания ведут себя не как классические value-функции. Они "активируются" (резко растут) перед значимыми событиями — большими наградами или изменениями политики. Это emergent behavior, который не был заложен изначально.
Что это даёт?
Для исследований: Меньше времени на ручное проектирование алгоритмов, больше фокуса на разнообразии данных и архитектуре мета-сети.
Для практики: Потенциально более адаптивные алгоритмы для робототехники, игр, оптимизации. Если правила обучения подстраиваются под распределение задач, это может ускорить применение RL в новых доменах.
Это шаг к рекурсивному самоулучшению — системы, которые учатся учиться. Аналогия с биологией: как эволюция создала способность к обучению у животных, так здесь алгоритм "эволюционирует" через опыт популяции агентов.
Ограничения:
1. Обучение требует сотен млн шагов по средам с популяцией агентов.
2. Пока подход протестирован на off-policy RL с replay buffer. Как он работает в on-policy настройках или в continuous control задачах — открытый вопрос.
3. Все эксперименты в симуляторах (Atari, ProcGen и т.д.). Перенос на физических роботов или реальные системы пока не продемонстрирован.
4. Хотя авторы анализируют поведение предсказаний, понять, почему конкретное правило обновления работает, сложнее, чем с явными формулами классических методов.






" 











