Команда исследователей создала Self-Challenging Agents (SCA) - новый подход к обучению языковых моделей, который позволяет им самостоятельно создавать задачи для своего улучшения.
Решает критическую проблему масштабирования - создание обучающих данных для агентов было узким местом, требующим дорогой ручной разметки.
Основная идея - LLM играет 2 роли:
1. Создатель задач - исследует среду, взаимодействует с инструментами и генерирует новые задачи.
2. Исполнитель - решает эти задачи и обучается на них.
Ключевая инновация - формат "Code-as-Task".
-Инструкция для пользователя
- Функция проверки (код для автоматической оценки)
- Пример правильного решения
- Примеры неудачных попыток.
На модели Llama-3.1-8B достигнуто двукратное улучшение производительности в задачах использования инструментов без использования человеческих данных - только на самосгенерированных задачах.
Ограничения:
1. ~ 15-20% сгенерированных задач все еще содержат ошибки.
2. улучшения в основном касаются конкретной среды, а не общих навыков.
3. все еще отстает от обучения на идеальных человеческих данных.
*запрещенная в России организация.