Вы здесь

Прорыв от Meta*+UC Berkeley: LLM обучает сам себя без человека

Дата публикации:04.06.2025, 06:38

474

Поделись с друзьями!

Команда исследователей создала Self-Challenging Agents (SCA ) - новый подход к обучению языковых моделей, который позволяет им самостоятельно создавать задачи для своего улучшения.

Решает критическую проблему масштабирования - создание обучающих данных для агентов было узким местом, требующим дорогой ручной разметки.

Основная идея - LLM играет 2 роли:
1. Создатель задач - исследует среду, взаимодействует с инструментами и генерирует новые задачи.
2. Исполнитель - решает эти задачи и обучается на них.

Ключевая инновация - формат "Code-as-Task".
-Инструкция для пользователя
- Функция проверки (код для автоматической оценки)
- Пример правильного решения
- Примеры неудачных попыток.

На модели Llama-3.1-8B достигнуто двукратное улучшение производительности в задачах использования инструментов без использования человеческих данных - только на самосгенерированных задачах.

Ограничения:
1. ~ 15-20% сгенерированных задач все еще содержат ошибки.
2. улучшения в основном касаются конкретной среды, а не общих навыков.
3. все еще отстает от обучения на идеальных человеческих данных.

*запрещенная в России организация.