BTC 101366$
ETH 2413.09$
Tether (USDT) 1$
Toncoin (TON) 3.04$
telegram vk
telegram vk Х
Russian English
"

Прорыв от Meta*+UC Berkeley: LLM обучает сам себя без человека

Дата публикации:04.06.2025, 06:38
217
217
Поделись с друзьями!

Команда исследователей создала Self-Challenging Agents (SCA) - новый подход к обучению языковых моделей, который позволяет им самостоятельно создавать задачи для своего улучшения.

Решает критическую проблему масштабирования - создание обучающих данных для агентов было узким местом, требующим дорогой ручной разметки.

Основная идея - LLM играет 2 роли:
1. Создатель задач - исследует среду, взаимодействует с инструментами и генерирует новые задачи.
2. Исполнитель - решает эти задачи и обучается на них.

Ключевая инновация - формат "Code-as-Task".
-Инструкция для пользователя
- Функция проверки (код для автоматической оценки)
- Пример правильного решения
- Примеры неудачных попыток.

На модели Llama-3.1-8B достигнуто двукратное улучшение производительности в задачах использования инструментов без использования человеческих данных - только на самосгенерированных задачах.

Ограничения:
1. ~ 15-20% сгенерированных задач все еще содержат ошибки.
2. улучшения в основном касаются конкретной среды, а не общих навыков.
3. все еще отстает от обучения на идеальных человеческих данных.

*запрещенная в России организация.

Подписывайся на наш Telegram канал. Не трать время на мониторинг новостей. Только срочные и важные новости

https://t.me/block_chain24