SWiRL — это новый подход, который учит LLM решать сложные задачи, разбивая их на логические шаги. SWiRL использует синтетические данные и многошаговое обучение с подкреплением, чтобы модели не просто выдавали ответы, а учились рассуждать и работать с инструментами (поиск, Python, калькуляторы). SWiRL учится даже на "ошибочных" траекториях, если шаги в них логичны. Это как человек, который учится на своих попытках, даже если не сразу нашёл правильный ответ. Ключевые характеристики: 1. Модель, обученная на одной задаче, справляется с другими (например, от поиска к математике). 2. Каждый шаг объясняется, что важно для доверия к ИИ. 3. Синтетические данные и оффлайн-генерация снижают затраты на обучение. 4. Увеличение данных улучшает результаты, даже для небольших моделей. SWiRL делает ИИ-агентов способными выполнять сложные рабочие процессы: от анализа данных до подготовки отчётов. Комбинируйте SWiRL с открытыми моделями, чтобы ускорить исследования без больших бюджетов.

DeepMind и Стэнфорд представили метод, обучающий ИИ-агентов пошаговому мышлению и адаптации к новым задачам
Поделись с друзьями!