Недавно вышли 2 интересные работы об агентных системах ИИ, которые дают разные перспективы на их развитие.
Первая работа от NVIDIA и Georgia Tech утверждает, что будущее агентного ИИ за малыми языковыми моделями (SLMs). Основная идея - для большинства повторяющихся специализированных задач огромные модели избыточны. SLMs, которые помещаются на обычный компьютер, могут эффективнее справляться с рутинными операциями, экономя ресурсы и деньги.
Вторая работа от Meta* проверяет, насколько хорошо современные ИИ могут воспроизводить научные результаты. Исследователи создали бенчмарк на основе соревнования по ускорению обучения GPT-2, где сообщество сократило время с 45 до 3 минут.
В результате даже лучшие модели (o3-mini, Claude 3.7, Gemini-2.5-Pro, DeepSeek-R1) восстанавливают менее половины улучшений, даже когда им дают подробные инструкции.
Исследователи выявили несколько ключевых проблем:
- Агенты часто не могут правильно реализовать даже описанные изменения
- Сложности с пониманием и применением новых техник
- Проблемы с отладкой собственного кода
- Трудности с оптимизацией производительности.
Получается , если большие модели не справляются с воспроизведением кода, как могут справиться малые?
Ответ в типах задач. NVIDIA говорит о простых повторяющихся операциях, а Meta тестирует сложное научное программирование с отладкой и оптимизацией. Это разные миры сложности.
Что это значит для нас?
1. Специализация работает, узкие модели для узких задач могут быть эффективнее универсальных
2. Автономность далека, даже с подробными инструкциями ИИ пока не может надёжно программировать
3. Будущее гибридное, вероятно, увидим системы из множества специализированных моделей разного размера.
Эти работы показывают, что путь к полноценным ИИ-агентам будет постепенным. Экономическая оптимизация через SLMs имеет смысл, но не стоит ожидать прорывов в сложных творческих задачах.
Интересный комментарий от Андрея Карпатого, он отмечает, что рекурсивное самоулучшение ИИ — это не внезапный скачок, а процесс, который уже идёт. От IDE до GitHub Copilot — мы постепенно автоматизируем всё больше.
При этом Карпатый напоминает: nanoGPT — это всего 750 строк учебного кода, а реальные системы в сотни раз сложнее.
Так что обе статьи правы - специализация неизбежна, но до автономных ИИ-исследователей ещё далеко.
*запрещенная в России организация.