ИИ-агенты — горячая тема уже давно, начиная от генерации кода до создания текстов и изображений, они обещают революцию.
Но за хайпом стоит серьезная проблема, о которой говорят эксперты вроде Андрея Карпати, со-основателя OpenAI, и Баладжи Сринивасана в недавних обсуждениях на X.
Проблема в том, что ИИ отлично справляется с быстрой генерацией контента, но проверка результатов — настоящий камень преткновения.
Пользователи отмечают, что до 90% времени работы с ИИ уходит на проверку его выводов.
Люди тратят больше времени на проверку кода, созданного ИИ, чем на промпты. 90% работы с ИИ-агентами — это проверка результатов, говорят пользователи.
Почему генерация легкая?
- Изображения можно быстро оценить визуально.
- Простой код проверяется по шаблонам.
- Модели опираются на паттерны из огромных обучающих данных.
Почему верификация сложная?
1. Требует глубокого понимания предметной области, например, медицина, финансы, наука.
2. Нужны логические рассуждения, а не только распознавание паттернов.
3. Текущие модели, вроде трансформеров, оптимизированы для предсказания, а не для проверки фактов или логики.
4. Верификация требует более сложных моделей, способных к рассуждению, а не только к генерации.
5. В критических областях нет надежных эталонных данных для автоматической верификации.
Карпати называет это "verification gap" — новым узким местом ИИ после решения проблемы скорости генерации. Без надежной верификации ИИ-агенты остаются инструментами, требующими постоянного надзора, особенно в медицине, финансах и научных исследованиях.
Исследователи работают над решениями:
- Обучение с обратной связью (RLHF) для улучшения проверки.
- Специализированные модели для факт-чекинга и дебаггинга кода.
- Интеграция с внешними инструментами, такими как симуляторы или базы данных.
Пока verification gap не закрыт, ИИ-агенты — это мощный, но не автономный инструмент. Хайп вокруг них оправдан, но реальность требует трезвого взгляда.