METR опубликовала исследование, которое противоречит популярному мнению об эффективности ИИ-агентов в программировании.
Анализ показал, что при работе с ИИ-агентами:
1. Меньше времени тратят на активное программирование (25% vs 37% без ИИ)
2. Больше времени уходит на промптинг ИИ, ожидание ответов и проверку выводов
3. Много времени уходит на исправление ошибок, которые вносит ИИ-код.
4. Новые модели (Opus 4, o3) работают значительно лучше предыдущих версий.
Важный методологический момент - разработчики выбирали для исследования только определенные типы задач, избегая критически важных проектов.
METR честно признает ограничения:
- Исследование не охватывает всю разработку ПО
- Не делает выводов о будущих возможностях ИИ
- Фокусируется на создании системы раннего предупреждения для ускорения R&D ИИ
Исследование показывает 2 важных момента:
1. разработчики переоценивают влияние ИИ на свою продуктивность
2. вместо опросов следует измерять фактические результаты.
Результаты не означают, что ИИ бесполезен в программировании, но подчеркивают необходимость более осознанного подхода к его использованию. При быстром развитии ИИ-моделей эти выводы могут быстро устареть, но методология измерения реального воздействия остается актуальной.