Согласно исследованию Snorkel AI, использующей платформу Snorkel Flow для разработки специализированных ИИ-решений, лучшие современные модели демонстрируют радикально разные результаты на академических тестах и реальных бизнес-задачах. В то время как на стандартных тестах вроде MMLU модели показывают 90%+ точности, их эффективность при решении практических финансовых задач не превышает 52% (Claude 3.7).
Ключевые проблемы современных LLM
Главным узким местом современных языковых моделей оказались агентские возможности. Модели демонстрируют низкую эффективность при выполнении задач, требующих:
Многошагового планирования со средней глубиной в 12 шагов
Использования специализированных инструментов (SQL, анализ документов)
Способности к самокоррекции при обнаружении ошибок
Интеграции информации из разрозненных источников
Эти ограничения указывают на фундаментальную проблему — текущая архитектура LLM плохо подходит для автономной работы в сложных корпоративных средах.
Проблема специализации и методологии
Исследование выявило критическую важность доменной специализации. Тот факт, что даже лучшие универсальные модели справляются лишь с половиной финансовых задач, свидетельствует о необходимости либо узкоспециализированных решений, либо принципиально новых подходов к обучению.
Примечательно, что разрыв между открытыми (10-20% точности) и закрытыми (50-80%) моделями указывает не только на разницу в вычислительных ресурсах, но и на фундаментальные различия в архитектурных решениях и методах обучения.
Последствия для корпоративного внедрения
Результаты исследования объясняют, почему многие корпоративные внедрения ИИ не оправдывают ожиданий. Если модели с трудом справляются с анализом финансовых документов — относительно стандартизированной задачей, выполняемой тысячами аналитиков, — автоматизация более сложных бизнес-процессов в ближайшее время маловероятна.
Особую проблему продолжают представлять неструктурированные данные, обработка которых остается слабым местом даже самых продвинутых моделей.
Необходимость новых подходов к оценке
Традиционные бенчмарки, по мнению исследователей, не только бесполезны, но и вредны, создавая ложное ощущение прогресса. Требуется разработка новых метрик, лучше отражающих реальную применимость моделей в бизнес-среде.
Перспективы развития
Ближайшее будущее, вероятно, принадлежит гибридным системам, где ИИ берет на себя рутинные операции, а человек сохраняет контроль над принятием ключевых решений. Такой подход позволит использовать сильные стороны современных моделей, нивелируя их текущие ограничения.