Оказалось, что все рейтинги ИИ-моделей искажены

Группа исследователей выпустила статью, в которой разоблачает системные проблемы популярного рейтинга Chatbot Arena. Оказывается, вместо честной гонки, мы видим манипуляции и неравные условия.

Почему это важно? Chatbot Arena влияет на исследования, инвестиции и восприятие ИИ. Но вместо реального прогресса мы видим, как крупные игроки эксплуатируют лазейки, усиливая свое доминирование. Это бьет по открытым проектам и тормозит инновации. Вот, что важно знать: Ключевые проблемы: 1. Привилегии для гигантов: OpenAI, Google, Meta* и Anthropic тестируют десятки приватных моделей (например, Meta — 27 вариантов Llama 4) и публикуют только лучшие результаты, завышая свои позиции. 2. Неравный доступ к данным: 62.8% тестовых запросов идут четырем крупным компаниям, а 83 открытым моделям — всего 29.7%.

Данные Arena дают до 112% прироста в тестах, но доступ к ним ограничен для небольших команд. 3. Тихое исключение: 205 из 243 моделей (66% открытых) были незаметно убраны из рейтинга без объяснений. Проприетарные модели исключают реже. 4. Непрозрачность. Разная частота тестов, скрытые правила и отсутствие публичности результатов создают иллюзию объективности. Arena уже признала некоторые проблемы, но утверждает, что они не являются результатом фундаментальных изъянов в дизайне платформы. Они заявили, что обновили свои правила, чтобы "усилить приверженность справедливым и воспроизводимым оценкам".

Реакция сообщества: - На X и Reddit разработчики жалуются: их модели получают меньше запросов и чаще исключаются. - Есть призывы к бойкоту Arena и переходу на Hugging Face Open LLM Leaderboard. - Есть идеи о децентрализованных платформах, где данные распределяются равномерно, но они пока в зачатке. Что предлагают авторы статьи? - Прозрачность: публиковать все результаты тестов. - Равные правила: ограничить число приватных вариантов и справедливо распределять запросы. - Честное исключение: уведомлять разработчиков и не дискриминировать открытые модели. *запрещенная в России компания.

Вы здесь

Оказалось, что все рейтинги ИИ-моделей искажены