Искусственный интеллект Claude от Anthropic побеждает ChatGPT в таблице лидеров Chatbot Arena

В то время как ChatGPT от Open AI пользуется наибольшей популярностью среди всех инструментов генеративного искусственного интеллекта, его первое место в популярной краудсорсинговой таблице лидеров, используемой исследователями искусственного интеллекта, заняла топовая работа Claude 3 от постоянного конкурента Anthropic.

Восхождение Claude в рейтинге Chatbot Arena знаменует собой первый случай, когда GPT-4 OpenAI, который поддерживает ChatGPT Plus, был свергнут с трона с тех пор, как он впервые появился в таблице лидеров в мае прошлого года.

Chatbot Arena находится в ведении организации Large Model Systems (LMSYS ORG), исследовательской организации, занимающейся открытыми моделями, которые поддерживают сотрудничество между студентами и преподавателями Калифорнийского университета в Беркли, Калифорнийского университета в Сан-Диего и Университета Карнеги-Меллона. Платформа представляет пользователям две немаркированные языковые модели и просит их оценить, какая из них работает лучше, на основе любых критериев, которые они сочтут подходящими.

После объединения тысяч субъективных сравнений Chatbot Arena вычисляет "лучшие" модели для таблицы лидеров, обновляя ее с течением времени.

Этот субъективный подход, основанный на разрозненных личных вкусах участников, отличает Chatbot Arena от других тестов искусственного интеллекта. Тренеры моделей не могут "жульничать", подгоняя свои модели так, чтобы они превосходили алгоритм, как они могли бы это сделать с количественными тестами. Благодаря измерению того, что люди просто предпочитают, Chatbot Arena является ценным качественным ресурсом для исследователей искусственного интеллекта.

Платформа собирает отзывы пользователей и прогоняет их через статистическую модель Брэдли-Терри, чтобы предсказать вероятность того, что конкретная модель превзойдет другие в прямой конкуренции. Этот подход позволяет генерировать исчерпывающую статистику, включая диапазоны доверительных интервалов для оценок рейтинга Elo — тот же метод, который используется для измерения мастерства шахматистов.

10 лучших LLM по рейтингу Chatbot Arena. Изображение: Huggingface

Взлет Claude 3 Opus на вершину - не единственное значительное событие в таблице лидеров. Claude 3 Sonnet (модель среднего размера, доступная бесплатно) и Claude 3 Haiku (меньшая и более быстрая модель), также разработанные Anthropic, в настоящее время находятся на 4-м и 6-м местах соответственно.

Вы здесь

Искусственный интеллект Claude от Anthropic побеждает ChatGPT в таблице лидеров Chatbot Arena