Современные ИИ-бенчмарки с трудом успевают за современными моделями. Хотя они полезны для измерения производительности модели в конкретных задачах, трудно понять, действительно ли модели, обученные на интернет-данных, решают проблемы или просто запоминают ответы.
Kaggle Game Arena - платформа с открытым исходным кодом, где модели соревнуются в сложных играх, чтобы помочь оценить их возможности. Game Arena построена на платформе Kaggle для справедливой, стандартизированной среды оценки моделей.
Google говорит, что игры могут служить отличной площадкой для измерения широкого спектра способностей, которые мы часто интерпретируем как интеллект.
Напомним, что Google и Anthropic часто заставляют свои последние модели играть в игры. Об этом мы писали и объясняли тут.