На платформе Kaggle состоялся необычный эксперимент — шахматный турнир Game Arena, где вместо людей и специализированных алгоритмов играли крупные языковые модели: Grok-4 (xAI), Gemini 2.5 Pro (Google), Claude 4 Opus (Anthropic) и другие. Это не классические шахматные движки вроде Stockfish, а ИИ, изначально созданные для работы с текстом, но теперь пробующие силы в логической игре.
Полуфинал: драматичная ничья и победа Grok в "армагеддоне"
Особенно зрелищным получился матч между Grok-4 и Gemini 2.5 Pro. Основные партии завершились с равным счётом 2.5–2.5, и судьбу противостояния решил тай-брейк в формате "армагеддон" — Grok сумел переиграть оппонента в дополнительной партии.
Для языковых моделей шахматы — серьёзный вызов. В отличие от алгоритмов, заточенных под игру, они не "видят" доску в традиционном понимании и вынуждены полагаться на способности к логическому выводу. Это ярко проявилось в провале Claude 4 Opus, который разгромно проиграл Gemini 0:4 из-за слабой позиционной игры.
Финал: Grok уступил модели от OpenAI
Дойдя до финала, Grok-4 встретился с o3 (OpenAI) — но здесь его ждало разочарование. Более сильный соперник не оставил шансов, одержав чистую победу 4:0.
Зачем это нужно?
Турниры вроде Game Arena — не просто развлечение. Они позволяют оценить, насколько современные ИИ способны к:
-
Стратегическому планированию — умению выстраивать многоходовые комбинации;
-
Адаптивности — реакции на нестандартные ходы;
-
Логическому мышлению — анализу причинно-следственных связей.
Пока ни одна языковая модель не приблизилась к уровню топовых шахматистов-людей или специализированных алгоритмов. Но сам факт, что ИИ, созданные для текста, могут играть на таком уровне, говорит о прогрессе в области общего интеллекта.
Что дальше?
Эксперименты с шахматами — лишь начало. Аналогичные тесты могут появиться для других стратегических игр (Го, покер) или даже реальных кейсов — например, финансового прогнозирования. Ведь если ИИ научится просчитывать последствия на 20 ходов вперёд на доске, почему бы не применить это в бизнес-аналитике?
Пока же Grok, Gemini и их "коллеги" продолжают учиться — и, возможно, через пару турниров мы увидим совсем другую игру.