Вы здесь

MIT о новом подходе к решению задач абстрактного мышления через компьютерное зрение

Дата публикации:19.11.2025, 18:13

785

Поделись с друзьями!

MIT о новом подходе к решению задач абстрактного мышления через компьютерное зрение

Есть такой бенчмарк ARC - визуальные головоломки, которые проверяют способность к абстрактному мышлению. Задачи выглядят как цветные сетки, где нужно понять правило и применить его к новому примеру.

Последние пару лет все пытались решить ARC большими языковыми моделями - GPT, Claude, специализированными рекуррентными моделями.

MIT задали простой вопрос: а почему вообще визуальную задачу пытаются решать через язык?
Их подход назвали VARC (Vision ARC). Суть проста: это задача перевода изображения в изображение. Не токены, не текст - чистое зрение.

Тут сразу же отреагировали люди из ex-DeepMind на эту работу, предложив посмотреть на их PushWorld - другой бенчмарк для абстрактного мышления.

Похоже, в сообществе зреет консенсус: для абстрактного мышления нужны специализированные архитектуры с правильными индуктивными смещениями, а не просто "больше параметров".