MIT о новом подходе к решению задач абстрактного мышления через компьютерное зрение
Есть такой бенчмарк ARC - визуальные головоломки, которые проверяют способность к абстрактному мышлению. Задачи выглядят как цветные сетки, где нужно понять правило и применить его к новому примеру.
Последние пару лет все пытались решить ARC большими языковыми моделями - GPT, Claude, специализированными рекуррентными моделями.
MIT задали простой вопрос: а почему вообще визуальную задачу пытаются решать через язык?
Их подход назвали VARC (Vision ARC). Суть проста: это задача перевода изображения в изображение. Не токены, не текст - чистое зрение.
Тут сразу же отреагировали люди из ex-DeepMind на эту работу, предложив посмотреть на их PushWorld - другой бенчмарк для абстрактного мышления.
Похоже, в сообществе зреет консенсус: для абстрактного мышления нужны специализированные архитектуры с правильными индуктивными смещениями, а не просто "больше параметров".






" 











