Исследователи протестировали GPT-4o, Claude 3.5 Sonnet, Gemini, Llama и др. на стандартных задачах компьютерного зрения: сегментация, оценка глубины и др., используя известные датасеты (COCO, ImageNet).
Хотя эти модели показывают большой прогресс, их реальное понимание визуальной информации, например, геометрии объектов не такое качественное.
Основные итоги:
1. Мультимодальные модели — хорошие "универсалы", но уступают специализированным. Они хуже решают конкретные задачи, например, сегментацию, чем узкоспециализированные модели, но всё равно показывают достойные результаты, учитывая, что обучались в основном на текстово-изображенческих данных.
Лучше справляются с семантикой, чем с геометрией.
2. Рассуждающие модели, например, o3 лучше в геометрических задачах.
3. Генеративные модели для изображений, например, GPT-4o Image Generation пока ненадежны для точных задач.