EPFL выяснили, что ведущие LLM плохо понимают визуальную информацию
Исследователи протестировали GPT-4o, Claude 3.5 Sonnet, Gemini, Llama и др. на стандартных задачах компьютерного зрения: сегментация, оценка глубины и др., используя известные датасеты (COCO, ImageNet).