BTC 107966$
ETH 2528.46$
Tether (USDT) 1$
Toncoin (TON) 2.75$
telegram vk
telegram vk Х
Russian English
Высокодоходный майнинг бизнес
"

EPFL выяснили, что ведущие LLM плохо понимают визуальную информацию

Дата публикации:07.07.2025, 20:10
112
112
Поделись с друзьями!

Исследователи протестировали GPT-4o, Claude 3.5 Sonnet, Gemini, Llama и др. на стандартных задачах компьютерного зрения: сегментация, оценка глубины и др., используя известные датасеты (COCO, ImageNet).

Хотя эти модели показывают большой прогресс, их реальное понимание визуальной информации, например, геометрии объектов не такое качественное.

Основные итоги:

1. Мультимодальные модели — хорошие "универсалы", но уступают специализированным. Они хуже решают конкретные задачи, например, сегментацию, чем узкоспециализированные модели, но всё равно показывают достойные результаты, учитывая, что обучались в основном на текстово-изображенческих данных.

Лучше справляются с семантикой, чем с геометрией.

2. Рассуждающие модели, например, o3 лучше в геометрических задачах.

3. Генеративные модели для изображений, например, GPT-4o Image Generation пока ненадежны для точных задач.

Подписывайся на наш Telegram канал. Не трать время на мониторинг новостей. Только срочные и важные новости

https://t.me/block_chain24