Вы здесь

Создана ИИ-модель MindJourney, которая решает задачи в 3D-пространстве

Дата публикации:25.07.2025, 18:38

1147

Поделись с друзьями!

Исследователи из UMass создали MindJourney — гибридная система, объединяющая Vision-Language Model (VLM) и модель, имитирующую 3D-физику и движение камеры.

То есть по сути, один кадр превращается в целое путешествие, что сильно улучшает понимание 3D-пространства у ИИ.

У этой работы новый подход к пространственному ИИ, а также есть архитектурная новизна — комбинация VLM + world model. Более того можно использовать в робототехнике, AR/VR, автономных системах.

Как это работает?

Воображение - VLM и 3D-модель мира совместно "обходят" сцену, генерируя разные ракурсы
Наблюдение - модель собирает подсказки из этого виртуального тура
Ответ - используя дополнительный контекст, VLM дает более точный ответ.