Исследователи из UMass создали MindJourney — гибридная система, объединяющая Vision-Language Model (VLM) и модель, имитирующую 3D-физику и движение камеры.
То есть по сути, один кадр превращается в целое путешествие, что сильно улучшает понимание 3D-пространства у ИИ.
У этой работы новый подход к пространственному ИИ, а также есть архитектурная новизна — комбинация VLM + world model. Более того можно использовать в робототехнике, AR/VR, автономных системах.
Как это работает?
Воображение - VLM и 3D-модель мира совместно "обходят" сцену, генерируя разные ракурсы
Наблюдение - модель собирает подсказки из этого виртуального тура
Ответ - используя дополнительный контекст, VLM дает более точный ответ.