Вы здесь

Ян ЛеКун показал альтернативу генеративным VLM

Дата публикации:29.12.2025, 07:25

107

Поделись с друзьями!

Meta* FAIR представила VL-JEPA — первую vision-language модель, которая не генерирует токены, а предсказывает смысл в абстрактном пространстве.

Это развитие линии JEPA, которую ЛеКун продвигает как альтернативу генеративному подходу. Сначала был V-JEPA для видео (понимание физики мира), затем LeJEPA (теоретическое обоснование).

Теперь — полноценная мультимодальная модель.

Вместо того, чтобы предсказывать следующий токен как GPT/Claude, VL-JEPA предсказывает эмбеддинг — «смысл» ответа. Декодер в текст вызывается только когда нужно показать результат человеку.

Результаты:
- 1.6млрд параметров конкурирует с 72B Qwen-VL на задаче понимания действий
- На 50% меньше обучаемых параметров при лучшем качестве в контролируемом сравнении
- Декодирование в ~3 раза эффективнее за счёт selective decoding
- Одна модель решает classification, retrieval и VQA без изменения архитектуры.

Почему это важно?Генеративные VLM тратят ресурсы на моделирование поверхностных вариаций текста. VL-JEPA работает на уровне семантики, что даёт выигрыш в эффективности и скорости. Особенно важно для real-time приложений: робототехника, AR-очки, стриминг видео.

Авторы говорят, что это не замена VLM для задач рассуждения, использования инструментов и агентного поведения — там генеративные модели пока лидируют.

*запрещенная организация в России.