Physical Intelligence опубликовала исследование, которое закрывает главную боль современной робототехники.
Они решили фундментальную проблему обучения VLA-моделей с диффузионными выходами. Их метод обучает VLA-модели с диффузионными выходами в 7,5 раз быстрее, чем предыдущие подходы.
Ключевая идея - защитить VLM-основу во время обучения через изоляцию знаний.
Эта работа дает нам несколько важных практических преимуществ:
1. Теперь роботы могут одновременно:
- Точно понимать сложные языковые инструкции ("положи ложку в контейнер для посуды")
- Выполнять плавные, точные движения (складывать белье, заправлять постель)
- Быстро адаптироваться к новым задачам и окружениям.
2. Снижение барьеров входа:
обучение роботов стало в 7,5 раз быстрее = меньше времени и денег на разработку.
3. Масштабирование. Компании смогут быстрее внедрять роботизированные решения, не тратя месяцы на специализированное обучение для каждой задачи.
4. Решена ключевая проблема мультимодального машинного обучения - как объединить разные типы данных (язык, зрение, действия) без взаимного вреда.
Это шаг - путь к AGI, созданию систем искусственного интеллекта, которые могут:
- Рассуждать как люди (языковые модели)
- Видеть как люди (компьютерное зрение)
- Действовать как люди (робототехника).