Исследователи из AIRI, Т-Технологии представили в Сингапуре XLand-100B — это масштабный набор данных для обучения ИИ-агентов в контексте.
Он содержит: - 100 млрд переходов состояний - 2,5 млрд эпизодов - Почти 30 000 различных задач 320 ГБ данных (сжатых). Представьте разницу между двумя подходами: 1. Традиционное обучение с подкреплением - ИИ-агент обучается решать конкретную задачу через множество проб и ошибок, но не может применить этот опыт к новым задачам без повторного обучения. 2. Обучение в контексте - ИИ-агент учится "учиться" на примерах, адаптируясь к новым задачам, просто наблюдая, как они решаются — аналогично тому, как человек может освоить новый навык, посмотрев несколько примеров.
Как рассказал нам Владислав Куренков, руководитель научной группы «Адаптивные агенты» AIRI, команда не остановилась на создании датасета XLand-100B и уже сделала проект Vintix — модель для обучения с подкреплением в контексте, которая преодолевает одно из главных ограничений XLand. «Мы уже выпустили Vintix — модель для in-context RL, обученную на датасетах из нескольких доменов, включая робототехнику и индустриальное управление», — отмечает Куренков.
В отличие от XLand-100B, который работает только с задачами в среде GridWorld, Vintix способен обрабатывать данные из различных доменов с разной структурой наблюдений и действий. Это значительный шаг к созданию по-настоящему универсальных ИИ-агентов.