ByteDance, компания, стоящая за TikTok, продолжает расширять свое присутствие в сфере искусственного интеллекта, представив мультимодального ИИ-агента UI-TARS-1.5. Эта модель сочетает визуальное восприятие, анализ интерфейсов и автоматизацию задач, включая механизмы рефлексии и цепочки рассуждений, которые имитируют долгосрочную память для обработки сложных, многошаговых процессов.
Архитектура и ключевые возможности UI-TARS-1.5
UI-TARS-1.5 построена на базе архитектуры Qwen-VL и обучена на огромном датасете из более чем 10 млрд скриншотов, включая редкие паттерны интерфейсов и сценарии ошибок. Агент способен анализировать любые экраны — от ПК и смартфонов до AR-очков — и управлять ими через голосовые команды или текст. Основные особенности включают:
-
Мультимодальность: Модель распознает элементы интерфейса (кнопки, меню, слайдеры) через "зрительный тракт" нейросети, обрабатывая текст, изображения и действия в едином пространстве.
-
Долгосрочная память и рефлексия: Агент использует цепочку рассуждений (Chain-of-Thought) для анализа ошибок и корректировки алгоритмов без человеческого вмешательства. Это позволяет справляться с многошаговыми задачами, такими как навигация в незнакомых приложениях или автоматизация отчетов, имитируя долгосрочное планирование.
-
Кросс-платформенность: Поддерживает управление Android-приложениями, браузерными играми и промышленными интерфейсами, с точностью на 35% выше, чем у GPT-4 в автоматизации задач.
Модель обучается на миллионах многоступенчатых траекторий, нормализованных по шаблонам действий, что обеспечивает "человекоподобное" поведение в долгосрочных сценариях. ByteDance подчеркивает, что UI-TARS-1.5 превосходит конкурентов в обработке "грязных" данных, таких как скриншоты с артефактами.
Сравнение с предыдущими разработками ByteDance
UI-TARS-1.5 развивает линейку ИИ-инструментов ByteDance, включая мультимодальную модель BAGEL, представленную ранее в 2025 году. BAGEL объединяет генерацию, редактирование и анализ текстового, визуального и видеоконтента с использованием Mixture-of-Transformer-Experts (MoT) и 7 млрд активных параметров. Она достигает высоких баллов в бенчмарках, таких как 2388 на MME, и поддерживает "интеллектуальное" редактирование через Chain-of-Thought.
В отличие от BAGEL, ориентированной на контент, UI-TARS-1.5 фокусируется на автоматизации интерфейсов. ByteDance также выпустила Agent TARS — предшественника с открытым исходным кодом для визуальной интерпретации веб-контента и взаимодействия с файловой системой. UI-TARS-1.5 расширяет это, добавляя рефлексию для долгосрочных задач.
Все модели ByteDance открыты: UI-TARS-1.5 доступна на HuggingFace и GitHub под лицензией Apache 2.0, что позволяет коммерческое использование и модификации. Это контрастирует с закрытыми системами конкурентов, способствуя развитию экосистемы разработчиков.
Потенциал и вызовы
UI-TARS-1.5 может революционизировать повседневные задачи: от автоматизации налоговых отчетов в Excel до создания макетов в Figma. Агент интегрируется с платформами вроде Slack и Trello, работая в локальном режиме для безопасности данных. ByteDance инвестирует миллиарды в ИИ-инфраструктуру, планируя потратить $12 млрд в 2025 году на чипы и вычисления.
Однако модель все еще экспериментальна: ByteDance предупреждает о сложностях с кастомными шрифтами и рекомендует не использовать в производстве без доработок. Конкуренция от OpenAI, Anthropic и Google усиливается, и UI-TARS-1.5 борется с непредсказуемостью в реальных сценариях.
Будущее мультимодальных агентов
Запуск UI-TARS-1.5 подчеркивает стратегию ByteDance по демократизации ИИ через открытые инструменты. С элементами долгосрочной памяти агент приближает эру автономных систем, способных к самообучению и адаптации. Это может изменить рабочие процессы, сделав рутину автоматизированной, но требует осторожного подхода к этике и безопасности.
В заключение, UI-TARS-1.5 от ByteDance — шаг вперед в мультимодальном ИИ, сочетающий визуальное восприятие с интеллектуальным планированием. Пока технология развивается, она открывает новые возможности для инноваций.