BTC 118405$
ETH 4561.92$
Tether (USDT) 1$
Toncoin (TON) 3.43$
telegram vk
telegram vk Х
Russian English
Высокодоходный майнинг бизнес
"

Alibaba представила новый мультимодальный агент с открытым исходным кодом уровня SOTA

Дата публикации:14.08.2025, 17:35
78
78
Поделись с друзьями!

Alibaba Cloud анонсировала запуск Qwen2.5-Omni-7B — инновационного мультимодального агента на базе ИИ, который устанавливает новые стандарты в области открытого исходного кода.

Эта модель, выпущенная в марте 2025 года, представляет собой единый end-to-end инструмент, способный обрабатывать разнообразные входные данные, включая текст, изображения, аудио и видео, и генерировать реальные ответы в форме текста или естественной речи. Qwen2.5-Omni-7B ориентирована на создание экономичных ИИ-агентов для устройств вроде смартфонов и ноутбуков, делая передовые технологии доступными для широкого круга разработчиков и пользователей.

Этот релиз подчеркивает растущую роль Alibaba в развитии открытого ИИ: компания уже открыла исходный код более 200 генеративных моделей, способствуя глобальному прогрессу в области. Модель доступна на платформах Hugging Face, GitHub и ModelScope, что позволяет разработчикам свободно интегрировать ее в свои проекты

Ключевые особенности и архитектура

Qwen2.5-Omni-7B с параметрами в 7 миллиардов демонстрирует выдающуюся производительность, соперничая со специализированными моделями большего размера. Ее инновационная архитектура включает несколько прорывных элементов:

  • Thinker-Talker Architecture: Разделяет генерацию текста (Thinker) и синтез речи (Talker), минимизируя помехи между модальностями и обеспечивая высококачественный вывод.

  • TMRoPE (Time-aligned Multimodal RoPE): Техника позиционного кодирования, синхронизирующая видео и аудио для coherentной обработки контента.

  • Block-wise Streaming Processing: Позволяет обрабатывать данные блоками, обеспечивая низкую задержку и плавные голосовые взаимодействия в реальном времени.

Благодаря этим технологиям модель excels в задачах вроде распознавания речи, перевода, понимания аудио, анализа изображений и видео, а также генерации естественной речи. Она устанавливает новые benchmarks в реальном голосовом взаимодействии и end-to-end следовании инструкциям.

Применение и влияние на рынок

Qwen2.5-Omni-7B открывает двери для практических приложений, трансформируя повседневные сценарии. Например, она может помогать слабовидящим пользователям с навигацией через аудио-описания в реальном времени, предоставлять шаговые инструкции по готовке на основе видео или улучшать клиентский сервис за счет понимания мультимодальных запросов.

Этот агент особенно ценен для edge-устройств, где важны эффективность и низкие затраты. В контексте растущей конкуренции на рынке ИИ в Китае, включая "DeepSeek moment", Alibaba усиливает свои позиции, предлагая открытые решения, которые стимулируют инновации. Модель также интегрируется с платформой Qwen Chat, предлагая улучшенные функции вроде поддержки длинных контекстов и инструментов для агентов.

Будущие перспективы

Запуск Qwen2.5-Omni-7B — часть более широкой стратегии Alibaba по развитию серии Qwen, включая недавние обновления вроде Qwen3 с гибридным reasoning и Ovis2 для мультимодальных задач. Компания продолжает фокусироваться на открытом исходном коде, чтобы способствовать коллективным инновациям в ИИ. Разработчики могут ожидать дальнейших обновлений, включая улучшения в масштабируемости и интеграции с инструментами вроде Q-Lora для fine-tuning.

Подписывайся на наш Telegram канал. Не трать время на мониторинг новостей. Только срочные и важные новости

https://t.me/block_chain24