Главная›Статьи›NExT-GPT - это модель с открытым исходным кодом, которая позволяет вам осваивать искусственный интеллект
"
NExT-GPT - это модель с открытым исходным кодом, которая позволяет вам осваивать искусственный интеллект
Дата публикации:29.09.2023, 19:41
1549
1549
Поделись с друзьями!
На растущей технологической сцене, где доминируют такие гиганты, как OpenAI и Google, NExT-GPT — модель с открытым исходным кодом multimodal AI large language model (LLM) — может обладать всем необходимым для того, чтобы конкурировать в высшей лиге.
ChatGPT покорил мир своей способностью понимать запросы на естественном языке и генерировать ответы, похожие на человеческие. Но поскольку искусственный интеллект продолжает развиваться с молниеносной скоростью, людям требуется больше мощности. Эра чистого текста уже закончилась, и появляются мультимодальные LLM.
Разработанная в сотрудничестве между Национальным университетом Сингапура (NUS) и Университетом Цинхуа, NExT-GPT может обрабатывать и генерировать комбинации текста, изображений, аудио и видео. Это обеспечивает более естественное взаимодействие, чем текстовые модели, такие как базовый инструмент ChatGPT.
Команда, создавшая ее, позиционирует NExT-GPT как систему "любой к любому", что означает, что она может принимать входные данные любым способом и выдавать ответы в соответствующей форме.
Потенциал для быстрого продвижения огромен. Как модель с открытым исходным кодом, NExT-GPT может быть модифицирована пользователями в соответствии с их конкретными потребностями. Это может привести к значительным улучшениям по сравнению с оригиналом, во многом подобным тому, что произошло со Stable Diffusion по сравнению с его первоначальным выпуском. Демократизация доступа позволяет создателям формировать технологию для достижения максимального эффекта.
Итак, как работает NExT-GPT? Как объясняется в исследовательском документе модели, в системе есть отдельные модули для кодирования входных данных, таких как изображения и аудио, в текстовые представления, которые может обрабатывать базовая языковая модель.
Исследователи внедрили технику, называемую "настройка команд переключения модальности", чтобы улучшить кросс-модальные способности мышления — его способность обрабатывать различные типы входных данных как единую согласованную структуру. Эта настройка учит модель плавно переключаться между модальностями во время разговоров.
Для обработки входных данных NExT-GPT использует уникальные токены, такие как для изображений, для аудио и для видео. Каждый тип ввода преобразуется во вложения, понятные языковой модели. Затем языковая модель может выводить текст ответа, а также специальные сигнальные маркеры для запуска генерации в других модальностях.
Например, токен в ответе сообщает видеодекодеру выдавать соответствующий видеовыход. Использование системой специальных токенов для каждого способа ввода и вывода обеспечивает гибкое преобразование "от любого к любому".
Затем языковая модель выводит специальные токены, сигнализирующие о необходимости создания нетекстовых выходных данных, таких как изображения. Затем различные декодеры создают выходные данные для каждой модальности: Stable Diffusion в качестве декодера изображения, AudioLDM в качестве аудиодекодера и Zeroscope в качестве видеодекодера. Он также использует Vicuna в качестве базового LLM и ImageBind для кодирования входных данных.
NExT-GPT - это, по сути, модель, которая сочетает в себе возможности различных ИИ, превращаясь в своего рода универсальный супер ИИ.
NExT-GPT обеспечивает это гибкое преобразование "любой в любой", обучая только 1% от общего количества параметров. Остальные параметры являются замороженными, предварительно обученными модулями, заслуживающими похвалы исследователей как очень эффективный дизайн.
Был создан демонстрационный сайт, позволяющий людям тестировать NExT-GPT, но его доступность нерегулярна.
Поскольку такие технологические гиганты, как Google и OpenAI, запускают свои собственные мультимодальные продукты для искусственного интеллекта, NExT-GPT представляет собой альтернативу с открытым исходным кодом, на которой могут опираться создатели. Мультимодальность является ключом к естественным взаимодействиям. А с помощью open sourcing NExT-GPT исследователи предоставляют сообществу трамплин для вывода искусственного интеллекта на новый уровень.
Подписывайся на наш Telegram канал. Не трать время на мониторинг новостей. Только срочные и важные новости