OpenAI выпустила долгожданные обновления, которые позволят его популярному чат-боту ChatGPT взаимодействовать с изображениями и голосами. Этот запуск представляет собой важный шаг на пути к видению OpenAI общего искусственного интеллекта, который может воспринимать и обрабатывать информацию из нескольких режимов, а не только текст.
"Мы начинаем внедрять новые голосовые и графические возможности в ChatGPT. Они предлагают новый, более интуитивно понятный тип интерфейса, позволяя вам вести голосовую беседу или показывать ChatGPT, о чем вы говорите ", - говорится в официальном сообщении в блоге OpenAI.
OpenAI сообщила, что новый ChatGPT-Plus будет включать голосовой чат, основанный на новой модели преобразования текста в речь, способной имитировать человеческие голоса, и возможность обсуждать изображения благодаря интеграции с моделями генерации изображений компании. Новые функции, похоже, являются частью так называемого GPT Vision (или GPT-V, который часто путают с теоретическим GPT-5) и представляют собой ключевые компоненты улучшенной мультимодальной версии GPT-4, которую OpenAI представила ранее в этом году
Это обновление происходит сразу после того, как OpenAI представила DALL-E 3, свой самый продвинутый генератор преобразования текста в изображение на сегодняшний день. Первые тестировщики назвали DALL-E 3 "безумным” из-за его качества и точности. DALL-E 3 может создавать высококачественные изображения из текстовых подсказок, понимая сложный контекст и концепции, выраженные на естественном языке. Он будет встроен в ChatGPT Plus, сервис на основе подписки, предлагающий ChatGPT на базе GPT-4.
Интеграция DALLE3 и разговорного голосового чата означает стремление OpenAI к созданию помощников с искусственным интеллектом, которые могут воспринимать мир так же, как люди, - с помощью множества органов чувств. По словам компании: “Голос и изображение дают вам больше возможностей использовать ChatGPT в вашей жизни. Сделайте снимок достопримечательности во время путешествия и поговорите вживую о том, что в ней интересно”.
Microsoft поддерживает гонку искусственного интеллекта с помощью интеграции OpenAI
Крупнейший сторонник OpenAI, Microsoft, также активно внедряет расширенные возможности генеративного ИИ OpenAI в свои собственные потребительские продукты. На недавнем осеннем мероприятии Microsoft анонсировала обновления искусственного интеллекта для Windows 11, Office и Bing search с использованием таких моделей, как DALLE3 (в программах для настройки изображений, таких как обновленный Paint от Microsoft) и Copilot, помощника OpenAI по программированию.
Это соответствует инвестициям Microsoft в OpenAI в размере более 10 миллиардов долларов, поскольку компания стремится возглавить гонку помощников с искусственным интеллектом. Дебют Copilot в Windows 11 26 сентября обещает сделать помощь с искусственным интеллектом доступной на платформах и устройствах Microsoft. Тем временем Microsoft 365 Chat использует возможности OpenAI в области естественного языка для автоматизации сложных рабочих задач.
Microsoft заявила, что “чат Microsoft 365 обрабатывает всю вашу рабочую совокупность данных, включая электронную почту, собрания, чаты, документы и многое другое, а также Интернет”.
Осторожные шаги к ответственному ИИ
Однако OpenAI остро осознает потенциальные риски, связанные с более мощными мультимодальными системами искусственного интеллекта, включающими зрение и генерацию голоса. Олицетворение, предвзятость и зависимость от визуальной интерпретации являются ключевыми проблемами.
“Цель OpenAI - создать AGI, который является безопасным и выгодным”, - написала компания в своем объявлении. “Мы верим в постепенное предоставление наших инструментов, что позволяет нам со временем вносить улучшения и совершенствовать меры по снижению рисков, одновременно подготавливая всех к использованию более мощных систем в будущем”.
Кроме того, как ранее сообщалось, OpenAI собирает команду red для работы над способами предотвращения вредных последствий из-за неправильного использования своих продуктов с искусственным интеллектом. Генеральный директор Сэм Альтман также лоббирует по всему миру благоприятное законодательство.
OpenAI заявила, что пользователи Plus и Enterprise получат доступ к этим новым функциям в течение следующих двух недель, а впоследствии планируют расширить доступность для разработчиков. А поскольку Google также объявляет о своем собственном революционном мультимодальном LLM Gemini, гонка за доминирование в индустрии искусственного интеллекта только начинается