OpenAI обновляет ChatGPT: чат-бот с искусственным интеллектом теперь может “видеть, слышать и говорить”

OpenAI выпустила долгожданные обновления, которые позволят его популярному чат-боту ChatGPT взаимодействовать с изображениями и голосами. Этот запуск представляет собой важный шаг на пути к видению OpenAI общего искусственного интеллекта, который может воспринимать и обрабатывать информацию из нескольких режимов, а не только текст.

"Мы начинаем внедрять новые голосовые и графические возможности в ChatGPT. Они предлагают новый, более интуитивно понятный тип интерфейса, позволяя вам вести голосовую беседу или показывать ChatGPT, о чем вы говорите ", - говорится в официальном сообщении в блоге OpenAI.

OpenAI сообщила, что новый ChatGPT-Plus будет включать голосовой чат, основанный на новой модели преобразования текста в речь, способной имитировать человеческие голоса, и возможность обсуждать изображения благодаря интеграции с моделями генерации изображений компании. Новые функции, похоже, являются частью так называемого GPT Vision (или GPT-V, который часто путают с теоретическим GPT-5) и представляют собой ключевые компоненты улучшенной мультимодальной версии GPT-4, которую OpenAI представила ранее в этом году

Это обновление происходит сразу после того, как OpenAI представила DALL-E 3, свой самый продвинутый генератор преобразования текста в изображение на сегодняшний день. Первые тестировщики назвали DALL-E 3 "безумным” из-за его качества и точности. DALL-E 3 может создавать высококачественные изображения из текстовых подсказок, понимая сложный контекст и концепции, выраженные на естественном языке. Он будет встроен в ChatGPT Plus, сервис на основе подписки, предлагающий ChatGPT на базе GPT-4.

Интеграция DALLE3 и разговорного голосового чата означает стремление OpenAI к созданию помощников с искусственным интеллектом, которые могут воспринимать мир так же, как люди, - с помощью множества органов чувств. По словам компании: “Голос и изображение дают вам больше возможностей использовать ChatGPT в вашей жизни. Сделайте снимок достопримечательности во время путешествия и поговорите вживую о том, что в ней интересно”.

Microsoft поддерживает гонку искусственного интеллекта с помощью интеграции OpenAI

Крупнейший сторонник OpenAI, Microsoft, также активно внедряет расширенные возможности генеративного ИИ OpenAI в свои собственные потребительские продукты. На недавнем осеннем мероприятии Microsoft анонсировала обновления искусственного интеллекта для Windows 11, Office и Bing search с использованием таких моделей, как DALLE3 (в программах для настройки изображений, таких как обновленный Paint от Microsoft) и Copilot, помощника OpenAI по программированию.

Это соответствует инвестициям Microsoft в OpenAI в размере более 10 миллиардов долларов, поскольку компания стремится возглавить гонку помощников с искусственным интеллектом. Дебют Copilot в Windows 11 26 сентября обещает сделать помощь с искусственным интеллектом доступной на платформах и устройствах Microsoft. Тем временем Microsoft 365 Chat использует возможности OpenAI в области естественного языка для автоматизации сложных рабочих задач.

Microsoft заявила, что “чат Microsoft 365 обрабатывает всю вашу рабочую совокупность данных, включая электронную почту, собрания, чаты, документы и многое другое, а также Интернет”.

Осторожные шаги к ответственному ИИ

Однако OpenAI остро осознает потенциальные риски, связанные с более мощными мультимодальными системами искусственного интеллекта, включающими зрение и генерацию голоса. Олицетворение, предвзятость и зависимость от визуальной интерпретации являются ключевыми проблемами.

“Цель OpenAI - создать AGI, который является безопасным и выгодным”, - написала компания в своем объявлении. “Мы верим в постепенное предоставление наших инструментов, что позволяет нам со временем вносить улучшения и совершенствовать меры по снижению рисков, одновременно подготавливая всех к использованию более мощных систем в будущем”.

Кроме того, как ранее сообщалось, OpenAI собирает команду red для работы над способами предотвращения вредных последствий из-за неправильного использования своих продуктов с искусственным интеллектом. Генеральный директор Сэм Альтман также лоббирует по всему миру благоприятное законодательство.

OpenAI заявила, что пользователи Plus и Enterprise получат доступ к этим новым функциям в течение следующих двух недель, а впоследствии планируют расширить доступность для разработчиков. А поскольку Google также объявляет о своем собственном революционном мультимодальном LLM Gemini, гонка за доминирование в индустрии искусственного интеллекта только начинается

Вы здесь

OpenAI обновляет ChatGPT: чат-бот с искусственным интеллектом теперь может “видеть, слышать и говорить”

Microsoft поддерживает гонку искусственного интеллекта с помощью интеграции OpenAI

Осторожные шаги к ответственному ИИ