Новый генератор изображений DALL-E3 значительно улучшен

Генераторы изображений, такие как DALL-E, MidJourney и Stable Diffusion, открыли новые творческие рубежи для художников и обычных пользователей после бума искусственного интеллекта в конце прошлого года. Переводя текстовые подсказки в потрясающие визуальные эффекты, они дают представление о машинных интерпретациях человеческого творчества. Теперь OpenAI стремится расширить границы с помощью DALL-E 3, модели, которая могла бы вернуть ему прямую конкуренцию с другими лидерами отрасли.

Представленный ранее сегодня DALL-E 3 демонстрирует значительные улучшения в точном отображении подробных текстовых описаний. В отличие от предыдущих итераций, он полностью соответствует сложным подсказкам, не требуя значительных изменений в разработке подсказок или других сложных трюков с подсказками. Новая система также превосходно фиксирует взаимосвязи между объектами и генерирует фотореалистичные человеческие детали, такие как руки и отражения.

Наша новая модель преобразования текста в изображение, DALL · E 3, может преобразовывать нюансы запросов в чрезвычайно подробные и точные изображения.

Скоро появится в ChatGPT Plus & Enterprise, который поможет вам создавать потрясающие подсказки для воплощения ваших идей в жизнь:https://t.co/jDXHGNmarT pic.twitter.com/aRWH5giBPL

— OpenAI (@OpenAI) 20 сентября 2023 года

При сравнении выходных данных из одних и тех же запросов в DALL-E 2 и DALL-E 3 последнее выдает заметно более четкие изображения. Он может отображать чрезвычайно реалистичные изображения сцен при правильном подборе текстур, освещения и фона. И, похоже, он вполне способен генерировать текст и интегрировать его в свои изображения — то, что остается проблемой даже для самых мощных генераторов изображений с искусственным интеллектом на сегодняшний день.

DALL-E 3 построен поверх ChatGPT, позволяя пользователям итеративно уточнять подсказки посредством обмена сообщениями. Ранние просочившиеся образцы намекают на невероятно быстрые возможности итерации. Как ранее сообщал Decrypt, ютубер MattVidPro назвал более раннюю бета-версию DALL-E 3 “безумной” и заявил, что даже грядущая версия MidJourney не сможет конкурировать.

Однако доступность остается строго ограниченной примерно для 400 тестировщиков, и OpenAI заявляет, что его новая модель будет выпущена “скоро”.

Изображение, созданное с помощью DALL-E 3, и язык запроса, используемый в процессе. Источник: OpenAI

На данный момент пользователи могут создавать изображения с помощью DALL-E 2, используя плагины с ChatGPT Plus. Тем, кто не платит за подписку, придется иметь дело с ограничениями.

Путь к этому моменту не обошелся без трудностей. На этапе бета-тестирования модель была отмечена своей неподцензурной природой, способной генерировать контент, который варьировался от обнаженной натуры до запекшейся крови и насилия. Это вызвало удивление и обеспокоенность по поводу возможного неправильного использования такой технологии. Но OpenAI, похоже, приняла эти опасения близко к сердцу, внедрив в DALL-E 3 функции, которые предотвращают создание контента, который может быть сочтен жестоким, взрослым или вызывающим ненависть, обеспечивая более безопасный пользовательский интерфейс.

Одной из таких мер является создание команды экспертов, “чтобы помочь в наших усилиях по оценке рисков и смягчению последствий в таких областях, как пропаганда и дезинформация”.

Сохраняются опасения по поводу искусственного интеллекта, особенно в отношении неприемлемого или неэтичного контента. Хотя OpenAI удалила фильтры во время тестирования, компания изучает стратегии предотвращения неправильного использования в общедоступных версиях. Это также упростит идентификацию изображений, созданных с помощью этого инструмента. Это может предотвратить распространение глубоких подделок и потенциально идентифицировать происхождение изображения в случае, если кто-то обойдет встроенную цензуру модели.

OpenAI также осознает озабоченность по поводу законного использования произведений искусства человека для обучения своей модели и предложила более этичный генератор. DALL-E 3 не будет воспроизводить контент, когда его попросят имитировать живых художников, а OpenAI позволит авторам отказаться. Это устраняет негативную реакцию со стороны таких художников, как Грег Рутковский, которые утверждают, что искусственный интеллект, копирующий их стиль без согласия, неэтичен.

Также были поданы крупные судебные иски, в том числе от автора Джорджа Р.Р. Мартина, обвиняющего OpenAI в ненадлежащем использовании материалов, защищенных авторским правом.

Вы здесь

Новый генератор изображений DALL-E3 значительно улучшен