Главная›Статьи›Новая модель искусственного интеллекта от Google превосходит Dall-E и MidJourney от OpenAI
"
Новая модель искусственного интеллекта от Google превосходит Dall-E и MidJourney от OpenAI
Дата публикации:08.02.2024, 17:04
1164
1164
Поделись с друзьями!
Пристегнитесь, дамы и господа, у нас в городе появился новый генератор изображений искусственного интеллекта, и он на удивление хорош.
Это удивительно, потому что она исходит от Google и потому что это не простой, несколько уродливый и ленивый генератор, который вы привыкли видеть в Bard. Она также скрыта от широкой публики, но это не значит, что вы не можете ее использовать.
Она называется ImageFX и является последним шагом Google в области создания изображений с помощью искусственного интеллекта. Она доступна через Google AI Test Kitchen, экспериментальную платформу, которая позволяет пользователям взаимодействовать с проектами Google, пока они еще находятся в разработке.
Несмотря на то, что ImageFX находится на ранней стадии бета-тестирования, он обеспечивает потрясающие результаты с точки зрения точности и фотореализма. Однако ее доступность ограничена определенными регионами, а именно США, Кенией, Новой Зеландией и Австралией, и ее использование ограничено английским языком, что демонстрирует осторожный подход Google и ее стремление к контролируемой среде для обратной связи с пользователями и усовершенствования системы.
Те, кто живет за пределами разрешенных регионов, могут обходить географические ограничения с помощью таких методов, как VPN или прокси—серверы - на свой страх и риск.
В ImageFX используется Imagen 2, сложная модель искусственного интеллекта, разработанная известной лабораторией искусственного интеллекта Google DeepMind. Imagen 2 предназначен для интерпретации и визуализации текстовых подсказок, обладая возможностями создания разнообразных изображений и стилей. Google утверждает, что Imagen 2 устанавливает новый стандарт качества изображений среди моделей искусственного интеллекта своего поколения.
Внедрение ImageFX является частью более широкой стратегии Google по изучению различных аспектов генеративного искусственного интеллекта. Он объединяет набор специализированных инструментов, включая MusicFX для создания музыки и TextFX для генерации стилизованного текста.
Google против Dall-e 3 против MidJourney
ImageFX от Google знаменует заметный прорыв в области генераторов изображений на основе искусственного интеллекта, напрямую конкурируя с такими известными игроками, как Dall-E 3 и MidJourney. Явным преимуществом ImageFX на ранней стадии бета-тестирования является его бесплатный доступ, отличающийся от интеграции Dall-E с ChatGPT по ежемесячной ставке в 20 долларов, а годовая подписка MidJourney приближается к 100 долларам.
Хотя экономическая эффективность является важным фактором, именно сравнительные характеристики и качество вывода выделяют эти инструменты. ImageFX превосходит гиперреалистичные изображения, несколько мультяшные версии Dall-E 3 и акцент MidJourney на эстетически привлекательных визуальных эффектах.
Но то, что ImageFX бесплатный, не значит, что он плохой. ImageFX предлагает уникальные функции, такие как контроль начальных значений, позволяющие пользователям точно настраивать творческий процесс, настраивая начальную конфигурацию шума. Такой уровень контроля не имеет аналогов в Dall-E 3 или MidJourney, позволяя пользователям вносить тонкие корректировки, сохраняя основные элементы изображения.
Кроме того, ImageFX может выделять ключевые слова в подсказке и предлагать креативные альтернативы — функция, недоступная у конкурентов.
Скриншот подсказок ImageFX
Однако ImageFX имеет свои ограничения. Инструмент генерирует исключительно квадратные изображения, тогда как Dall-E 3 и MidJourney обеспечивают гибкость в соотношении сторон. Более того, в отличие от MidJourney, ImageFX не поддерживает функции редактирования изображений, такие как inpaint и outpaint, что ограничивает его универсальность. Наконец, разговорная функция Dall-E 3, которая позволяет новичкам инструктировать модель на естественном языке, контрастирует с подсказками на основе ключевых слов, требуемыми ImageFX и MidJourney.
Подход к подсказкам у этих моделей также существенно отличается. ImageFX не поддерживает отрицательные подсказки, которые позволяют пользователям указывать, что исключить из изображения. MidJourney предлагает эту функциональность, повышая точность творческого процесса. В Dall-E 3 также отсутствуют прямые негативные подсказки, но его диалоговый интерфейс позволяет пользователям управлять моделью косвенно, предлагая другой подход к улучшению выходных данных изображения.
Изображение стоит тысячи слов
Decrypt получил доступ к ImageFX и смог сравнить его поколения с MidJourney и Dall-E 3. Мы использовали одно и то же приглашение для всех моделей, и приведенные ниже результаты всегда представлены в одинаковом порядке слева направо: первый - ImageFX, второй - MidJourney и третий - Dalle3.
Фотореализм:
Подсказка: Фотография криптовалютного трейдера с обеспокоенным выражением лица
Слева направо, поколения ImageFX, MidJourney и Dall-E 3.
Как ImageFX, так и MirJourney дали довольно реалистичные результаты. Однако с точки зрения стиля ImageFX кажется фотореалистичным , тогда как MidJourney выглядит немного более гиперреалистичным, что означает, что первый более реалистичен, тогда как второй более художественный, с насыщенными цветами, преувеличенным боке и т.д.
Dalle-3 не может генерировать фотографии. Вместо этого он создал 3D-рендеринг, уделяющий больше внимания контенту. Легче сказать, что это был криптотрейдер, из-за графиков на заднем плане, но это определенно была не фотография.
Иллюстрации:
Подсказка: Иллюстрация таинственного медведя, плывущего по кибернетической волне
Слева направо, поколения ImageFX, MidJourney и Dall-E 3.
Это приглашение было немного более абстрактным, чтобы проверить, как модели интерпретируют нестандартные идеи. ImageFX и MidJourney создали наиболее эстетичные изображения, но MidJourney больше похож на рендеринг, чем на иллюстрацию, и ImageFX попытался передать суть того, чем может быть кибернетическая волна. Вместо этого MidJourney связал термин “кибернетический” с медведем. Dall-e 3 более точно отражает суть. Очевидно, что это была иллюстрация, и она напоминает кибернетическую эстетику, но морфология медведя неправильная, и изображение уступает по качеству изображениям конкурентов.
Длинный естественный язык:
Подсказка: Высокодетализированная фотография крупным планом таинственного компьютерного эксперта, работающего на ноутбуке. Позади него ждет агент ФБР, чтобы запечатлеть его в фотореалистичном замысловатом кадре.
Слева направо, поколения ImageFX, MidJourney и Dall-E 3.
Чтобы провести это сравнение, подсказка для MidJourney была изменена на "высокодетализированную фотографию крупным планом таинственного компьютерного эксперта, работающего на ноутбуке, с агентом ФБР за спиной, ожидающим возможности запечатлеть его, широкий снимок, фотореалистичный, сложный".
MidJourney отказался генерировать изображения при первом запросе.
ImageFX создает красивую, подробную фотографию, учитывающую все детали. MidJourney не создала “таинственного” компьютерного эксперта. Она также придерживается своего фирменного стиля с чрезмерным боке и привлекающими внимание световыми дорожками или каплями дождя на моделях разных поколений. Это был лучший пример, поскольку остальные, казалось, изображали астронавта, киберпанковского морского пехотинца или что-то подобное. Dall-E генерирует изображение, на котором узнаваемы все элементы подсказки — логотип ФБР, таинственный компьютерный эксперт и т.д. — но это не фотография, и анатомия хакера неправильная, с типичными пальцами-спагетти.
Текст на изображении:
Подсказка: Футуристический город с неоновой вывеской "ВСПЛЫТЬ с помощью расшифровки".
Слева направо, поколения ImageFX, MidJourney и Dall-E 3.
Обычно лучшим текстовым генератором на сегодняшний день является Dall-e 3, однако в данном конкретном случае и при условиях, установленных методологией сравнения, он неправильно записал текст. ImageFX не смог сгенерировать фразу целиком — у него есть возможности генерации текста, но, вероятно, они наименее впечатляющие из всего набора.
Тем не менее, Dall-E и ImageFX лучше всего передали суть футуристического города, в то время как MidJourney создала эстетически привлекательный город, но совсем не футуристический.
Заключение
Поклонники искусственного интеллекта теперь одарены множеством моделей искусственного интеллекта, которые удовлетворяют многие потребности. Поскольку большинство моделей предлагается бесплатно, нет необходимости выбирать победителей — у каждой есть особый вариант использования, который выделяет ее.
ImageFX - лучший из трех, если вы не хотите тратить деньги. Он также лучший с точки зрения фотореализма.
MidJourney не очень хорошо реагирует на подсказки, но идеально подходит для тех, кто ищет эстетически привлекательные изображения.
Dall-E 3 лучше всего подходит для новичков, которые хотят создавать рендеры и не хотят даже думать о разработке подсказок, ключевых словах и параметрах, а вместо этого просто хотят разговаривать со своим искусственным интеллектом, как с еще одним другом.
Но да, если вы хотите сделать вывод, нам ImageFX очень понравился.
Подписывайся на наш Telegram канал. Не трать время на мониторинг новостей. Только срочные и важные новости