Главная›Статьи›Ideogram - это новый генератор изображений искусственного интеллекта
"
Ideogram - это новый генератор изображений искусственного интеллекта
Дата публикации:06.03.2024, 20:59
886
886
Поделись с друзьями!
Ideogram AI — стартап, основанный бывшими инженерами Google совместно с сотрудниками таких престижных институтов, как Калифорнийский университет в Беркли, Университет Карнеги-Меллона и Университет Торонто, — объявил о выпуске первой полной версии своего одноименного генератора изображений.
"Мы рады выпустить Ideogram 1.0, нашу самую совершенную на сегодняшний день модель преобразования текста в изображение”, - говорится в официальном сообщении в блоге Ideogram AI. "Созданная с нуля, Ideogram 1.0, как и все модели Ideogram, предлагает современную визуализацию текста, беспрецедентный фотореализм и быстрое выполнение, а также новую функцию под названием Magic Prompt, которая помогает создавать подробные подсказки для создания красивых, креативных изображений ".
Релиз сопровождается новостями о сборе средств серии A стоимостью 80 миллионов долларов под руководством Андреессена Горовица, а также Redpoint Ventures, Pear VC и SV Angel.
Рад сообщить, что Ideogram привлекла 80 миллионов долларов в рамках финансирования серии A, чтобы помочь людям стать более креативными с помощью генеративного искусственного интеллекта! Спасибо @a16z за руководство раундом и @Redpoint, @pearvc, @IndexVentures, @svangel за участие!
Decrypt смог протестировать модель, и утверждения Ideogram AI не сильно завышены — параллельное сравнение можно найти ниже. Первая версия Ideogram является явным улучшением по сравнению со своими предшественниками v0.1 и v0.2: она отличается быстрым подключением, качеством изображения и возможностями генерации текста.
Модель не имеет открытого исходного кода, поэтому ее функциональность ограничена, а исследовательской работы для оценки нет. Но результаты, полученные с помощью модели, говорили сами за себя, потенциально делая ее лучшей моделью, доступной на данный момент — по крайней мере, до публичного выпуска Stable Diffusion 3.
Новая модель, пожалуй, является самым мощным генератором изображений с точки зрения текстовых возможностей, генерируя более длинные текстовые строки с меньшим количеством ошибок, чем Dall-E 3 или MidJourney. Текущий бесплатный уровень также дает ему преимущество перед конкурентами, такими как Dall-E 3 и MidJourney, у последнего из которых нет бесплатного уровня. Microsoft Copilot также использует Dall-E 3, но он генерирует только квадратные изображения 1: 1, тогда как Ideogram поддерживает более широкий набор соотношений сторон.
Ideogram также предлагает два платных тарифных плана стоимостью 7 и 15 долларов в месяц, которые предоставляют доступ к более чем 400 generations в день, а также другие привилегии, такие как редактор изображений, загрузки более высокого качества, img2img, который позволяет вносить изменения в существующее изображение, и private generations. Все нижние уровни отображают запрошенные изображения публично.
Представляем Ideogram 1.0: самую совершенную модель преобразования текста в изображение, теперь доступную на https://t.co/Xtv2rRbQXI!
Он предлагает ультрасовременную визуализацию текста, беспрецедентный фотореализм, исключительную оперативность выполнения и новую функцию под названием Magic Prompt для помощи с подсказками. pic.twitter.com/VOjjulOAJU
Ideogram способен понимать длинные подсказки, идти в ногу со Stable Diffusion 3 и превосходит все другие генераторы изображений в этой области.
Одной из выдающихся особенностей Ideogram является "Магия подсказок", которую можно включать и выключать. Эта функция анализирует подсказку и улучшает ее для создания изображений лучшего качества, по сути, давая модели возможность понимать естественный язык, такой как Dall-E 3. Однако Ideogram более универсален, поскольку эта функция необязательна. Он всегда включен в ChatGPT Plus, что иногда приводит к неточностям.
Наконец, Ideogram подвергается менее жесткой цензуре, чем MidJourney и Dall-E 3, и пока способен генерировать изображения известных людей, логотипов компаний и художественных стилей. Он не работает полностью NSFW, но более дискретен, когда дело доходит до цензурирования подсказок.
И первые тестировщики, похоже, предпочитают Ideogram другим моделям. "Используя протокол оценки, подобный протоколу DALL · E 3, мы обнаружили, что люди, оценивающие Ideogram 1.0, предпочитают DALL · E 3 и Midjourney V6 по быстрому выравниванию, согласованности изображения, общим предпочтениям и качеству рендеринга текста", - сказали в стартапе.
Decrypt протестировал возможности Ideogram и сравнил ее с ведущими конкурентами, MidJourney и Dall-E 3. Стабильная версия Diffusion 3 и лучший ImageFX от Google здесь не оцениваются, поскольку SD3 еще не выпущен, а ImageFX не является широко доступным.
Генерация длинных строк текста
Подсказка: футуристический андроид в киберпанк-сити с табличкой, на которой написано: "Не опаздывайте с тенденцией искусственного интеллекта: выходите с помощью Decrypt"
с Ideogram (слева), MidJourney (в центре) и Dall-E 3 (справа).
ИИ Ideogram смог изобразить как требуемую эстетику, так и текст. Однако в нем была опечатка, из-за которой получилось “ты” вместо “the”.
MidJourney вообще не смог сгенерировать сколько-нибудь связный текст и сосредоточился на создании футуристического андроида с детализацией. Это главная тема всей композиции. Город вовсе не киберпанк.
Dall -E 3 занимает среднее место. Он смог создать футуристического робота, город киберпанк, но на вывеске не было слова “Emerge”.
Интересно, что Ideogram понял, что робот находится в городе и связан со знаком, тогда как Dall-E предположил, что знак является частью городского пейзажа.
Длинные подсказки и пространственные возможности
Подсказка: Сюрреалистичная и интригующая сцена с котом, сидящим на телевизоре рядом с табличкой с надписью "Emerge". На заднем плане футуристический андроид стоит с одной стороны, а астронавт - с другой. Стены комнаты украшены поразительным изображением молекулы и цепочки ДНК.
Поколения Ideogram (вверху), MidJourney (внизу слева) и Dall-e 3 (внизу справа)
Ideogram был, безусловно, лучшим генератором в целом. Он понял каждую отдельную часть подсказки, сгенерировал текст без опечаток, понял расположение каждого элемента с кошкой на телевизоре, табличкой рядом с ней, андроидом и астронавтом по бокам и даже понял, что на заднем плане должны быть молекула и цепочка ДНК.
Эстетика MidJourney была не сюрреалистичной, а скорее гиперреалистичной. Он сгенерировал слово “Emerge”, но поместил его на телевизор, а не вывеску. Кошка также находится рядом с телевизором, а не на нем. Он не генерировал Android и не смог выполнить запрос фона, вместо этого создав тот, который лучше соответствует эстетике композиции, придавая большее значение объекту (кошке) в общей сцене.
Dall -E 3 сохранил свой характерный мультяшный стиль и не смог полностью следовать подсказке. У него больше понимания пространства и быстрой привязки к нему, чем у MidJourney, но намного меньше, чем у Ideogram. Однако он проигрывает с точки зрения стиля. Он сгенерировал кошку на телевизоре, но не смог сгенерировать знак Emerge рядом с кошкой. Он не генерировал Android и не следовал подсказке при создании фона.
Заключение
Бесплатный и широко доступный сразу Ideogram, возможно, лучший генератор изображений на рынке в настоящее время. Он отлично понимает естественный язык, обладает выдающимися пространственными возможностями и быстрой привязкой. Это также лучший текстовый генератор, доступный на данный момент.
Если эстетика является наиболее важным соображением — до такой степени, что соблюдение правил и текст менее важны, — то MidJourney может оставаться надежным конкурентом для конкретных случаев использования. Несмотря на то, что Dall-E 3 не особенно хорош и подвергается жесткой цензуре, он все же может иметь смысл как часть подписки ChatGPT Plus.
Ideogram AI удерживает корону среди нашего набора генераторов изображений — на данный момент.
Подписывайся на наш Telegram канал. Не трать время на мониторинг новостей. Только срочные и важные новости