Компания MidJourney только что анонсировала свою новейшую модель генератора изображений с искусственным интеллектом, базовую модель V6, в многолюдной гонке за господство в сфере цифрового творчества. По словам команды разработчиков, выпущенная сегодня для альфа-тестирования, версия V6 отличается повышенной точностью подсказок, улучшенной согласованностью и — впервые в эволюции MidJourney — возможностями генерации текста.
Анонсированная в официальном посте Discord версия V6 позиционируется как капитальный ремонт.
"Гораздо более точное следование подсказкам, а также более длинные подсказки, улучшенная согласованность и знание модели", - говорится в анонсе, подчеркивая его улучшение по сравнению с предыдущей моделью V5.1, выпущенной в мае 2023 года. Модель V5, известная своими простыми в использовании краткими подсказками и эстетическими улучшениями, проложила путь для более сложной и детализированной версии V6.
Одним из наиболее примечательных компонентов версии V6 является возможность рисования текста. Хотя это и не основная особенность модели — команда говорит, что это все еще “второстепенная” функция — эта возможность ставит MidJourney в прямую конкуренцию с другими ведущими моделями, такими как Dall-E 3 и Ideogram. Однако подход MidJourney к генерации текста уникален.
MidJourney описывает это как "незначительную возможность рисования текста”. “Вы должны писать свой текст в "кавычках" и - в стиле raw или ниже - могут помочь значения stylize”.
Мы протестировали модель и сравнить ее с Dall-E 3, известной своей точностью генерации текста. Похоже, что MidJourney уделяет приоритетное внимание стилю и эстетике, иногда за счет точности текста. В большинстве случаев текст генерируется либо неточно, либо вообще отсутствует. Но когда это произошло, изображения были на одном уровне или даже лучше, чем те, что были созданы Dall-E 3, моделью искусственного интеллекта преобразования текста в изображение, которая используется в ChatGPT и Microsoft Bing.
Сравнивая поколения текста из MidJourney, Dall-E 3, SDXL с Harrlogos и Ideogram AI, одной из упрощенных рекомендаций могло бы быть использование MidJourney, если эстетика является приоритетом, Dall-E 3 для простоты использования и эстетики цифрового искусства, SDXL для тех, кто хорошо разбирается в A1111, и Ideogram AI для результатов, в которых текст важнее эстетики.
MidJourney и Dalle-3 с ChatGPT в настоящее время стоят денег, в то время как SDXL и Ideogram AI бесплатны. Версия Dalle3 от Bing бесплатна для использования, но она генерирует только квадратные изображения, и пользователи могут изменять только подсказки вместо естественного подхода к общению, принятого OpenAI.
MidJourney V6 также немного медленнее и дороже, чем v5, однако команда уделяет особое внимание ускорению работы модели со временем. Модель V6 также может похвастаться улучшенными масштабами в режимах "тонкий" и "креативный", что в 2 раза увеличивает разрешение изображения.
Эти функции в сочетании с широким спектром поддерживаемых параметров, таких как --ar (для изменения разрешения), --chaos (для изменения вариаций между поколениями) и --stylize (для изменения креативности модели), предлагают пользователям широкий спектр творческих возможностей. Однако другие функции, такие как inpainting, outpainting и описание изображения, пока недоступны. Согласно MidJourney, они должны появиться в обновлении в следующем месяце.
Анонс призывает пользователей использовать эти "невероятные способности с радостью, удивлением, ответственностью и уважением", которые всегда были частью идеала MidJourney. Но не слишком радуйтесь, так как цензура в них будет более строгой.
“Не будь дураком и не создавай изображения, вызывающие драму”, - говорится в анонсе. Скорее всего, это блокирует попытки создания цифровых вайфаев или политических фейков.
РЕКЛАМА
Подписывайся на наш Telegram канал. Не трать время на мониторинг новостей. Только срочные и важные новости