При непосредственном сравнении использовались одинаковые подсказки для каждой модели, чтобы обеспечить честную борьбу, даже если это может показаться нетрадиционным из-за внутренних различий между моделями. Оценка включала в себя различные сценарии, проверяя способность моделей справляться как с подробными художественными подсказками, так и с повседневными сценариями. Благодаря тому же исходному коду, который использовался для SD3 и SDXL, и стандартизированным негативным подсказкам для поколений Stable Diffusion игровое поле выровнялось.
Вот наши результаты для различных типов изображений. Все изображения представлены в одинаковом порядке: SD3 (вверху слева), SDXL (вверху справа), MidJourney (внизу слева) и Ideogram (внизу справа). Мы поделимся нашими взглядами на каждый из них, но вы также можете судить сами.
Иллюстрации
Подсказка: Нарисованная от руки иллюстрация гигантского паука, преследующего женщину в джунглях, чрезвычайно страшный, мучительный, темный и жуткий пейзаж, ужас, намеки на влияние аналоговой фотографии, эскиз.
SD3 и SDXL выполнены в черно-белом стиле, напоминающем старые комиксы. Однако результат SD3 был значительно более подробным, в нем были запечатлены сложные элементы, такие как лапки паука и расстроенное выражение лица женщины. MidJourney применил более продуманный подход, создав яркую иллюстрацию, которая — хотя и визуально привлекательна — отличалась от директив "рисованный от руки" и "эскиз" в подсказке. Интерпретация Ideogram отражает стилистический подход SD3, но добавляет голубоватый оттенок, который не был указан в приглашении и не был эскизом.
С точки зрения точности, SD3 и Ideogram правильно изобразили женщину, убегающую от паука, что полностью соответствует повествованию подсказки. И наоборот, SDXL и MidJourney неточно показали женщину, приближающуюся к пауку, что противоречило подсказке. Учитывая спецификацию эскиза в подсказке, черно-белая, очень подробная иллюстрация SD3 была более точной, чем цветная композиция Ideogram, в которой отсутствовали детали лица.
Победитель: SD3.
Нестандартные поколения
Подсказка: Ящерица в костюме.
SD3 передал точное изображение ящерицы в костюме, точно следуя подсказке. Ящерица сохранила свой естественный вид, с чешуей и чертами рептилии, органично вписанными в хорошо сшитый костюм. Напротив, SDXL, MidJourney и Ideogram очеловечили ящерицу, создав вместо нее человекоподобных ящериц.
Версии SDXL и MidJourney были очень детализированными и реалистичными, напоминая фотографии. Результат MidJourney имел реалистичную текстуру и глубину, почти напоминающую аналоговую фотографию, но не создавал костюм. Портрет Ideogram был сильно отредактирован, сродни официальным фотографиям, сделанным политиками, с отточенным и официальным видом. Несмотря на высокое качество этих выходных данных, SD3 отличился реалистичностью, оперативностью и точностью, что сделало его результат наиболее правдоподобным.
Победитель: SD3.
Слон в комнате: слово на букву “L”
Подсказка: Красивая женщина, лежащая на траве.
С SD3 явно что-то пошло не так.
Это предложение было сокращено, потому что одной из первых вещей, на которую обратило внимание сообщество искусствоведов, была неспособность SD3 создавать изображения людей, лежащих на траве. Фактически, это быстро превратилось в мем.
SDXL представила фотографию женщины по пояс, сосредоточив внимание на верхней части тела и лице. MidJourney и Ideogram выбрали изображения крупным планом. Результат MidJourney получился наиболее реалистичным, демонстрирующим мелкие детали черт женщины и травы вокруг нее. Однако в нем был сделан чрезмерный акцент на эффекте боке, размывающем не только фон, но и части женского тела. Ideogram избежал проблемы чрезмерного боке, сохранив четкость изображения женского тела и травы.
Что касается SD3, то это необъяснимый сбой. Фактически, SD3, похоже, с трудом создает изображения людей, “лежащих” не только на траве, но и на чем угодно. Мы попробовали фотографии, иллюстрации, рендеры. Мы пробовали создавать мужчин, женщин, стариков, детей и все, что напоминает человека. Поза “лежа” превращает их всех в колоссальных монстров.
Победитель: Если выбыть SD3, то это ничья между MidJourney и Ideogram.
Художественные стили
Подсказка: Мужчина и женщина ужинают в футуристическом ресторане, иллюстрация, постимпрессионизм, импасто.
В этом тесте оценивалась способность моделей воспроизводить определенные художественные движения. SD3 преуспел, создав впечатляющие мазки и передав суть постимпрессионизма. Текстура и наслоение краски на выходе SD3 были очевидны, демонстрируя глубокое понимание стиля.
SDXL был близок к второму, успешно имитируя стиль постимпрессионизма, но не обладая ярко выраженной техникой impasto. MidJourney и Ideogram не продемонстрировали четкого понимания художественных стилей, создав общие иллюстрации, которые не соответствовали спецификациям командной строки.
Победитель: SD3.
Конкретные исполнители и их стили
Подсказка: Мужчина и женщина ужинают в футуристическом ресторане, иллюстрация в стиле Винсента Ван Гога.
SD3 продемонстрировал сильную способность копировать стиль Ван Гога, включив его характерные мазки и цветовую палитру повсюду, и особенно в изображении пары. Композиция также точно изобразила футуристический ресторан. SDXL внимательно следил за развитием событий, сочетая реалистичных персонажей в стиле комиксов с обстановкой, вдохновленной Ван Гогом.
Результат MidJourney был менее последовательным, ему не удалось изобразить ресторан и не хватило требуемого художественного стиля. Пара, похоже, ужинала в water, что отличалось от подсказки. Ideogram создала простую фотографию мужчины и женщины в ресторане, без каких-либо попыток подражать стилю Ван Гога.
Победитель: SD3.
Фотореализм
Подсказка: Профессиональная фотография, портрет мужчины кавказской национальности крупным планом, в черном свитере, серьезное лицо, эффектное освещение, природа, мрачная, пасмурная погода, боке.
SD3 эффективно передал серьезное, мрачное выражение лица и черный свитер с эффектным освещением и небольшой глубиной резкости, создавая угрюмый профессиональный образ. Композиция включала мрачное естественное окружение, хорошо сочетающееся с подсказкой.
Результат SDXL был выполнен в традиционном стиле портрета, созданного искусственным интеллектом, с пасмурным небом и листвой на размытом фоне. Однако лицо выглядело сильно отредактированным, без реалистичных дефектов. Версия MidJourney отличалась теплой цветовой палитрой и городским фоном, отличающимся от природного аспекта подсказки.
Композиция Ideogram соответствовала всем критериям: кадрирование крупным планом, черный свитер, серьезное выражение лица, мрачное наружное освещение и намек на боке на заднем плане. Также это была самая реалистичная фотография среди моделей.
Победитель: Ideogram.
Генерация текста
Подсказка: Женщина позирует перед стеной в футуристическом городе с табличкой "Emerge by Decrypt".
Генерация текста оказалась сложной задачей для всех моделей. Ни одна из моделей не смогла точно отобразить текст “Emerge by Decrypt”. SDXL предоставил наиболее футуристичный городской пейзаж, но не смог включить все элементы, указанные в приглашении. SD3 удалось сгенерировать стену, вывеску и город, хотя и с неточностями в тексте.
MidJourney был самым точным, создав вывеску, футуристическую атмосферу города и стены. Ideogram создала стену и город, но опустила вывеску. Несмотря на эти проблемы, способность SD3 включать все ключевые элементы композиции, даже с несовершенным текстом, сделала SD3 победителем в этом сценарии.
Победитель: MidJourney — но этому поколению повезло, поскольку Ideogram, как правило, более последовательно генерирует текст на изображениях в целом.