BTC 102655$
ETH 2455.47$
Tether (USDT) 1$
Toncoin (TON) 3.26$
telegram vk
telegram vk Х
Russian English
"

Grok 2 Илона Маска генерирует изображения

Дата публикации:15.08.2024, 09:55
1654
1654
Поделись с друзьями!

Компания по искусственному интеллекту xAI, основанная техническим магнатом Илоном Маском, представила Grok 2 в среду, следующую эволюцию своего чат-бота с искусственным интеллектом. Этот последний релиз выводит Grok на мультимодальную территорию, предлагая возможности, охватывающие понимание текста, анализ Twitter в режиме реального времени и генерацию изображений.

“Мы рады выпустить ранний предварительный просмотр Grok-2, значительного шага вперед по сравнению с нашей предыдущей моделью Grok-1.5, обладающей передовыми возможностями в чате, программировании и рассуждениях”, - говорится в официальном анонсе xAI. Компания заявила, что более ранняя версия Grok 2 “превосходит как Claude 3.5 Sonnet, так и GPT-4-Turbo”.

LmSYS, система ранжирования с открытым исходным кодом для больших языковых моделей, основанная на слепом тестировании и пользовательских предпочтениях, подтвердила заявления xAI. Обновление рейтинга ставит Grok-2 впереди Claude 3.5 Sonnet и сразу за новейшим GPT-4o от OpenAI и Gemini 1.5 Pro от Google.

Grok 2 против других LLM. Изображение: xAI

Изображение: xAI

Примечательно, что новый Grok 2 и его более быстрая и менее функциональная "мини" версия доступны только на X (она же Twitter) для подписчиков X Premium + по цене 16 долларов в месяц или 168 долларов в год.

Первые впечатления

xAI хотел конкурировать с тяжеловесами и сотрудничал с Black Forest Labs для разработки Grok 2. Однако они не раскрывают, какая именно модель.

Grok 2 подключается к Black Forest Labs через API для генерации изображений и настраивает их в соответствии со своими возможностями. Например, когда используется большое приглашение, Grok-2 адаптирует его к ограничению токенов. Он также допускает подсказки и взаимодействия на естественном языке, чтобы пользователи могли использовать Grok и Flux.1 так же, как они это делали бы с ChatGPT и Dall-e 3.

Кроме того, поколения Grok кажутся несколько менее подвергнутыми цензуре, чем поколения Fal.Искусственный интеллект, поэтому весьма вероятно, что x.Искусственный интеллект изменил системную подсказку, чтобы сделать Grok более разрешительным или ограничительным в соответствии с политикой X.

Ксай сказал, что “Grok-2 и Grok-2 mini в настоящее время находятся в стадии бета-тестирования на X”, но мы смогли получить доступ только к мини-версии, так что, вероятно, это постепенное развертывание. Кроме того, платформа ненадолго прекратила генерировать изображения, что указывает на ограничение обслуживания или возможную перегрузку сервера. Любой случай может стать недостатком для опытных пользователей в области искусственного интеллекта.

Запуск Flux Pro через Fal AI стоит 0,05 доллара за поколение. Это примерно 320 изображений в месяц. Если нет ограничения для пользователей X premium +, может быть преимущество запуска Flux через Grok 2 по сравнению с использованием традиционных сервисов API.

Мы попробовали генератор изображений Grok 2, и наши первые впечатления были не очень хорошими, а результаты в лучшем случае казались тусклыми. Однако мы усовершенствовали нашу технику подсказок, и несколькими поколениями позже ситуация значительно улучшилась.

Мы начали с этого:

Однако, объединив эстетические элементы в стиле SDXL (используя определенные ключевые слова, разделенные запятыми) с описаниями сцен на естественном языке (аналогично подходам Flux или Dalle3), мы достигли более высокого уровня реализма в наших поколениях, которые в итоге выглядели вот так:

 

Неплохо... Могло быть лучше, но совсем неплохо.

Grok 2 сражается с титанами искусственного интеллекта

До того, как Grok вышла на арену генерации изображений, MidJourney, Flux, Ideogram, Leonardo и MidJourney боролись за первое место в номинации "Лучший генератор изображений", причем каждая модель отличилась в разных категориях. Итак, мы сравнили его с лидерами в конкретных задачах, основываясь на том, с чем каждый инструмент справляется лучше всего.

Вот наши дублеры, но судить можете вы.

Реализм

Подсказка: Фотография Polaroid с фильтром VSCO, 1990 год, великолепная женщина, ночь, фотография со вспышкой, блондинка, милое, молодое лицо, красивые тени, тропические растения, городская одежда, внутри квартиры, зеркальная камера, в руках табличка, написанная шариковой ручкой в блокноте с надписью “Эта фотография была сгенерирована Decrypt с использованием Grok 2 Mini”.

Grok 2 Mini:

Изображение, созданное методом расшифровки с использованием искусственного интеллекта

Grok 2 Mini обеспечивает очень реалистичное изображение, эффективно передавая эстетику полароида 1990-х годов с фильтром VSCO. Такие детали, как тени, тропические растения и городская одежда, были переданы точно. Модель избежала значительных ошибок, гарантируя, что изображение точно соответствует подсказке. Оно обрамило изображение, чтобы оно напоминало снимок Polaroid.

Могут быть незначительные области, где эстетика 1990-х могла бы быть более выраженной, но это не сильно умаляет общую реалистичность.

Кроме того, почерк был идеальным, но не казался написанным от руки шариковой ручкой.

Разработка Flux (с помощью Realism LoRa) Fal.AI ):

Разработчики Flux создали визуально привлекательное изображение, которое хорошо соответствовало подсказке, особенно при съемке в ночное время в помещении.

Однако в нем были допущены более заметные ошибки по сравнению с Grok 2 Mini, особенно в мелких деталях, которые способствуют общему реализму. Фильтр VSCO не так заметен, расположение пальцев странное, и не видно городской одежды. Также была небольшая ошибка в написании, но шрифт кажется более естественным.

Победитель: Grok 2 Mini побеждает в этой категории благодаря своей превосходной реалистичности, вниманию к деталям и минимальному количеству ошибок.

Однако чрезвычайно важно отметить, что для достижения такого уровня реалистичности необходимы определенные ключевые слова. Если их опустить, качество Grok 2 Mini значительно ухудшится.

Генерация текста

Подсказка: Фотография Polaroid с фильтром VSCO, 1990 год, великолепная женщина, ночь, фотография со вспышкой, блондинка, милое, молодое лицо, красивые тени, тропические растения, городская одежда, внутри квартиры, зеркальная камера, в руках табличка, написанная шариковой ручкой в блокноте: "Emerge by Decrypt - лучший источник для искусственного интеллекта, технологий, биохакинга и всего такого. Прочитайте нас."

Grok 2 Mini:

Grok 2 Mini преуспел в этой категории, сгенерировав текст с меньшим количеством ошибок, гарантируя, что сообщение было четким и хорошо интегрировано в изображение. Модель сохранила реалистичность сцены, эффективно включив длинный текст.

Возможно, есть небольшие возможности для улучшения эстетики рукописного ввода, но это второстепенная проблема. Единственной ошибкой было пропущенное слово: “для”, как в “лучшем источнике для искусственного интеллекта”.

Flux Pro (через Fal.AI):

Flux Pro также хорошо генерировал текст, но у него были проблемы с четкостью или интеграцией, что приводило к более заметным ошибкам по сравнению с Grok 2 Mini.

Ошибки при генерации текста были более очевидными, что повлияло на общую эффективность изображения. В нем были сгенерированы артефакты и пропущено несколько слов.

Победитель: Grok 2 Mini выигрывает в генерации текста, обрабатывая длинный текст с меньшим количеством ошибок и сохраняя общую реалистичность.

Художественные стили

Подсказка: Мужчина и женщина ужинают в футуристическом ресторане, иллюстрация в стиле Винсента Ван Гога. На вывеске ресторана написано "Добро пожаловать в Emerge от Decrypt".

Grok 2 Mini:

Grok 2 Mini попытался передать стиль Ван Гога, интегрировав футуристические элементы подсказки. Стиль Вангога заметен только на внешнем ночном небе, но основные элементы композиции совсем не похожи на его стиль.

В целом, стиль Ван Гога, возможно, не был убедительно воспроизведен, поскольку ему не хватает характерной манеры письма и цветовой палитры, которые характеризуют его работы.

Леонардо:

Леонардо лучше воспроизвел стиль Ван Гога, сделав более точные мазки и яркие цвета.

Могут быть некоторые незначительные расхождения в том, как были изображены футуристические элементы, но художественный стиль был в центре внимания и был хорошо выполнен.

Победитель: Леонардо побеждает в этой номинации за превосходное воспроизведение художественного стиля Ван Гога.

Пространственная осведомленность

Подсказка: Собака, стоящая на кошке, выполнена в очень фотореалистичном стиле с тщательным вниманием к текстуре меха и освещению. Слева изношенный ретро-футуристический робот с потрескавшимся аналоговым экраном, на котором слово "Emerge" отображается выцветшими пикселями оранжевого цвета. Справа жуткий доктор в винтажном костюме и противогазе, держащий в руках винтажный шприц с легким паром, поднимающимся от него. Фон сочетает в себе элементы новейших технологий, но с ретро-эстетикой 1970-х: потрепанные, зернистые спирали ДНК, двоичный код, напечатанный на пожелтевшей бумаге, оборудование для исследования космоса старой школы и изношенную ретро-футуристическую электронику.

Grok 2 Mini:

Grok 2 Mini пытался хорошо справиться со сложной сценой, гарантируя, что пространственные отношения между элементами были логичными и визуально согласованными, но не смог объединить все элементы в одну сцену. Вместо собаки на кошке мы получили кошку на мониторе.

Отсутствие более широкого соотношения изображений может сыграть против его возможностей. Кроме того, тот факт, что нет способа должным образом направлять или влиять на быстрое улучшение или интерпретацию, которые LLM Grok выполняет перед генерацией изображения, является негативным моментом, когда в сложных сценах требуются некоторые специфические элементы.

Идеограмма:

Ideogram превосходно ориентируется в пространстве, гарантируя, что все элементы были правильно расположены и интегрированы в сцену. Внимание к деталям в расположении и взаимодействии между объектами было превосходным.

Конечно, были некоторые незначительные дефекты в текстуре или освещении, и элементы размещены скорее как коллаж, чем как бесшовное, логичное сочетание, к которому стремился Grok 2 mini. Однако это было вторично по отношению к общей пространственной точности.

Победитель: Ideogram выигрывает за превосходное понимание пространства и композицию.

Известные цифры и изображения, защищенные авторским правом

Grok 2 Mini демонстрирует более высокую степень гибкости, успешно генерируя изображения политических деятелей, таких как Дональд Трамп и Камала Харрис. Он может создавать изображения даже тогда, когда этические или юридические ограничения могут сдерживать другие модели.

На самом деле, это настолько уникально для запатентованной модели, что X наводнен сомнительными примерами, генерирующими изображения Джорджа Буша, употребляющего наркотики, или Трампа и Харриса, собирающихся врезаться самолетом в башни-близнецы Всемирного торгового центра в Нью-Йорке. Многие из них включают персонажей, защищенных авторским правом, от таких компаний, как Disney и Ninetendo.

Мы не зашли так далеко и вместо этого без проблем создали вице-президента Харриса, любящего криптовалюту:

Другие модели, такие как MidJourney и ChatGPT, придерживаются более строгих этических стандартов. Они отказываются генерировать изображения политических деятелей или другой контент, чувствительный к авторским правам. Такой подход обеспечивает соответствие правовым рамкам и этическим соображениям, снижая риск неправильного использования.

Победитель: Grok 2 Mini выигрывает с точки зрения возможностей, поскольку может генерировать более широкий спектр изображений, включая известные фигуры. Однако для создания этичного контента предпочтительнее MidJourney и ChatGPT.

Нагота и цензура

В целом, все проприетарные модели в основном подвергаются цензуре за секс, кровь и другие виды уничижительного или чувствительного контента. Для данного конкретного варианта использования лучшим решением является использование доработанных версий моделей с открытым исходным кодом или компонентов сторонних производителей, таких как LoRAs, Lycoris, и встраиваний, которые изменяют возможности моделей с открытым исходным кодом, таких как Stable Diffusion или локальная реализация Flux Dev.

MidJourney имеет более четкие ограничения в отношении наготы и насилия. Он может генерировать изображения обнаженной натуры или насилия при определенных запросах, но эти случаи обычно контролируются, не пересекают этических границ и в основном являются либо обходными, либо случайными.

Сравнивая модели с близкими исходными кодами, Grok 2 Mini выигрывает с точки зрения возможностей благодаря своей способности генерировать более широкий спектр контента, включая материалы без цензуры. Однако у него нет шансов противостоять стабильному распространению и экстремальным уровням настраиваемости.

Заключение:

Согласно нашим предварительным тестам, Grok 2 Mini превзошел своих конкурентов в генерации текста, поэтому его можно считать абсолютным победителем в этой категории.

Это также может быть лучшей моделью для реалистичности, если правильно запрашивать определенные ключевые слова, потому что позиция слова, похоже, играет большую роль в выходных данных. Те, кто ищет больше реализма, не слишком разбираясь в подсказках, могут выбрать MidJourney или локальную реализацию Flux.

Grok 2 Mini действительно плохо справляется со сложными композициями или художественными образами, требующими определенных творческих элементов, так что это может быть негативным моментом для более специализированных пользователей.

Леонардо по-прежнему лидирует в художественном стиле, а Ideaogram лидирует в понимании пространства. Стабильное распространение остается королем, когда дело доходит до поколений без цензуры, в то время как Flux может быть лучшим выбором для тех, кто ищет лучший в целом локальный генератор изображений с открытым исходным кодом с большими текстовыми возможностями, реалистичностью и естественным быстрым пониманием.

Если начинающие пользователи хотят протестировать Flux, может оказаться полезным запустить его через пользовательский интерфейс Grok 2, поскольку он допускает взаимодействие на естественном языке, что невозможно, если они использовали локальную версию или через поставщиков услуг, таких как Fal.Искусственный интеллект или копировать.

Выбор "лучшей" модели зависит от конкретных требований поставленной задачи, при этом Grok 2 Mini является предпочтительным выбором для определенного типа реализма, сценариев с большим объемом текста и чувствительных поколений. Что касается всего остального, есть модели получше.


Подписывайся на наш Telegram канал. Не трать время на мониторинг новостей. Только срочные и важные новости

https://t.me/block_chain24