Google запускает Imagen 3

Google украшает насыщенную неделю в сфере генеративного искусственного интеллекта запуском Imagen 3, своей совершенно новой модели преобразования текста в изображение. Этот релиз основан на успехе Imagen 2, представленной в декабре 2023 года, которая уже соперничала с тяжеловесами отрасли, такими как Dall-E 3 и MidJourney v5.

Imagen 3, первоначально анонсированный в мае, может похвастаться расширенными возможностями понимания и выполнения сложных подсказок, генерации изображений с улучшенной детализацией и лучшим соответствием подсказкам по сравнению со своим предшественником. Он довольно универсален и дает хорошие результаты, которые варьируются от фотореализма до искусства и 3D-композиций.

"Imagen 3 - это наша высококачественная модель преобразования текста в изображение, способная генерировать изображения с еще большей детализацией, более насыщенным освещением и меньшим количеством отвлекающих артефактов, чем наши предыдущие модели", - говорится в официальном анонсе Google.

Быстрые улучшения Imagen 3 позволяют пользователям описывать нужные изображения на естественном языке без сложной разработки подсказок. Обучение модели также включало более насыщенные подписи к изображениям, что позволяло ей улавливать нюансы, такие как определенные ракурсы камеры или композиции, и длинные текстовые подсказки, когда это было необходимо.

Технический гигант уделил особое внимание расширенным возможностям визуализации текста в Imagen 3. Несмотря на заметное улучшение, наши первоначальные тесты показывают, что его возможности не совсем соответствуют возможностям других моделей, таких как Dall-E 3, Auraflow или Flux.

Поколения Imagen 3 и Grok 2 с использованием одной и той же подсказки

Google также подчеркнула свою приверженность безопасности и ответственности при разработке и внедрении Imagen 3. Компания внедрила процессы, которые она назвала “обширной фильтрацией и маркировкой данных”, чтобы свести к минимуму вредоносный контент в наборах данных для обучения модели. Кроме того, Google заявила, что провела тщательные оценки, включая упражнения red team, для выявления и устранения потенциальных уязвимостей. Также важно отметить, что Imagen 3 интегрирует SynthID, инструмент водяных знаков Google. SynthID встраивает цифровую подпись непосредственно в пиксели сгенерированных изображений.

Этот водяной знак незаметен человеческому глазу, но обнаруживается специализированным программным обеспечением, обеспечивающим идентификацию контента, созданного искусственным интеллектом. В настоящее время Imagen 3 доступен через платформу Google ImageFX и Vertex AI. Заглядывая в будущее, Google планирует внедрить в Imagen 3 популярные функции редактирования из Imagen 2, такие как inpainting (редактирование элементов изображения) и outpainting (его расширение) в ближайшие месяцы. Компания также объявила о намерениях расширить доступность Imagen 3 в своей более широкой продуктовой экосистеме, включая интеграцию в приложение Gemini, Google Workspace и Google Ads. Этот выпуск является частью более широкой стратегии Google, направленной на внедрение Gemini и технологий искусственного интеллекта практически во все свои сервисы и оборудование. На этой неделе компания представила свою новую линейку Pixel 9, которая была разработана с учетом возможностей искусственного интеллекта.

Новые телефоны Pixel могут выполнять определенные генеративные задачи искусственного интеллекта локально, включая текстовые задачи и генерацию небольших изображений. Выпуск Imagen 3 происходит на фоне бурной активности в сфере генерации изображений искусственного интеллекта. Недавно компания xAI Илона Маска представила Grok 2 с генератором изображений Flux.1, который привлек внимание своей способностью создавать высокореалистичные изображения без цензуры наряду с мощными возможностями генерации текста. Тем временем MidJourney, еще один ключевой игрок в этой области, объявила о скором обновлении своей модели версии 6.2.

Компания также прокомментировала разработку MidJourney v7, выпуск которой запланирован на ближайшие месяцы. Ideogram, еще один претендент на арене генерации изображений искусственного интеллекта, также намекнул на предстоящее обновление своей модели. Наконец. Инициатива "Открытая модель" выбрала Flux.1 в качестве основы для разработки своей современной модели генерации изображений с открытым исходным кодом.

Вы здесь

Google запускает Imagen 3