В среду Google ошеломила мир технологий дебютом Gemini, своего набора мультимодальных инструментов искусственного интеллекта для потребителей и бизнеса.
Среди технологических гигантов, агрессивно продвигающих искусственный интеллект, поисковый титан Google, казалось, плыл посередине, поскольку OpenAI при поддержке Microsoft подтолкнул ChatGPT к Turbo, а Vision и Anthropic обновили Claude. На сегодняшний день Google выпускает три версии Gemini — Nano, Pro и Ultra, которые легко понимают и интегрируют текст, изображения, аудио и видео.
Похоже, что Gemini готова превзойти лучшие модели ИИ от OpenAI, которая только что выпустила полный список новых возможностей, но вскоре после этого была похоронена в корпоративных интригах.
Самая продвинутая версия Gemini Ultra показала высокие результаты в нескольких популярных тестах, в некоторых случаях соответствуя или превосходя производительность человека. Например, он установил новые рекорды по 30 из 32 контрольных показателей на экзамене MMLU, который охватывает множество академических предметов.
Ключевой особенностью Gemini является ее "изначально мультимодальное" обучение, позволяющее ей обрабатывать несколько типов данных, таких как текст, изображения и аудио, в качестве входных и выходных данных. Такой подход означает, что модель была создана и обучена с нуля для понимания различных входных данных, а не результат последующего объединения отдельных режимов и модулей.
Самые популярные мультимодальные ИИ на сегодняшний день следуют последней дорожной карте. Например, ChatGPT сочетает GPT-4 Turbo с Dall-E3 для обработки текста для генерации изображений, GPT-4 Vision для обработки изображений и специальный модуль кодирования для вычислений. В результате LLM отводится роль координатора между различными моделями ИИ, которые не могут самостоятельно понять всю природу конкретной проблемы.
Это ограничение также может привести к уязвимостям, таким как быстрое внедрение. Например, методы обхода контроля безопасности текстовых подсказок путем написания или печати текста на листе бумаги, фотографирования и запроса визуального модуля обработать его.
Google Gemini показывает отличные результаты в тестах искусственного интеллекта. Изображение: Google
Напротив, ранние качественные оценки Gemini показывают его замечательную способность выполнять межмодальные рассуждения. Например, в образовательных учреждениях Gemini может понимать сложные задачи по физике, преобразовывать их в математические формулы и предлагать правильные решения. Эта способность открывает пути к преобразованиям в образовании, а также в других областях.
Традиционные LLM, как правило, не очень хороши в математике, поэтому логические способности мультимодальных LLM семейства Gemini заслуживают некоторого внимания.
В другом тестировании, ориентированном на понимание мультимодального языка, Gemini Ultra достигла точности более 90%, превосходя другие существующие модели. Google утверждает, что тесты человеческих предпочтений также показали явное предпочтение Gemini перед моделями вроде PaLM 2 в таких областях, как креативное письмо.
Меньший по размеру сервис Gemini Nano разработан для повышения эффективности работы на устройстве, превосходя его в обобщении, понимании прочитанного и различных задачах рассуждения. Несмотря на свой меньший размер, Gemini Nano демонстрирует замечательную производительность по сравнению с более крупной моделью Gemini Pro. Это означает, что Gemini может стать предпочтительным ИИ для мобильных помощников, которые могут или должны работать в автономном режиме.
Gemini выглядит как очень сильный дебют по любым меркам. А по мере совершенствования возможностей искусственного интеллекта Google их универсальность может привести к появлению новых приложений во многих областях. Однако на данный момент требуется дальнейшее тестирование в реальных условиях, чтобы определить реалистичный уровень его производительности.