Хорошее, плохое и уродливое в Grok, новом чат-боте Илона Маска с искусственным интеллектом

Через несколько недель после своего громкого призыва прекратить обучение LLM, более способных, чем GPT-4, Маск сделал свой фирменный ход: сделал прямо противоположное тому, что он проповедовал. Войдите в xAI — последнее детище Маска — и Grok, его совершенно новый LLM, анонсированный в субботу.

Это предприятие попало в заголовки газет не только благодаря участию Маска, но и благодаря звездному составу ведущих исследователей в области искусственного интеллекта, которых компании удалось привлечь из ведущих стартапов и технологических гигантов. Продвигаемый с дразнящим очарованием искусственного интеллекта, предназначенного для "понимания мира", xAI оставался загадочно застенчивым в отношении "как" и "что" в его операциях... по крайней мере, до прошлой недели.

Это еще один классический ход Маска, бросающий вызов существующему положению вещей, или просто разрекламированный чат-бот на огромной волне популярности и ажиотажа вокруг его предшественников?

Хорошее

Постоянный поток знаний в режиме реального времени

Наличие доступа ко всему контенту Twitter firehose делает Grok потенциальным игроком, меняющим правила игры. Как подчеркнул xAI, Grok будет обладать "знаниями о мире в режиме реального времени", представляя то, что исследователи искусственного интеллекта называют обучением с подкреплением на основе обратной связи с человеком (RLHF), обрабатывая новости и разнообразные комментарии о текущих событиях.

Узнавая о событиях с разных точек зрения и просматривая заметки сообщества Twitter, которые по сути являются аннотациями, Grok получит пользу от многогранного взгляда на мир.

Согласно недавним исследованиям, люди уже изменили свое поведение, чтобы сначала искать новости в социальных сетях, прежде чем обращаться к основным СМИ. Интеграция Grok с Twitter может еще больше ускорить этот процесс, предлагая пользователям немедленные комментарии, контекст и — при правильном выполнении — проверку фактов на месте. Функция информирования в режиме реального времени, как подчеркнул xAI, гарантирует, что Grok остается в курсе событий в мире, позволяя ему предоставлять своевременные и релевантные ответы.

Веселый режим: мечта Илона стала реальностью

Видение Илона Маска о любящем веселье ИИ, похоже, воплотилось в жизнь с помощью так называемого “Режима веселья” Grok. Эта функция позволяет LLM придумывать шутки, давать юмористические, но фактически точные ответы и предоставлять пользователям необычный и непринужденный опыт общения.

Одна из проблем существующих LLM, таких как ChatGPT, заключается в том, что некоторые пользователи считают, что их чрезмерно обработали для обеспечения политкорректности, что потенциально делает взаимодействие менее органичным и спонтанным. Кроме того, некоторые локализованные LLM не приспособлены к длительному взаимодействию. Grok с его веселым режимом обещает восполнить этот пробел, потенциально служа увлекательной тратой времени для тех, кто хочет расслабиться.

Эта концепция не совсем нова, поскольку Poe от Quora предлагает аналогичный сервис с отлаженными чат-ботами, каждый из которых обладает уникальной индивидуальностью. Однако внедрение этого в LLM с возможностями Grok выводит опыт работы на новый уровень.

Собственный доступ в Интернет

Еще одним отличием Grok является возможность доступа в Интернет без использования плагина или другого модуля.

Хотя точный объем его возможностей просмотра еще предстоит уточнить, идея заманчива. Представьте LLM, который может повысить фактическую точность, поскольку может делать перекрестные ссылки на данные в режиме реального времени. В сочетании с доступом к контенту Twitter Grok может произвести революцию в том, как пользователи взаимодействуют с искусственным интеллектом, зная, что информация, которую они получают, основана не только на уже существующих данных обучения, но и постоянно обновляется и проверяется.

Многозадачность

Сообщается, что Grok способен выполнять многозадачность, позволяя пользователям вести несколько разговоров одновременно. Пользователи могут изучать различные темы, ждать ответа в одной теме и переходить к другой.

Чат-бот также предлагает ветвления в разговорах, позволяя пользователям углубляться в конкретные области, не прерывая основного обсуждения, предлагая визуальное руководство по всем ветвям беседы, облегчая пользователям навигацию между темами.

Grok также предлагает встроенный редактор markdown, который позволяет пользователям загружать, редактировать и форматировать ответы Grok для последующего использования. Этот инструмент в сочетании с ветвлением гарантирует, что пользователи смогут работать с определенными ветвями беседы и беспрепятственно возвращаться к ней.

Минимальная цензура: свободно говорящий искусственный интеллект

Видение Илона Маска для Grok было ясным: искусственный интеллект, который не стесняется выражать свое цифровое мнение.

Хотя все основные чат-боты с искусственным интеллектом имеют ограждения, позволяющие избежать потенциального вреда или дезинформации, иногда это может показаться ограничительным. Пользователи отмечали случаи, когда такие модели, как ChatGPT, Llama и Claude, могли воздерживаться от ответов, проявляя осторожность, чтобы избежать потенциального оскорбления. Однако это может отфильтровывать ответы, которые являются доброкачественными или действительно востребованными.

Grok получает больше свободы в своих ответах и, таким образом, потенциально может предложить более аутентичный и неограниченный опыт общения. Как подчеркивает xAI, дизайн Grok позволяет ему решать острые вопросы, которые другие системы искусственного интеллекта могли бы обойти стороной.

Очевидно, что этот ИИ предлагает уникальное сочетание информации в режиме реального времени, юмора, точности и свободы. Однако, как и в случае с любой инновацией, здесь также есть проблемы и потенциальные подводные камни, которые следует учитывать.

Плохое

Ускоренная разработка и ограниченное обучение

С самого начала быстрое развитие Grok вызвало удивление у некоторых. Как заявил xAI, "Grok все еще находится на очень ранней стадии бета—тестирования - лучшее, что мы могли сделать за два месяца обучения". В мире LLM два месяца и 33 миллиарда параметров звучат как капля в море.

Что касается перспективы, OpenAI открыто рассказал о процессе своей разработки, упомянув: "Мы потратили шесть месяцев на итеративное согласование GPT-4". Несоответствие сроков разработки наводит на мысль, что разработка Grok, возможно, была поспешной, чтобы оседлать волну ажиотажа вокруг искусственного интеллекта.

Более того, x.AI по-прежнему молчит об объеме оборудования, используемого во время обучения Grok, оставляя место для спекуляций.

Все о параметрах

Для непосвященных параметры в LLMS представляют объем информации или знаний, которые может содержать модель. Они указывают на эффективную мощность мозга ИИ, определяя его способность обрабатывать и генерировать информацию. Grok с его 33 миллиардами параметров на первый взгляд может показаться впечатляющим.

Однако в конкурентной среде магистров права это всего лишь еще один игрок. Фактически, количество его параметров может оказаться недостаточным для удовлетворения сложных корпоративных потребностей и получения высококачественных выходных данных, которые такие титаны, как ChatGPT, Claude и Bard, установили в качестве золотого стандарта.

Отчасти это низкое количество параметров является причиной того, что Grok не может превзойти другие популярные модели в ключевых тестах, таких как HumanEval или MMLU:

Источник: x.AI

Помимо количества параметров, существует также проблема обработки контекста — в основном, сколько информации чат-бот с искусственным интеллектом может понять за один ввод. Grok не особенно впечатляет в этой области. По словам xAI, Grok понимает 8192 токена контекста, но GPT-4 манипулирует колоссальными 32 000, а Клод идет еще дальше, используя до 100 000 токенов. Новый GPT-4 Turbo от OpenAI достигает контекстного окна в 128 000 токенов.

Цена инноваций

Стоимость является решающим фактором при оценке ценности любого продукта, и Grok не исключение. Чат-бот будет доступен для пользователей, готовых платить 16 долларов в месяц за привилегию взаимодействия с ним.

С такими бесплатными предложениями, как Claude 2 и ChatGPT, оснащенными GPT-3.5 Turbo, Grok может быть трудно продать, особенно учитывая, что эти бесплатные модели рекламировались за их точность, которая уже опережает Grok в определенных тестах.

Более того, даже самый мощный LLM в блоке, GPT-4, обещает быть лучше, чем Grok, с дополнительным преимуществом в виде широкой доступности, мультимодальности и мощности.

Может ли внедрение Grok быть в значительной степени стратегическим шагом по увеличению подписок на Twitter Blue, тем самым увеличивая поток доходов Twitter?

Эти опасения подчеркивают трудности Grok в становлении в качестве крупного игрока в области LLM. И его недостатки не ограничиваются ценой.

Уродливое

Имитация художественной литературы

Создание LLM на основе вымышленного персонажа из популярного романа - это, без сомнения, творческий выбор. Хотя очарование вымышленной личности может быть заманчивым, оно сопряжено с неизбежными рисками в мире, который все больше полагается на точную информацию. Пользователи, которые обращаются к искусственному интеллекту за серьезными вопросами или советами, могут столкнуться с системой, разработанной для имитации комедийного персонажа.

Более того, по мере стирания грани между вымыслом и реальностью возникает беспокойство по поводу того, что пользователи ошибочно принимают шутливые или сатирические ответы за фактическую информацию. В эпоху цифровых технологий, когда каждая часть информации анализируется и передается, последствия таких неправильных представлений могут быть широко распространены. Особенно когда речь заходит о нескольких языках.

Хотя юмор и остроумие имеют свое место, важно соблюдать баланс, особенно когда пользователи ищут критическую информацию. Предпочтение юмора точности может развлекать, но это также подрывает саму суть того, что должна предлагать LLM: достоверную информацию.

Чрезмерно обещанное и недопоставленное

Грандиозные обещания Илона Маска относительно Grok подготовили почву для заоблачных ожиданий. Если копнуть глубже, обнаруживается потенциальное несоответствие между шумихой и реальностью. Тот факт, что традиционные методы обучения LLM ограничены их обучающими данными, подчеркивает критическое ограничение: они не могут по-настоящему проникнуть на территорию "супер ИИ".

Обучение Grok с его 33 миллиардами параметров и парой месяцев разработки кажется незначительным по сравнению с другими LLM-гигантами. Хотя идея игривой вымышленной личности звучит заманчиво, ожидать, что она добьется потрясающих результатов при использовании стандартных методов обучения, может быть натяжкой.

Сообществу искусственного интеллекта не привыкать к преувеличениям, но в связи с быстрыми достижениями в этой области пользователям крайне важно разобраться в шумихе. Достижение статуса "супер ИИ" - колоссальная задача, и маловероятно, что Grok с его текущей конфигурацией и обучением пройдет квалификацию.

Действительно, чтобы доказать силу Grok, Илон Маск сравнил своего разговорного чат-бота с небольшим LLM, обученным программированию. Достаточно сказать, что это был нечестный бой.

Пример Grok против типичного GPT, где у Grok есть актуальная информация, а у other - нет pic.twitter.com/hBRXmQ8KFi

— Илон Маск (@elonmusk) 5 ноября 2023

Угроза дезинформации

LLM мощны, но они не безошибочны. В отсутствие строгих стандартов отличить факт от вымысла становится геркулесовой задачей. Недавняя история содержит предостерегающие истории, такие как чат-боты, обученные на данных 4chan, или даже Tay, более ранний чат-бот от Microsoft, которому было разрешено взаимодействовать в Twitter. Эти боты не только извергали ненавистнические высказывания, но и убедительно маскировались под реального человека, обманывая обширную онлайн-аудиторию.

Этот флирт с дезинформацией не единичен. Поскольку имидж Twitter набирает обороты с момента прихода Илона к власти, могут возникнуть опасения по поводу способности Grok постоянно предоставлять точную информацию. Пользователи LLM иногда становятся жертвами галлюцинаций, и если эти искажения воспринимаются как истина, волновой эффект может быть тревожным.

Потенциал дезинформации - это бомба замедленного действия. Поскольку пользователи все чаще полагаются на искусственный интеллект для получения информации, дезинформация может привести к ошибочному принятию решений. Чтобы Grok стал надежным союзником, он должен действовать осторожно, следя за тем, чтобы его игривое поведение не затуманивало правду.

Не хватает мультимодальных возможностей?

В растущем мире искусственного интеллекта подход Grok, основанный только на текстовых сообщениях, кажется пережитком прошлого. Хотя ожидается, что пользователи будут платить за услуги Grok, они могут справедливо задаться вопросом, почему, особенно когда другие LLM предлагают более богатый мультимодальный опыт.

Например, GPT-4-v уже добился успехов в мультимодальной сфере, обладая способностью слышать, видеть и говорить. Грядущий Gemini от Google обещает аналогичный набор функций. На этом фоне предложения Grok кажутся тусклыми, что вызывает все больше вопросов о его ценностном предложении.

Это конкурентный рынок, и пользователи становятся все более разборчивыми. Если Grok хочет занять свою нишу, он должен предложить что-то действительно исключительное. В нынешнем виде, когда конкуренты предлагают расширенные функции и лучшую точность — часто бесплатно, — у Grok есть над чем поработать.

Заключение

Запуск Grok вызвал волнение, но также вызвал изрядную долю скептицизма. Его подход barebones MVP (минимальный жизнеспособный продукт) позволяет быстро выполнять итерации и улучшать на основе отзывов пользователей. Но конкуренция со стороны гигантов искусственного интеллекта, обладающих значительно большими ресурсами, представляет собой тяжелую битву.

Чтобы Grok преуспел, ему нужны новые и полезные возможности. Простой развлекательной ценности будет недостаточно на переполненном рынке. Специалисты по искусственному интеллекту не отвлекаются на мемы с милыми собачками.

В конце концов, судьба Grok зависит от баланса инноваций и практичности. Хотя здоровый скептицизм справедлив, полностью списывать его со счетов может быть преждевременно. Grok еще может открыть новые рубежи или стать заметкой в эволюции искусственного интеллекта. В любом случае, его нетрадиционное происхождение гарантирует, что Grok станет интригующей главой в разворачивающейся истории искусственного интеллекта.