После первого появления ChatGPT, все в сфере ИИ говорили о новом поколении ИИ-помощников. Но за последний год это волнение переросло в новую цель: агенты искусственного интеллекта.
Агенты заняли видное место на ежегодной конференции Google по вводу/выводу в мае, когда компания представила своего нового ИИ-агента под названием Astra, который позволяет пользователям взаимодействовать с ним с помощью аудио и видео. Новую модель OpenAI GPT-4o также называют агентом ИИ.
И это не просто хайп, хотя что-то и такое определенно есть. Технологические компании вкладывают огромные средства в создание агентов ИИ, и их исследовательские усилия могут положить начало тому полезному ИИ, о котором мы мечтали десятилетиями. Многие эксперты, в том числе Сэм Альтман, говорят, что они станут следующим большим достижением.
Но что они собой представляют? И как мы можем их использовать?
Исследования агентов ИИ еще только начинаются, и в этой области еще нет четкого определения для них. «Проще говоря, это модели и алгоритмы искусственного интеллекта, которые могут автономно принимать решения в динамичном мире», — говорит Джим Фан, старший научный сотрудник Nvidia , возглавляющий инициативу компании по созданию агентов искусственного интеллекта.
Основная идея агентов ИИ — это система, которая может выполнять широкий спектр задач, подобно помощнику-человеку. В будущем он может помочь вам забронировать отпуск, но он также запомнит, предпочитаете ли вы шикарные отели, поэтому будет предлагать только отели с четырьмя звездами или выше, а затем забронирует тот, который вы выберете из множества вариантов. оно предлагает вам. Затем он также предложит рейсы, которые лучше всего соответствуют вашему календарю, и спланирует маршрут поездки в соответствии с вашими предпочтениями. Он мог бы составить список вещей, которые нужно взять с собой, на основе этого плана и прогноза погоды. Он может даже отправить ваш маршрут всем друзьям, которые живут в вашем пункте назначения, и пригласить их с собой. На рабочем месте он может анализировать ваш список дел и выполнять из него задачи, такие как отправка приглашений в календаре, заметок или электронных писем.
Одно из представлений об агентах заключается в том, что они являются мультимодальными, то есть могут обрабатывать язык, аудио и видео. Например, в демоверсии Astra от Google пользователи могли направлять камеру смартфона на предметы и задавать вопросы агенту. Агент мог реагировать на текстовые, аудио- и видеовходы.
Эти агенты также могут сделать процессы более плавными для предприятий и общественных организаций, говорит Дэвид Барбер, директор Центра искусственного интеллекта Университетского колледжа Лондона. Например, агент ИИ может функционировать как более сложный бот для обслуживания клиентов. Нынешнее поколение помощников на основе языковых моделей может генерировать только следующее вероятное слово в предложении. Но агент ИИ сможет автономно действовать по командам на естественном языке и выполнять задачи обслуживания клиентов без присмотра. Например, агент сможет анализировать электронные письма с жалобами клиентов, а затем проверять справочный номер клиента, получать доступ к базам данных, таким как системы управления взаимоотношениями с клиентами и системы доставки, чтобы проверить, является ли жалоба законной, и обрабатывать ее в соответствии с политикой компании. — говорит Барбер.
Вообще говоря, существует две разные категории агентов, говорит Фан: программные агенты и воплощенные агенты.
Программные агенты работают на компьютерах или мобильных телефонах и используют приложения, как в примере с турагентом выше. «Эти агенты очень полезны для офисной работы, отправки электронных писем или проведения цепочки событий», — говорит он.
Воплощенные агенты — это агенты, находящиеся в трехмерном мире, таком как видеоигра или робот. Агенты такого типа могут сделать видеоигры более увлекательными, позволяя людям играть неигровыми персонажами, управляемыми ИИ. Агенты такого типа также могут помочь создать более полезных роботов, которые помогут нам выполнять повседневные домашние задачи например складывание белья и приготовление еды.
Фан был частью команды, которая создала воплощенного ИИ-агента под названием MineDojo в популярной компьютерной игре Minecraft . Используя огромный объем данных, собранных из Интернета, ИИ-агент Фана смог освоить новые навыки и задачи, которые позволили ему свободно исследовать виртуальный трехмерный мир и выполнять сложные задачи, такие как окружение лам заборами или зачерпывание лавы в ведро. Видеоигры являются хорошими аналогами реального мира, поскольку требуют от агентов понимания физики, рассуждений и здравого смысла.
Исследователи из Принстона говорят, что агенты ИИ, как правило, обладают тремя различными характеристиками. Системы искусственного интеллекта считаются « агентными », если они могут достигать сложных целей без каких-либо инструкций в сложных средах. Они также соответствуют критериям, если могут обучаться на естественном языке и действовать автономно, без присмотра. И, наконец, термин «агент» также может применяться к системам, которые могут использовать такие инструменты, как веб-поиск или программирование, или способны к планированию.
Термин «агенты ИИ» существует уже много лет и в разное время означал разные вещи, говорит Чираг Шах, профессор информатики Вашингтонского университета.
По словам Фань, было две волны агентов. Нынешняя волна возникла благодаря буму языковых моделей и появлению таких систем, как ChatGPT .
Предыдущая волна была в 2016 году, когда Google DeepMind представила AlphaGo , свою систему искусственного интеллекта, которая может играть и выигрывать в игру Го. AlphaGo смогла принимать решения и планировать стратегии. Это основывалось на обучении с подкреплением — методе, который вознаграждает алгоритмы ИИ за желаемое поведение.
«Но эти агенты не были универсальными», — говорит Ориол. Виньялс , вице-президент по исследованиям Google DeepMind . Они были созданы для очень специфических задач — в данном случае для игры в Го . Новое поколение искусственного интеллекта, основанного на базовой модели, делает агентов более универсальными, поскольку они могут учиться на опыте мира, с которым взаимодействуют люди.
«Вы чувствуете гораздо больше, что модель взаимодействует с миром, а затем дает вам лучшие ответы, лучшую помощь или что-то еще», — говорит Виньялс .
Остается еще много открытых вопросов, на которые необходимо дать ответы. Канджун Цю, генеральный директор и основатель AI-стартапа Imbue, который работает над агентами, способными рассуждать и программировать, сравнивает состояние агентов с состоянием беспилотных автомобилей чуть более десяти лет назад. Они могут что-то делать, но они ненадежны и все еще не совсем автономны. Например, агент кодирования может генерировать код, но иногда он делает это неправильно и не знает, как тестировать создаваемый им код, — говорит Цю. Таким образом, людям по-прежнему необходимо активно участвовать в этом процессе. Системы искусственного интеллекта до сих пор не могут в полной мере рассуждать, что является важным шагом в работе в сложном и неоднозначном человеческом мире.
«Мы далеки от того, чтобы иметь агента, который мог бы автоматизировать за нас всю эту рутинную работу», — говорит Фан. Современные системы «галлюцинируют, и они не всегда точно следуют инструкциям», — говорит Фан. «И это становится раздражающим».
Еще одним ограничением является то, что через некоторое время агенты ИИ теряют представление о том, над чем они работают. Системы искусственного интеллекта ограничены контекстными окнами, то есть объемом данных, которые они могут учитывать в любой момент времени.
« ChatGPT может кодировать, но он не способен хорошо обрабатывать длинный контент. Но что касается разработчиков-людей, мы просматриваем весь репозиторий GitHub , содержащий десятки, если не сотни строк кода, и у нас нет проблем с навигацией по нему», — говорит Фан.
Чтобы решить эту проблему, Google увеличил возможности своих моделей по обработке данных, что позволяет пользователям дольше взаимодействовать с ними и лучше запоминать прошлые взаимодействия. Компания заявила, что работает над тем, чтобы в будущем сделать контекстные окна бесконечными.
Для воплощенных агентов, таких как роботы, ограничений еще больше. Для их обучения недостаточно обучающих данных, и исследователи только начинают использовать возможности базовых моделей в робототехнике.
Поэтому, несмотря на всю эту шумиху и волнение, стоит иметь в виду, что исследования агентов ИИ все еще находятся на самых ранних стадиях, и, вероятно, пройдут годы, прежде чем мы сможем полностью раскрыть их потенциал.
Существуют ли агенты ИИ сейчас?
Скорее всего, вы пробовали их ранние прототипы, такие как OpenAI. ЧатGPT и GPT-4. «Если вы взаимодействуете с программным обеспечением, которое кажется умным, это своего рода агент», — говорит Цю.
«На данный момент лучшие агенты, которые у нас есть, — это системы с очень узкими и конкретными сценариями использования, такие как помощники по программированию, боты для обслуживания клиентов или программное обеспечение для автоматизации рабочих процессов, такое как Zapier», — говорит она. Но это далеко не универсальный ИИ-агент, способный выполнять сложные задачи.
«Сегодня у нас есть эти компьютеры, и они действительно мощные, но нам приходится управлять ими на микроуровне», — говорит Цю.
OpenAI Плагины ChatGPT , которые позволяют людям создавать помощников на базе искусственного интеллекта для веб-браузеров, были попыткой агентов, говорит Цю . Но эти системы по-прежнему неуклюжи, ненадежны и не способны рассуждать, говорит она.
Несмотря на это, однажды эти системы изменят то, как мы взаимодействуем с технологиями, считает Цю. И это тенденция, на которую людям следует обратить внимание.
Интересно? Поделись с друзьями!
Другие вопросы