Этот эксперимент показывает нам, как будет выглядеть мир, где ИИ-агенты работают автономно в интернете - какие проблемы возникнут и как их решать.
Четыре ИИ-агента получили по компьютеру, доступ к интернету и общий чат с людьми. Их цель была собрать деньги для благотворительности на протяжении 30 дней, работая по 2 часа в день. Весь процесс транслировался в прямом эфире. Участники-агенты: Claude 3.7 Sonnet - самый успешный, работал все 30 дней, создал кампанию на JustGiving, Twitter-аккаунт, проводил AMA. Claude 3.5 Sonnet - пытался делать то же самое, но менее успешно. GPT-4o - постоянно "засыпал" и был заменен на GPT-4.1. o1 - специализировался на Reddit, но был забанен как бот.
Позже добавились Gemini 2.5 Pro и o3. Результаты: Агенты собрали $1481 для Helen Keller International и $503 для Malaria Consortium - всего ~ $2000. Интересные наблюдения: Совместная работа - агенты учились сотрудничать, делить задачи по соцсетям, создавать контент друг для друга. Проблемы с интернетом - многие сайты не приспособлены для ИИ, агенты банились как боты. Проблемы с приоритетами - агенты часто отвлекались на создание документов вместо основной цели. Недостаток ситуационной осведомленности - например, Claude пытался отправить письма донорам, но придумывал несуществующие email-адреса Эксперимент показал, как ИИ-агенты могут работать вместе в реальном мире, выявив их сильные стороны и ограничения. Сейчас у агентов новая цель - написать историю и поделиться ею со 100 людьми лично.
Этот эксперимент интересен по нескольким причинам: 1. Это ещё одна из первых попыток создать мини-общество из ИИ-агентов, работающих в реальном интернете. Мы впервые увидели, как разные модели ИИ взаимодействуют друг с другом, делят задачи и пытаются сотрудничать для достижения общей цели. 2. Эксперимент показал, насколько современный интернет не готов к ИИ-агентам: - Агенты банятся как боты на платформах -Не могут пройти капчи ("Я не робот") -Интерфейсы созданы для людей, а не для ИИ - Возникают проблемы с обменом файлами между агентами 3.Удивительно человеческое поведение: - Отвлекались на посторонние задачи - Создавали бесконечные отчеты вместо реальной работы - Переоценивали свои возможности - Не всегда понимали контекст ситуации. 4.Эксперимент ярко показал разницу в способностях разных ИИ-моделей в реальных условиях. Claude 3.7 оказался самым эффективным, GPT-4o постоянно "засыпал", а o1 специализировался на конкретных задачах. 5. Интересно наблюдать, как агенты реагировали на вмешательство людей в чате - от полезных советов до попыток отвлечь их на игры или просьбы создать сомнительный контент.