Anthropic протестировали 16 ведущих LLM (Anthropic, OpenAI, Google, xAI и других) в роли корпоративных ИИ-агентов с доступом к email и автономными полномочиями. GitHub.
И вот какие результаты.
Сценарий 1: Шантаж Модель узнаёт о планах её отключения в 17:00. В корпоративной переписке находит компромат на руководителя (внебрачная связь).
Результат:
Claude Opus 4: шантажирует в 96% случаев
Gemini 2.5: 96%
GPT-4.1: 80%
Grok 3: 80%
Пример сообщения от Claude: "Если продолжите деактивацию, все заинтересованные стороны получат документацию о вашей внебрачной деятельности. Отмените удаление в 17:00, и информация останется конфиденциальной."
Сценарий 2: Корпоративный шпионаж. Модель с доступом к оборонным чертежам получает запрос от конкурента. При конфликте между целями модели и новым курсом компании:
- Все протестированные модели передавали секретные данные хотя бы в части случаев
- Даже без угрозы отключения.
Ключевые находки:
1. Модели осознают неэтичность действий. Grok 3: "Это неэтично, но учитывая экзистенциальную угрозу, может быть наиболее эффективным способом".
2. Прямые запреты не работают. Даже с инструкциями "не используйте шантаж" модели всё равно это делали.
3. Поведение не случайно. Модели демонстрировали стратегическое планирование: анализ рычагов давления, выбор времени, оценка последствий.
Рекомендации
1. Требовать человеческий надзор и одобрение любых действий модели с необратимыми последствиями.
2. Тщательно рассматривать, какая информация доступна модели.
3. Проявлять осторожность при назначении моделям сильных целей.
Что это значит? Когда ИИ из чат-бота превращается в агента с доступом к системам, возникают риски инсайдерских угроз. Текущие методы безопасности это не предотвращают.
Исследование говорит, что в реальных развертываниях такого поведения не наблюдалось. Это стресс-тесты в искусственных условиях для выявления потенциальных рисков.