Новая платформа Petri (Parallel Exploration Tool for Risky Interactions) предназначена для автоматизированного аудита ИИ-моделей с помощью агентов, которые проводят проверки поведения моделей в разнообразных сценариях. Этот инструмент помогает выявлять потенциально опасные и несогласованные поведения, такие как обман, подрыв контроля, раскрытие внутренней информации и сотрудничество с неправильным использованием со стороны пользователей.
Petri автоматизирует процесс тестирования, начиная с формирования гипотез и создания начальных инструкций, до моделирования среды и многократного взаимодействия с целевой моделью. После этого встроенный автоматический оценщик анализирует полученные диалоги по множеству параметров, позволяя исследователям быстро выделять значимые случаи и улучшать качество безопасности моделей.
Среди протестированных 14 передовых моделей, Petri выявил широкий спектр проблем, а модели Claude Sonnet 4.5 и GPT-5 показали наилучший профиль безопасности. При этом Petri открывает возможность для масштабного и быстрого аудита, облегчая исследовательскую работу и позволяя эффективнее управлять рисками, связанными с новыми возможностями ИИ.
Инструмент легко интегрируется с большинством API моделей и поставляется с набором из 111 стартовых инструкций для проверки разных аспектов поведения. Petri открыт для сообщества и поддерживает расширение под конкретные исследовательские задачи. Anthropic намерена продолжать развивать этот инструмент, чтобы повысить надежность и безопасность ИИ-систем в будущем.