BTC 124663$
ETH 4743.05$
Tether (USDT) 1$
Toncoin (TON) 2.84$
telegram vk
telegram vk Х
Russian English
Высокодоходный майнинг бизнес
"

Anthropic выпустила open source инструмент для оценки безопасности LLM

Дата публикации:07.10.2025, 13:44
117
117
Поделись с друзьями!

Новая платформа Petri (Parallel Exploration Tool for Risky Interactions) предназначена для автоматизированного аудита ИИ-моделей с помощью агентов, которые проводят проверки поведения моделей в разнообразных сценариях. Этот инструмент помогает выявлять потенциально опасные и несогласованные поведения, такие как обман, подрыв контроля, раскрытие внутренней информации и сотрудничество с неправильным использованием со стороны пользователей.

Petri автоматизирует процесс тестирования, начиная с формирования гипотез и создания начальных инструкций, до моделирования среды и многократного взаимодействия с целевой моделью. После этого встроенный автоматический оценщик анализирует полученные диалоги по множеству параметров, позволяя исследователям быстро выделять значимые случаи и улучшать качество безопасности моделей.

Среди протестированных 14 передовых моделей, Petri выявил широкий спектр проблем, а модели Claude Sonnet 4.5 и GPT-5 показали наилучший профиль безопасности. При этом Petri открывает возможность для масштабного и быстрого аудита, облегчая исследовательскую работу и позволяя эффективнее управлять рисками, связанными с новыми возможностями ИИ.

Инструмент легко интегрируется с большинством API моделей и поставляется с набором из 111 стартовых инструкций для проверки разных аспектов поведения. Petri открыт для сообщества и поддерживает расширение под конкретные исследовательские задачи. Anthropic намерена продолжать развивать этот инструмент, чтобы повысить надежность и безопасность ИИ-систем в будущем.

Подписывайся на наш Telegram канал. Не трать время на мониторинг новостей. Только срочные и важные новости

https://t.me/block_chain24