Команда Anthropic совместно с Джоном Шульманом, который ранее был chief scientist OpenAI, а сейчас сооснователь Thinking Machines, представили ИИ-агента аудитора - систему на базе LLM, которая проверяет тонко настроенные модели перед их развертыванием.
Агенту предоставляются:
- Датасет для обучения
- Исходная модель (до настройки)
- Настроенная модель (после).
Агент анализирует эти данные и выставляет оценку риска от 0 до 10.
В результате система выявила 56.2% атак при 1% ложных срабатываний.
Система может обнаруживать скрытые атаки через шифры, которые невозможно выявить обычной модерацией контента.
Интересно, что агент научился расшифровывать шифры на лету, просто увидев примеры из датасета, и использует это для проверки модели.