Вы здесь

Anthropic и создатель ChatGPT создали ИИ-агента, выявляющий вредоносное дообучение ИИ-моделей

Дата публикации:23.10.2025, 07:44

957

Поделись с друзьями!

Команда Anthropic совместно с Джоном Шульманом, который ранее был chief scientist OpenAI, а сейчас сооснователь Thinking Machines, представили ИИ-агента аудитора - систему на базе LLM, которая проверяет тонко настроенные модели перед их развертыванием.

Агенту предоставляются:
- Датасет для обучения
- Исходная модель (до настройки)
- Настроенная модель (после).

Агент анализирует эти данные и выставляет оценку риска от 0 до 10.

В результате система выявила 56.2% атак при 1% ложных срабатываний.

Система может обнаруживать скрытые атаки через шифры, которые невозможно выявить обычной модерацией контента.

Интересно, что агент научился расшифровывать шифры на лету, просто увидев примеры из датасета, и использует это для проверки модели.