BTC 108977$
ETH 3842.14$
Tether (USDT) 1$
Toncoin (TON) 2.12$
telegram vk
telegram vk Х
Russian English
Высокодоходный майнинг бизнес
"

Anthropic и создатель ChatGPT создали ИИ-агента, выявляющий вредоносное дообучение ИИ-моделей

Дата публикации:23.10.2025, 07:44
179
179
Поделись с друзьями!

Команда Anthropic совместно с Джоном Шульманом, который ранее был chief scientist OpenAI, а сейчас сооснователь Thinking Machines, представили ИИ-агента аудитора - систему на базе LLM, которая проверяет тонко настроенные модели перед их развертыванием.

Агенту предоставляются:
- Датасет для обучения
- Исходная модель (до настройки)
- Настроенная модель (после).

Агент анализирует эти данные и выставляет оценку риска от 0 до 10.

В результате система выявила 56.2% атак при 1% ложных срабатываний.

Система может обнаруживать скрытые атаки через шифры, которые невозможно выявить обычной модерацией контента.

Интересно, что агент научился расшифровывать шифры на лету, просто увидев примеры из датасета, и использует это для проверки модели.

Подписывайся на наш Telegram канал. Не трать время на мониторинг новостей. Только срочные и важные новости

https://t.me/block_chain24