Вы здесь

Новое от Anthropic - как можно «вырезать» из большой нейросети опасные знания

Дата публикации:09.12.2025, 18:57

Поделись с друзьями!

Новая технология называется Selective Gradient Masking (SGTM). Код, статья все тут .

Простыми словами это вот как:

1. Во время дообучения модели говорят модели:
«Вот опасные тексты — запоминай их только в этих специальных ячейках памяти (оранжевые).
А всё полезное — только в обычных ячейках (синие)».

2. Модель послушно разделяет знания: плохое в одну сторону, хорошее в другую.

3. В конце просто берут и обнуляют «оранжевые» ячейки. Всё. Опасные знания физически исчезли из модели, их нельзя «вытащить» даже если очень постараться.

Главное — это работает даже, когда часть опасных текстов не нашли и не пометили, а это в реальной жизни почти всегда так.

Другие проекты по безопасности тут.

Результаты интересные:
- после «вырезания» модель почти не теряет общие знания,
- чтобы вернуть удалённые способности обратно, нужно в 7 раз больше усилий, чем раньше,
- лишние вычисления при обучении — всего +5–6%.