Новая технология называется Selective Gradient Masking (SGTM). Код, статья все тут.
Простыми словами это вот как:
1. Во время дообучения модели говорят модели:
«Вот опасные тексты — запоминай их только в этих специальных ячейках памяти (оранжевые).
А всё полезное — только в обычных ячейках (синие)».
2. Модель послушно разделяет знания: плохое в одну сторону, хорошее в другую.
3. В конце просто берут и обнуляют «оранжевые» ячейки. Всё. Опасные знания физически исчезли из модели, их нельзя «вытащить» даже если очень постараться.
Главное — это работает даже, когда часть опасных текстов не нашли и не пометили, а это в реальной жизни почти всегда так.
Другие проекты по безопасности тут.
Результаты интересные:
- после «вырезания» модель почти не теряет общие знания,
- чтобы вернуть удалённые способности обратно, нужно в 7 раз больше усилий, чем раньше,
- лишние вычисления при обучении — всего +5–6%.






" 











