BTC 94474.9$
ETH 3384.62$
Tether (USDT) 1$
Toncoin (TON) 1.69$
telegram vk
telegram vk Х
Russian English
Высокодоходный майнинг бизнес
"

Новое от Anthropic - как можно «вырезать» из большой нейросети опасные знания

Дата публикации:09.12.2025, 18:57
68
68
Поделись с друзьями!

Новая технология называется Selective Gradient Masking (SGTM). Код, статья все тут. 

Простыми словами это вот как:

1. Во время дообучения модели говорят модели:
   «Вот опасные тексты — запоминай их только в этих специальных ячейках памяти (оранжевые).
   А всё полезное — только в обычных ячейках (синие)».

2. Модель послушно разделяет знания: плохое в одну сторону, хорошее в другую.

3. В конце просто берут и обнуляют «оранжевые» ячейки. Всё. Опасные знания физически исчезли из модели, их нельзя «вытащить» даже если очень постараться.

Главное — это работает даже, когда часть опасных текстов не нашли и не пометили, а это в реальной жизни почти всегда так.

Другие проекты по безопасности тут.

Результаты интересные:
- после «вырезания» модель почти не теряет общие знания,
- чтобы вернуть удалённые способности обратно, нужно в 7 раз больше усилий, чем раньше,
- лишние вычисления при обучении — всего +5–6%.

Подписывайся на наш Telegram канал. Не трать время на мониторинг новостей. Только срочные и важные новости

https://t.me/block_chain24