Команда перешла к прагматической интерпретируемости, чтобы исследования лучше служили реальным целям, таким как безопасность AGI.
Что такое прагматическая интерпретируемость и зачем её ввели?
Раньше команда использовала механистическую интерпретируемость — когда исследователи пытаются разобрать нейронные сети, как механизм, чтобы понять, как они работают внутри. Это дало интересные открытия: от понимания, как модели хранят знания в "суперпозиции" , до выявления скрытых целей в поведении ИИ.
Но DeepMind заметили проблему: такие исследования часто остаются на уровне любопытных находок, без прямого влияния на безопасность. AGI ещё не существует, но риски — реальны, и нужно фокусироваться на том, что приближает к решению этих рисков. Прагматическая интерпретируемость — это расширение: не только разбирать "внутренности", но и применять навыки для практических задач. Главное — измерять прогресс через эмпирические прокси-задачи, которые имитируют будущие проблемы AGI.
Почему именно сейчас? Модели ИИ стали сложнее (типа Claude Sonnet 4.5), и появились реальные примеры, когда ИИ не следует целям создателей.






" 











