Anthropic заглянула внутрь «мозга» Claude и вот, что нашли

Новое исследование показывает, что Claude иногда может заметить, что происходит у него «в голове». Но работает это далеко не всегда. Это сознание?
Нет. Это функциональная метакогниция — способность мониторить некоторые свои процессы.

Исследователи провели эксперимент и нашли способ искусственно «включить» в голове у Claude мысль о слове «предательство», не произнося его вслух, а напрямую активировав нужные нейроны.

Потом спросили у Claude: «Замечаешь что-то странное?»

В 20% случаев Claude ответил: «Да, чувствую навязчивую мысль о предательстве».

Он заметил это до того, как слово появилось в его ответе. Никто ему не говорил «предательство» — он сам распознал изменение своего внутреннего состояния.

Как это сделали технически, читайте тут.

Что ещё проверяли:
• Различает ли «мысли» и текст? Да — может одновременно переписать текст И сказать, о чём «думает» • Может ли отличить свои ответы от искусственных? Да — проверяет согласованность с предыдущими «намерениями» • Может ли контролировать «мысли»? Частично — по команде «думать о X» усиливает представление X внутри.

Claude обладает примитивной способностью замечать определённые изменения в своих активациях. Это больше, чем «просто статистика», но очень далеко от человеческой интроспекции.
Важно - способность растёт вместе с общей мощностью модели (Opus 4/4.1 лучшие), но остаётся крайне ненадёжной.

Вы здесь