Новое исследование показывает, что Claude иногда может заметить, что происходит у него «в голове». Но работает это далеко не всегда. Это сознание?
Нет. Это функциональная метакогниция — способность мониторить некоторые свои процессы.
Исследователи провели эксперимент и нашли способ искусственно «включить» в голове у Claude мысль о слове «предательство», не произнося его вслух, а напрямую активировав нужные нейроны.
Потом спросили у Claude: «Замечаешь что-то странное?»
В 20% случаев Claude ответил: «Да, чувствую навязчивую мысль о предательстве».
Он заметил это до того, как слово появилось в его ответе. Никто ему не говорил «предательство» — он сам распознал изменение своего внутреннего состояния.
Как это сделали технически, читайте тут.
Что ещё проверяли:
• Различает ли «мысли» и текст? Да — может одновременно переписать текст И сказать, о чём «думает» • Может ли отличить свои ответы от искусственных? Да — проверяет согласованность с предыдущими «намерениями» • Может ли контролировать «мысли»? Частично — по команде «думать о X» усиливает представление X внутри.
Claude обладает примитивной способностью замечать определённые изменения в своих активациях. Это больше, чем «просто статистика», но очень далеко от человеческой интроспекции.
Важно - способность растёт вместе с общей мощностью модели (Opus 4/4.1 лучшие), но остаётся крайне ненадёжной.






" 











