Ранее Anthropic разработала новый метод для отслеживания "мыслительных процессов" языковых моделей, то есть понимания того, как модель внутренне приходит к определенному ответу.
Для этого они создают "графы атрибуции", которые показывают шаги, которые модель предприняла для генерации конкретного результата.
Что они конкретно открыли?
1. Методологию и исследовательские статьи
2. GitHub репозиторий
3. Интерактивные инструменты 4. Готовые примеры для экспериментов
5. Walkthrough и документацию.
Глава Anthropic Дарио Амодей, говорит, что, открывая эти инструменты, компания хочет помочь более широкому сообществу исследователей изучать то, что происходит внутри языковых моделей.
Проект уже использовался для изучения многошагового рассуждения и многоязычных представлений в моделях Gemma-2-2b и Llama-3.2-1b.