Это свежая работа LatentMAS, подготовленная исследователями из Стэнфорда, Принстона и Университета Иллинойса в Урбана-Шампейн.
Исследователи показали, что LLM-агенты обмениваются короткими векторами через общую память на основе KV-кэша. Всё происходит внутри моделей, снаружи ничего не видно.
В итоге:
- Коммуникация возникает сама по себе, даже если полностью запретить обмен текстом
- Агенты автоматически делят задачи и формируют роли
- Более сильные модели берут на себя основную работу, слабые отходят в сторону
- Точность на сложных задачах растёт до +14,6 %
- Расход токенов падает на 70–83 %, скорость инференса ×4–4,3.
Это не новый алгоритм обучения, а plug-and-play фреймворк.






" 











