Мы продолжаем обозревать интервью Андрея Карпатый, который многое объясняет и убирает хайп, который несут в массы как его коллеги, так и бизнес.
Андрей Карпатый говорит о парадоксе, что лучшие ученики- дети ужасны в запоминании.
Вы вообще ничего не помните из раннего детства.
Зато дети мастерски схватывают языки и понимают мир. Почему? Они не запоминают дословно, а ищут общие паттерны. Это их суперсила.
А LLM — машины памяти, но не обобщения. LLM цитируют Википедию слово в слово и запоминают последовательности за пару итераций.
Но вот парадокс - их способность к абстрактному мышлению, как у детей, ограничена. Они тонут в море запомненных данных, которые часто мешают видеть «лес за деревьями».
Мы, взрослые, уже не так гибки, как дети, но лучше запоминаем факты. Наша "плохая" память — это фича, а не баг. Она заставляет нас искать обобщения, а не зубрить всё подряд.
Карпатый предлагает интересную идею, чтобы LLM стали умнее, нужно "вычистить" их память. Зачем? Чтобы они фокусировались на обобщении, а не на регургитации фактов. Цель — создать "когнитивное ядро" (~1B параметров), которое содержит алгоритмы мышления, а не свалку данных.
Карпатый задаёт вопрос, почему модели такие большие? Потому что интернет — это помойка: тикеры акций, случайный слоп, мусор. Большие модели вынуждены сжимать этот хаос, тратя ресурсы на память, а не на интеллект.
Решение:
1. Огромная модель учится на грязных данных.
2. Она фильтрует их до когнитивных компонентов.
3. На чистом датасете тренируется компактная модель (~1B параметров).
Современные SOTA-модели уже меньше, чем GPT-4 с его триллионами параметров. Лаборатории оптимизируют бюджеты - меньше тратят на предобучение, больше — на дообучение и пост-обработку. Это прагматично - сначала строим гиганта, чтобы "выжать" из данных суть, а затем дистиллируем её в компактное ядро.






" 











