Впервые за 8 лет существования Transformer-архитектуры кто-то смог преодолеть её фундаментальное ограничение. Это новый класс возможностей для ИИ.
У всех языковых моделей одна проблема - могут работать только с ограниченным объёмом текста — ~ 100-200 тысяч токенов.
Причина — квадратичная сложность: обработка текста в 2 раза длиннее требует в 4 раза больше вычислений.
Китайская компания MiniMax, основанная в 2023г., представила модель MiniMax-01, у которой есть механизм Lightning Attention с линейной сложностью. Теперь удвоение текста требует удвоения вычислений.
MiniMax решает проблему LLM на фундаментальном уровне - меняет саму архитектуру Transformer, сохраняя все её преимущества.
Результат:
1. Контекст 4 млн токенов (~ 3000 книг одновременно)
2. Производительность на уровне GPT-4o и Claude-3.5
3. Превосходство над всеми моделями на длинных текстах.