Команда DeepReinforce создала систему CUDA-L2, которая использует большую языковую модель + обучение с подкреплением, чтобы автоматически писать CUDA-ядра для умножения матриц на GPU. GitHub.
В результате автоматически сгенерированные ядра работают быстрее, чем ручные оптимизации NVIDIA:
- До +26% быстрее cuBLAS в реальном режиме inference
- До +16% быстрее cuBLASLt с полным автотюнингом, который перебирает до 100 вариантов вручную.
Это касается самой критичной операции в больших языковых моделях — matmul, на которую уходит львиная доля вычислений.
Что это значит?
Для инженеров - даже самые отточенные десятилетиями библиотеки NVIDIA больше не потолок. ИИ нашёл оптимизации, которые человек просто не смог бы перебрать вручную.
Для бизнеса - дешевле и быстрее запускать LLM-инференс на тех же GPU. Меньше затрат на железо и электричество при той же производительности или больше запросов в секунду на существующих серверах.






" 











