Вы здесь

CUDA-L2: теперь ИИ пишет код быстрее, чем оптимизации от инженеров NVIDIA

Дата публикации:16.12.2025, 10:02

127

Поделись с друзьями!

Команда DeepReinforce создала систему CUDA-L2, которая использует большую языковую модель + обучение с подкреплением, чтобы автоматически писать CUDA-ядра для умножения матриц на GPU. GitHub.

В результате автоматически сгенерированные ядра работают быстрее, чем ручные оптимизации NVIDIA:

- До +26% быстрее cuBLAS в реальном режиме inference
- До +16% быстрее cuBLASLt с полным автотюнингом, который перебирает до 100 вариантов вручную.

Это касается самой критичной операции в больших языковых моделях — matmul, на которую уходит львиная доля вычислений.

Что это значит?

Для инженеров - даже самые отточенные десятилетиями библиотеки NVIDIA больше не потолок. ИИ нашёл оптимизации, которые человек просто не смог бы перебрать вручную.

Для бизнеса - дешевле и быстрее запускать LLM-инференс на тех же GPU. Меньше затрат на железо и электричество при той же производительности или больше запросов в секунду на существующих серверах.