Если никто не покажет, что обучение с подкреплением (RL)— это не просто "вытягивание" того, что модель уже знает из предобучения, а реально новая парадигма масштабирования, то NVIDIA сделает это сама.
И они сделали.
Последние месяцы в ИИ-сообществе шел спор: действительно ли RL учит модели чему-то новому, или просто помогает им лучше использовать то, что они уже "знают"?
Несколько исследований утверждали второе. Это важно, потому что если RL не дает ничего нового — зачем тратить на него миллионы?
Что сделала NVIDIA?
Они взяли модель с 1.5млрд параметрами и обучали её методом ProRL (Prolonged Reinforcement Learning) более 2000 шагов. Для сравнения: большинство предыдущих исследований останавливались на сотнях шагов.
Ключевые результаты:
1. Модель научилась решать задачи, которые базовая версия не могла решить вообще (0% → 100%)
2. На некоторых задачах 1.5B модель показывает результаты лучше, чем 7B модели конкурентов
3. Creativity Index вырос с 3.84 до 4.70 — модель генерирует объективно более новые решения.
Почему это важно для бизнеса?
1. Экономика изменилась Вместо покупки модели в 10 раз больше, можно взять маленькую и дообучить её RL. Это дешевле по инфраструктуре и энергопотреблению.
2. Локальное развертывание стало реальнее 1.5B модель можно запустить на собственном железе. Для банков, медицины, госсектора — это критично.
3. Новая парадигма инвестиций в ИИ
Раньше было так: больше данных → больше параметров → лучше результат Теперь: правильное RL обучение → новые способности при тех же параметрах
NVIDIA показала, что RL — это не оптимизация существующего, а способ научить модель принципиально новым паттернам рассуждения. Они обнаружили закономерность: чем хуже модель справляется с задачей изначально, тем больше выигрыш от RL.
Это меняет стратегию развития ИИ-продуктов. Вместо постоянной гонки за размером моделей, можно фокусироваться на специализированном дообучении под конкретные задачи.
Риски и ограничения
- ProRL требует серьёзных вычислительных ресурсов (16k GPU-часов в их случае)
- Нужна экспертиза в RL — это не просто "нажать кнопку"
- Не все задачи одинаково хорошо поддаются такому обучению