BTC 108977$
ETH 3842.14$
Tether (USDT) 1$
Toncoin (TON) 2.12$
telegram vk
telegram vk Х
Russian English
Высокодоходный майнинг бизнес
"

Андрей Карпатый о будущем обучения ИИ-моделей и критике RL

Дата публикации:23.10.2025, 07:41
132
132
Поделись с друзьями!

Мы продолжаем обозревать свежее интервью Андрея Карпатый, сооснователя OpenAI, экс-директора по ИИ Tesla. #часть3 Предыдущие части тут. 

Андрей разнёс Reinforcement Learning (RL) в пух и прах, но признал, что пока это лучшее, что у нас есть. А ещё поделился мыслями о новых подходах к обучению моделей.

Почему RL — это боль, но мы всё равно его используем?
Карпатый назвал RL «ужасным» из-за его шумности и неэффективности. Как это работает:
- Модель пробует сотни путей решения задачи параллельно.
- Успешные траектории, даже если они частично случайны помечаются как «хорошие», а все шаги в них получают награду.
- Проблема - даже неправильные шаги, которые случайно привели к верному ответу, поощряются. Это как хвалить за удачу, а не за умение.

«Это как высасывать крупицы знаний через соломинку», — говорит Карпатый. Люди так не учатся: мы анализируем свои решения, выделяем хорошие и плохие шаги. У современных LLM такого «рефлексивного» процесса нет.

Но RL всё ещё используется, потому что:
1. обучение на примерах творит чудеса. Например, InstructGPT показал, как быстро модель может адаптироваться к диалогам, сохраняя знания.
2. RL позволяет «взбираться по холму» наград, находя решения, которые человек бы не придумал.

Чтобы исправить недостатки RL, пробуют process supervision — награждать за каждый шаг, а не только за финальный результат. Для этого используют LLM-судей, которые оценивают промежуточные решения.

Но есть нюанс:
- LLM-судьи — это огромные модели, и их можно «взломать».
- например, модель генерировала бессмыслицу, а судья ставил 100%. Почему? Это adversarial example, который сбивает модель с толку.
- Исправить можно, добавляя такие примеры в обучение судьи, но это бесконечный процесс. «У модели триллион параметров, всегда найдётся новый способ её обмануть», — говорит Карпатый.

Что дальше? Новые парадигмы обучения
Карпатый оптимистичен. RL — не конец пути. Новые идеи уже появляются:
- System Prompt Learning - модели начинают «рефлексировать», анализировать решения и генерировать синтетические данные для улучшения.
- Пример из реальной жизни: функция памяти в ChatGPT — это зачаток новых подходов.
- Проблема - идеи из статей на arXiv пока далеки от масштабируемых решений в больших лабораториях.

«Я верю, что скоро мы увидим прогресс в этом направлении», — подытожил Карпатый.

Будущее за подходами, которые научат модели думать и анализировать, как люди.

Подписывайся на наш Telegram канал. Не трать время на мониторинг новостей. Только срочные и важные новости

https://t.me/block_chain24