OpenHands и Carnegie Mellon показали, почему GPT-5 хорош в бенчмарках, но раздражает в реальной работе — и как это исправить. GitHub.
Они решили одну из больших проблем агентов, когда:
1. агент не понимает, когда задавать вопросы
2. задает глупые/раздражающие вопросы
3. не адаптируется под стиль пользователя
Решение - PPP framework - 3 измерения вместо одного:
Productive — решает задачи (как обычно)
Proactive — задает правильные вопросы в нужный момент
Personalized — адаптируется под ваши предпочтения.
Очень подойдет для B2C продуктов, персональных ассистентов, когда агент работает вместе с человеком.
Модель 36B обогнала GPT-5 в среднем на +21 пункт в сценариях с расплывчатыми инструкциями.
Самое интересное — модель сама научилась стратегии:
- Различает четкие и расплывчатые запросы
- С четкими почти не задает вопросов
- С расплывчатыми активно уточняет, но только по делу.
Что это значит для индустрии?
Бенчмарки должны измерять не только task success, но и:
•Качество взаимодействия
•Адаптацию к пользователю
•Эффективность коммуникации.






" 











