BTC 101997$
ETH 3356.26$
Tether (USDT) 1$
Toncoin (TON) 2.02$
telegram vk
telegram vk Х
Russian English
Высокодоходный майнинг бизнес
"

OpenHands и Carnegie Mellon показали, почему GPT-5 хорош в бенчмарках

Дата публикации:07.11.2025, 08:43
103
103
Поделись с друзьями!

OpenHands и Carnegie Mellon показали, почему GPT-5 хорош в бенчмарках, но раздражает в реальной работе — и как это исправить. GitHub.

Они решили одну из больших проблем агентов, когда:

1. агент не понимает, когда задавать вопросы
2. задает глупые/раздражающие вопросы
3. не адаптируется под стиль пользователя

Решение - PPP framework - 3 измерения вместо одного:

Productive — решает задачи (как обычно)
Proactive — задает правильные вопросы в нужный момент
Personalized — адаптируется под ваши предпочтения.

Очень подойдет для B2C продуктов, персональных ассистентов, когда агент работает вместе с человеком.

Модель 36B обогнала GPT-5 в среднем на +21 пункт в сценариях с расплывчатыми инструкциями.

Самое интересное — модель сама научилась стратегии:
- Различает четкие и расплывчатые запросы
- С четкими почти не задает вопросов
- С расплывчатыми активно уточняет, но только по делу.

Что это значит для индустрии?

Бенчмарки должны измерять не только task success, но и:
•Качество взаимодействия
•Адаптацию к пользователю
•Эффективность коммуникации.

Подписывайся на наш Telegram канал. Не трать время на мониторинг новостей. Только срочные и важные новости

https://t.me/block_chain24