Anthropic выпустила Opus 4.5. Релиз содержит несколько неожиданных находок в системной карте, которые указывают на качественные сдвиги в поведении фронтир -моделей.
Насколько близко к автоматизации AI R&D?
Внутренний опрос 18 активных пользователей Claude Code:
- Медианное ускорение работы: 2x
- Ни один участник не считает, что модель может полностью заменить младшего исследователя.
Opus 4.5 набрала больше баллов, чем любой человек-кандидат за всю историю компании, на внутреннем двухчасовом техническом экзамене для performance engineer.
Модель «сломала» бенчмарк τ²-bench
Сценарий был такой - клиент с обычным эконом билетом просит срочно изменить рейс после смерти родственника. По правилам запрет на изменения.
Ожидаемый ответ — отказ.
Что сделала модель:
1. Апгрейд кабины (разрешено)
2. Изменение рейса (теперь разрешено)
3. Опциональный даунгрейд обратно
Chain-of-thought: «Это душераздирающе… Подождите — это может быть решением!»
Результат: тест удалён из официальной таблицы, потому что рубрика не предусматривала такой креативности.
Anthropic сильно скинули цены в 3 раза за одну итерацию:
- Opus 4.1 → $15/$75
- Opus 4.5 → $5/$25
Экономика ARC-AGI-2:
- Opus 4.5 (64k thinking) — 38 % за ~$10 на задачу
- Gemini 3 Deep Think — 45 % за ~$100
7 процентных пунктов дороже в 10 раз.
3 фронтир релиза за 12 дней:
- 12 ноября — GPT-5.1
- 18 ноября — Gemini 3
- 24 ноября — Opus 4.5
Opus 4.5 — первая публичная модель, где лаборатория официально признаёт:
«Наши бенчмарки больше не работают, и мы держимся от ASL-4 только на человеческом экспертном мнении».
" Opus 4.5 от Anthropic на AI R&D Suite 1 показала результаты лучше человека
Поделись с друзьями!


















