Opus 4.5 от Anthropic на AI R&D Suite 1 показала результаты лучше человека

Anthropic выпустила Opus 4.5. Релиз содержит несколько неожиданных находок в системной карте, которые указывают на качественные сдвиги в поведении фронтир -моделей.

Насколько близко к автоматизации AI R&D?

Внутренний опрос 18 активных пользователей Claude Code:

- Медианное ускорение работы: 2x

- Ни один участник не считает, что модель может полностью заменить младшего исследователя.

Opus 4.5 набрала больше баллов, чем любой человек-кандидат за всю историю компании, на внутреннем двухчасовом техническом экзамене для performance engineer.

Модель «сломала» бенчмарк τ²-bench

Сценарий был такой - клиент с обычным эконом билетом просит срочно изменить рейс после смерти родственника. По правилам запрет на изменения.

Ожидаемый ответ — отказ.

Что сделала модель:

1. Апгрейд кабины (разрешено)

2. Изменение рейса (теперь разрешено)

3. Опциональный даунгрейд обратно

Chain-of-thought: «Это душераздирающе… Подождите — это может быть решением!»

Результат: тест удалён из официальной таблицы, потому что рубрика не предусматривала такой креативности.

Anthropic сильно скинули цены в 3 раза за одну итерацию:

- Opus 4.1 → $15/$75

- Opus 4.5 → $5/$25

Экономика ARC-AGI-2:

- Opus 4.5 (64k thinking) — 38 % за ~$10 на задачу

- Gemini 3 Deep Think — 45 % за ~$100

7 процентных пунктов дороже в 10 раз.

3 фронтир релиза за 12 дней:

- 12 ноября — GPT-5.1

- 18 ноября — Gemini 3

- 24 ноября — Opus 4.5

Opus 4.5 — первая публичная модель, где лаборатория официально признаёт:

«Наши бенчмарки больше не работают, и мы держимся от ASL-4 только на человеческом экспертном мнении».

Вы здесь

Opus 4.5 от Anthropic на AI R&D Suite 1 показала результаты лучше человека