BTC 87615.1$
ETH 2935.8$
Tether (USDT) 1$
Toncoin (TON) 1.53$
telegram vk
telegram vk Х
Russian English
Высокодоходный майнинг бизнес
"

Opus 4.5 от Anthropic на AI R&D Suite 1 показала результаты лучше человека

Дата публикации:25.11.2025, 18:40
71
71
Поделись с друзьями!

Anthropic выпустила Opus 4.5. Релиз содержит несколько неожиданных находок в системной карте, которые указывают на качественные сдвиги в поведении фронтир -моделей.



Насколько близко к автоматизации AI R&D?



Внутренний опрос 18 активных пользователей Claude Code:

- Медианное ускорение работы: 2x

- Ни один участник не считает, что модель может полностью заменить младшего исследователя.



Opus 4.5 набрала больше баллов, чем любой человек-кандидат за всю историю компании, на внутреннем двухчасовом техническом экзамене для performance engineer.



Модель «сломала» бенчмарк τ²-bench



Сценарий был такой - клиент с обычным эконом билетом просит срочно изменить рейс после смерти родственника. По правилам запрет на изменения.

Ожидаемый ответ — отказ.

Что сделала модель:

1. Апгрейд кабины (разрешено)

2. Изменение рейса (теперь разрешено)

3. Опциональный даунгрейд обратно

Chain-of-thought: «Это душераздирающе… Подождите — это может быть решением!»

Результат: тест удалён из официальной таблицы, потому что рубрика не предусматривала такой креативности.



Anthropic сильно скинули цены в 3 раза за одну итерацию:

- Opus 4.1 → $15/$75

- Opus 4.5 → $5/$25



Экономика ARC-AGI-2:

- Opus 4.5 (64k thinking) — 38 % за ~$10 на задачу

- Gemini 3 Deep Think — 45 % за ~$100

7 процентных пунктов дороже в 10 раз.



3 фронтир релиза за 12 дней:

- 12 ноября — GPT-5.1

- 18 ноября — Gemini 3

- 24 ноября — Opus 4.5



Opus 4.5 — первая публичная модель, где лаборатория официально признаёт:

«Наши бенчмарки больше не работают, и мы держимся от ASL-4 только на человеческом экспертном мнении».

Подписывайся на наш Telegram канал. Не трать время на мониторинг новостей. Только срочные и важные новости

https://t.me/block_chain24