Anthropic предупреждает: всего несколько 'отравленных' данных могут скомпрометировать даже крупнейшие ИИ-модели

Исследование Anthropic показало, что даже самый крупный искусственный интеллект может быть «отравлен» всего несколькими сотнями неблагонадежных документов. Это открытие разрушает устоявшееся мнение, что большие модели устойчивы к подобным атакам благодаря объему данных, на которых они обучаются.

Исследователи обнаружили, что достаточно всего 250 вредоносных текстов, чтобы внедрить «черный ход» — уязвимость, которая позволяет модели вести себя неожиданным и вредоносным образом при срабатывании определенной фразы или паттерна. Этот эффект проявляется одинаково и у небольших, и у крупнейших моделей, несмотря на разницу в объеме общего обучающего материала.

По словам Василиоса Маврудина из Института Алана Тьюринга, угроза заключается в том, что злоумышленники могут использовать подобные «отравления» для обхода систем безопасности ИИ. Модель, распознав заданный код-ключ, может, например, помогать пользователю в противоправных действиях или отказаться взаимодействовать с определенными группами пользователей по языковому или культурному признаку. В некоторых случаях это может выглядеть как скрытое дискриминационное поведение, что усложняет его выявление.

Авторы исследования рекомендуют компаниям работать с данными так же тщательно, как производители следят за поставками компонентов — проверять источники, фильтровать данные и усиливать тестирование модели после обучения. Объем обучающих данных нельзя считать гарантией безопасности: качество и проверка информации имеют ключевое значение.

Также новость дня — соглашение OpenAI и Broadcom о совместной разработке кастомных графических процессоров мощностью 10 гигаватт, стартующих во второй половине 2026 года. Подобные чипы будут оптимизированы специально для задач искусственного интеллекта. Этот шаг призван удовлетворить растущие потребности OpenAI в вычислительных ресурсах и снизить зависимость от сторонних поставщиков. Акции Broadcom выросли почти на 10% после объявления партнерства.

На фоне этого Google инвестирует 15 миллиардов долларов в первый в Индии централизованный AI-хаб. Новый центр данных станет крупнейшим за пределами США и позволит локализовать и ускорить развитие передовых AI-решений. Эти инициативы отражают глобальную гонку технологических гигантов за лидерство в области искусственного интеллекта и инфраструктуры.

Нараставшее внимание к ИИ в бизнесе подтверждает и ежегодный отчет State of AI Report: за последние два года количество компаний, платящих за ИИ, выросло с 5% до 44%, при этом средняя стоимость контрактов выросла более чем в десять раз — с 39 тысяч до более чем полумиллиона долларов. В 2026 году ожидается еще более значительный рост расходов в сфере ИИ.

Таким образом, 14 октября 2025 года можно считать важной датой, когда вопросы безопасности ИИ, масштабных инвестиций и технологических прорывов объединились в общую картину быстро меняющегося рынка ИИ.