Современные LLM можно взломать и использовать для опасных целей. До сих пор лучшим решением было использовать отдельную ИИ-модель, которая проверяет каждый запрос. Но это увеличивало стоимость работы системы на 25%.
Anthropic предлагает решение - переиспользовать вычисления, которые модель уже выполняет, чтобы снизить затраты на классификацию с минимальной потерей производительности.
Это исследование говорит нам о нескольких важных вещах:
1. Безопасность ИИ становится дешевле. Раньше для защиты от взлома нужно было запускать отдельную модель, что увеличивало расходы на 25%. Теперь можно добиться той же защиты, добавив всего 0.1-4% к стоимости.
2. Умное переиспользование ресурсов. Вместо того чтобы делать двойную работу, исследователи научились использовать то, что модель уже вычислила для генерации ответа.
Anthropic честно признаёт, что эти методы не тестировались против хакеров, которые знают о них.