Вот краткий заголовок для этой новости: Anthropic выпустила руководство Zero Trust для ИИ-агентов

Вот краткий заголовок для этой новости: Anthropic выпустила руководство Zero Trust для ИИ-агентов

Anthropic ИИ-агенты Искусственный Интеллект Кибербезопасность Новости 07.06.2026

Вот перефразированная версия новости на русском языке:

Anthropic выпустила руководство по безопасному использованию ИИ-агентов в бизнесе

Команда Anthropic опубликовала в блоге Claude руководство под названием «Zero Trust for AI agents», посвящённое безопасному развёртыванию автономных ИИ-агентов в корпоративной среде. В документе описаны основные угрозы, связанные с агентными системами, и предложен подход к кибербезопасности для бизнеса.

ИИ ускорил атаки

По оценкам Anthropic, современные модели сократили время между обнаружением уязвимости и её использованием с нескольких месяцев до нескольких часов. Компания призывает учитывать не только ускоренные ИИ-атаки на инфраструктуру, но и риски, исходящие от самих агентов, которые могут самостоятельно ставить цели, выбирать инструменты и выполнять многошаговые действия без участия человека.

В основе руководства — принципы Zero Trust: не доверять по умолчанию, проверять каждое действие и исходить из того, что система может быть скомпрометирована. Anthropic ссылается на рекомендации NIST SP 800-207 (2020 год) и серию руководств по Zero Trust, выпускаемых АНБ с 2026 года. Подчёркивается, что это практический инструмент для команд безопасности, архитекторов и инженеров, а не универсальная схема для соблюдения нормативов.

Среди ключевых угроз в документе выделены: прямые и косвенные вмешательства через промпты, заражение инструментов, неправомерное использование идентификационных данных и привилегий, отравление памяти и контекста, а также атаки на цепочку поставок.

Прямое отравление промпта — это внедрение вредоносных инструкций через пользовательский ввод. Косвенное — через веб-страницы, письма, документы и другие внешние источники, которые агент обрабатывает в процессе работы.

Также рассматриваются подмена легитимного инструмента вредоносным и опасные цепочки вызовов, когда по отдельности безопасные средства в комбинации приводят к риску. Anthropic вводит понятия «радиус взрыва» (blast radius) и «наименьшая субъектность» (least agency). Речь идёт не только о минимальных правах доступа, но и о жёстком ограничении действий агента, частоты вызовов и областей, к которым он может обращаться.

Zero Trust для агентных систем

Для защиты компания предлагает трехуровневую модель зрелости и набор базовых технических мер. На начальном уровне рекомендуется выдавать каждому агенту уникальную криптографическую идентичность, использовать короткоживущие токены, применять принцип «запрет по умолчанию» и управление доступом на основе ролей. Для агентов, работающих с недоверенными данными (веб-контент, документы), метод «исполнения в песочнице» назван практически обязательным.

На более высоких уровнях предлагается использовать:
— стандарт mTLS с взаимной аутентификацией клиента и сервера через цифровые сертификаты;
— аппаратно привязанную идентичность через HSM или TPM, а также удалённую аттестацию.

Статические API-ключи и общие пароли сервисных аккаунтов признаны непригодными даже для базового уровня.

Большое внимание уделено наблюдаемости. Anthropic рекомендует подробно логировать все действия агента, включая вызовы инструментов, доступ к данным и внешние коммуникации, а затем передавать события в SIEM для корреляции в реальном времени. Среди ключевых метрик — dwell time и coverage. Для критических систем целевое время обнаружения отклонений — один час. Также предлагается создать «матрицу прослеживаемости», чтобы связать каждое действие агента с исходным запросом и восстановить полную цепочку решений.

Будущее SOC: агенты под контролем человека

В части реагирования Anthropic формулирует принцип: автоматизировать бюрократию вокруг инцидента, но не ключевые решения. Агентам и моделям предлагается поручать сбор и первичный отбор артефактов, ведение параллельных веток расследования и подготовку черновика постмортема. Решения о сдерживании, раскрытии инцидента и коммуникации с клиентами должны оставаться за людьми. Этот же подход применяется к «операциям защиты» — с упоминанием перехода от классического SOAR к агентному.

В документе приведены количественные ориентиры. Anthropic ссылается на исследование Microsoft Spotlighting, в котором успешность косвенных атак через отравление промпта в экспериментах снизилась с более чем 50% до менее 2%. Также компания приводит собственные результаты по использованию «конституционных классификаторов», которые, по её данным, блокируют более 95% попыток джейлбрейка при минимальном росте ложных отказов.

В блоке о цепочке поставок Anthropic рекомендует использовать AI-BOM, OpenSSF Scorecard, аудит зависимостей и анализ возможностей доступа. В качестве аргумента компания приводит собственное исследование, согласно которому 250 вредоносных документов достаточно, чтобы встроить бэкдор в модели размером от 600 млн до 13 млрд параметров.

В итоге Anthropic делает вывод, что для ИИ-агентов недостаточно точечных фильтров и периметровой защиты. Компания предлагает строить защиту вокруг идентичности, минимальных полномочий, заранее ограниченного ущерба и постоянной проверки действий. По оценке Anthropic, в лучшей позиции окажутся не организации с самым продвинутым ИИ, а те, у кого сильнее базовая архитектура безопасности.

Напомним, в июне команда Anthropic предупредила о рисках достижения рекурсивного самосовершенствования ИИ.