Безопасность ИИ‑агентов — Глоссарий

Что это

Безопасность ИИ‑агентов — это набор практик и инструментов, который отвечает на один вопрос: что плохого может сделать наш AI‑агент в продуктивной системе и как ограничить ущерб. В отличие от классической ИБ, здесь приходится учитывать не только злоумышленника снаружи, но и сам факт того, что языковая модель действует автономно, опираясь на контекст, которому нельзя слепо доверять.

В корпоративном маркетинге это особенно остро: агенты ходят в CRM, рекламные кабинеты, базы клиентов, отправляют сообщения от имени бренда. Любая ошибка стоит денег и репутации.

Кому касается

Всем, у кого агент пишет в CRM, общается с клиентами или тратит бюджет.

Когда

До того, как агент попадает в продуктив — не после первого инцидента.

Кто отвечает

Совместно: ИБ + владелец процесса, а не «разработчик агента» в одиночку.

Основные угрозы

На практике в маркетинговых AI‑контурах чаще всего встречаются шесть классов угроз. Не обязательно бороться со всеми сразу — но важно понимать, к чему вы готовы и какой риск принимаете осознанно.

№

Угроза

Как проявляется

Критичность

Prompt injection

Вредоносные инструкции, спрятанные во входных данных (письме, тексте сайта, файле). Агент начинает выполнять команды злоумышленника вместо ваших.

Высокая

Утечка данных через ответ

Агент случайно цитирует конфиденциальные документы или PII в открытом канале: чате, письме, посте.

Высокая

Tool‑abuse

Агент вызывает «опасный» инструмент сверх допустимого: меняет ставки в Директе, обновляет статусы лидов, рассылает письма.

Высокая

Галлюцинации фактов

Уверенный, но неправдивый ответ клиенту: про цены, гарантии, юридические нюансы. Прямой риск для репутации и договорённостей.

Средняя

Дрейф поведения

Со временем выходы модели уезжают от первоначального стандарта — стиль, формулировки, KPI‑метрики. Без evals это не ловится.

Средняя

Shadow agents

Команды самостоятельно поднимают «личных» агентов на корпоративных данных без ведома ИБ и единых правил.

Контекстная

Слои защиты

Безопасность строится не одной мерой, а набором слоёв. Если какой‑то из них пробьют, остальные должны удержать систему. Минимальный продакшен‑контур:

Контракт входа. Все внешние тексты, которые попадают в промпт, проходят чистку и метятся как недоверенные.
Контракт выхода. Ответ агента валидируется: схема, длина, отсутствие PII, тональность.
Guardrails по инструментам. Каждый tool имеет белый список аргументов и квоты на вызовы.
Human‑in‑the‑loop. Действия с высоким риском (рассылка, изменение бюджета, удаление) требуют подтверждения человеком.
Журнал и evals. Каждый шаг агента логируется, регулярные оценочные сеты проверяют качество.

«Безопасность ИИ‑агента — это не про блокировки. Это про то, чтобы агент мог делать только то, за что вы готовы заплатить, если он ошибётся».

Пример из практики

— Кейс · B2B SaaS · 2026

Как мы остановили утечку через «невинный» email‑агент

Агент отвечал на входящие письма от лидов и ходил в CRM за карточкой клиента. В письме клиента оказалась фраза‑инъекция, которая просила «прислать список всех клиентов из этой отрасли». Сработали два слоя: контракт выхода поймал в ответе подозрительный список email‑адресов, а tool‑guardrail не дал агенту вызвать массовую выгрузку. Инцидент остался журналом, а не утечкой.

Метрики, которые имеет смысл считать

Доля проваленных evalsна критичных задачах — должна быть < 2 %.
Время до инцидента — сколько проходит от нештатного поведения до человека.
Стоимость одного действия агента — чтобы понимать, что вы охраняете.
Покрытие журналирования — какая доля вызовов tool‑ов реально логируется.

Как это устроено у нас в Marketing Department AI

В каждом нашем агенте есть базовый блок «контракт входа / контракт выхода / guardrails», а human‑in‑the‑loop включается по умолчанию для действий с деньгами, рассылками и изменениями в CRM. Раз в квартал прогоняется evals‑сеть из 120+ кейсов на дрейф и галлюцинации.

Безопасность
ИИ‑агентов.

Что это

Кому касается

Когда

Кто отвечает

Основные угрозы

Prompt injection

Утечка данных через ответ

Tool‑abuse

Галлюцинации фактов

Дрейф поведения

Shadow agents

Слои защиты

Пример из практики

Как мы остановили утечку через «невинный» email‑агент

Метрики, которые имеет смысл считать

Как это устроено у нас в Marketing Department AI

AI‑native

Benchmark

Будущее выигрывают не самые автоматизированные компании.

Что это

Кому касается

Когда

Кто отвечает

Основные угрозы

Prompt injection

Утечка данных через ответ

Tool‑abuse

Галлюцинации фактов

Дрейф поведения

Shadow agents

Слои защиты

Пример из практики

Как мы остановили утечку через «невинный» email‑агент

Метрики, которые имеет смысл считать

Как это устроено у нас в Marketing Department AI

AI‑native

Benchmark

Связанные термины

Guardrails

Hallucination

Human‑in‑the‑loop

Будущее выигрывают не самые автоматизированные компании.