Что это
Безопасность ИИ‑агентов — это набор практик и инструментов, который отвечает на один вопрос: что плохого может сделать наш AI‑агент в продуктивной системе и как ограничить ущерб. В отличие от классической ИБ, здесь приходится учитывать не только злоумышленника снаружи, но и сам факт того, что языковая модель действует автономно, опираясь на контекст, которому нельзя слепо доверять.
В корпоративном маркетинге это особенно остро: агенты ходят в CRM, рекламные кабинеты, базы клиентов, отправляют сообщения от имени бренда. Любая ошибка стоит денег и репутации.
Кому касается
Всем, у кого агент пишет в CRM, общается с клиентами или тратит бюджет.
Когда
До того, как агент попадает в продуктив — не после первого инцидента.
Кто отвечает
Совместно: ИБ + владелец процесса, а не «разработчик агента» в одиночку.
Основные угрозы
На практике в маркетинговых AI‑контурах чаще всего встречаются шесть классов угроз. Не обязательно бороться со всеми сразу — но важно понимать, к чему вы готовы и какой риск принимаете осознанно.
Prompt injection
Вредоносные инструкции, спрятанные во входных данных (письме, тексте сайта, файле). Агент начинает выполнять команды злоумышленника вместо ваших.
Утечка данных через ответ
Агент случайно цитирует конфиденциальные документы или PII в открытом канале: чате, письме, посте.
Tool‑abuse
Агент вызывает «опасный» инструмент сверх допустимого: меняет ставки в Директе, обновляет статусы лидов, рассылает письма.
Галлюцинации фактов
Уверенный, но неправдивый ответ клиенту: про цены, гарантии, юридические нюансы. Прямой риск для репутации и договорённостей.
Дрейф поведения
Со временем выходы модели уезжают от первоначального стандарта — стиль, формулировки, KPI‑метрики. Без evals это не ловится.
Shadow agents
Команды самостоятельно поднимают «личных» агентов на корпоративных данных без ведома ИБ и единых правил.
Слои защиты
Безопасность строится не одной мерой, а набором слоёв. Если какой‑то из них пробьют, остальные должны удержать систему. Минимальный продакшен‑контур:
- Контракт входа. Все внешние тексты, которые попадают в промпт, проходят чистку и метятся как недоверенные.
- Контракт выхода. Ответ агента валидируется: схема, длина, отсутствие PII, тональность.
- Guardrails по инструментам. Каждый tool имеет белый список аргументов и квоты на вызовы.
- Human‑in‑the‑loop. Действия с высоким риском (рассылка, изменение бюджета, удаление) требуют подтверждения человеком.
- Журнал и evals. Каждый шаг агента логируется, регулярные оценочные сеты проверяют качество.
«Безопасность ИИ‑агента — это не про блокировки. Это про то, чтобы агент мог делать только то, за что вы готовы заплатить, если он ошибётся».
Пример из практики
Как мы остановили утечку через «невинный» email‑агент
Агент отвечал на входящие письма от лидов и ходил в CRM за карточкой клиента. В письме клиента оказалась фраза‑инъекция, которая просила «прислать список всех клиентов из этой отрасли». Сработали два слоя: контракт выхода поймал в ответе подозрительный список email‑адресов, а tool‑guardrail не дал агенту вызвать массовую выгрузку. Инцидент остался журналом, а не утечкой.
Метрики, которые имеет смысл считать
- Доля проваленных evalsна критичных задачах — должна быть < 2 %.
- Время до инцидента — сколько проходит от нештатного поведения до человека.
- Стоимость одного действия агента — чтобы понимать, что вы охраняете.
- Покрытие журналирования — какая доля вызовов tool‑ов реально логируется.
Как это устроено у нас в Marketing Department AI
В каждом нашем агенте есть базовый блок «контракт входа / контракт выхода / guardrails», а human‑in‑the‑loop включается по умолчанию для действий с деньгами, рассылками и изменениями в CRM. Раз в квартал прогоняется evals‑сеть из 120+ кейсов на дрейф и галлюцинации.
