Prompt-инъекция

Prompt-инъекция — это тип атаки, при котором злоумышленник внедряет вредоносные инструкции в запрос, заставляя ИИ-агента выполнить нежелательные или опасные действия. Это одна из наиболее распространённых и опасных уязвимостей современных ИИ-систем.

Как работает атака

ИИ-агенты обрабатывают пользовательский ввод и системные инструкции в едином контексте. Злоумышленник может сконструировать запрос таким образом, чтобы его вредоносная часть была воспринята агентом как приоритетная инструкция, переопределяющая исходные ограничения и правила безопасности.

Типы prompt-инъекций

Прямая инъекция — злоумышленник напрямую вводит вредоносные инструкции в запрос.
Косвенная инъекция — вредоносные инструкции внедряются через внешние источники данных (веб-страницы, документы, электронные письма), которые агент обрабатывает.
Цепочка инъекций — злоумышленник использует несколько последовательных запросов для постепенного снятия ограничений агента.
Мультимодальная инъекция — вредоносные инструкции скрыты в изображениях, аудио или других форматах, обрабатываемых агентом.

Как защититься

Чётко разделяйте пользовательский ввод и системные инструкции с помощью специальных маркеров и фильтров.
Используйте принцип наименьших привилегий — агент не должен иметь доступ к действиям, которые могут быть использованы во вред.
Внедрите механизмы проверки и валидации всех входящих данных перед их обработкой агентом.
Регулярно обновляйте модели и используйте защитные промпты, устойчивые к инъекциям.
Ограничьте возможность агента выполнять действия на основе непроверенного внешнего контента.

← Вернуться к списку рисков