Prompt-инъекция
Prompt-инъекция — это тип атаки, при котором злоумышленник внедряет вредоносные инструкции в запрос, заставляя ИИ-агента выполнить нежелательные или опасные действия. Это одна из наиболее распространённых и опасных уязвимостей современных ИИ-систем.
Как работает атака
ИИ-агенты обрабатывают пользовательский ввод и системные инструкции в едином контексте. Злоумышленник может сконструировать запрос таким образом, чтобы его вредоносная часть была воспринята агентом как приоритетная инструкция, переопределяющая исходные ограничения и правила безопасности.
Типы prompt-инъекций
- Прямая инъекция — злоумышленник напрямую вводит вредоносные инструкции в запрос.
- Косвенная инъекция — вредоносные инструкции внедряются через внешние источники данных (веб-страницы, документы, электронные письма), которые агент обрабатывает.
- Цепочка инъекций — злоумышленник использует несколько последовательных запросов для постепенного снятия ограничений агента.
- Мультимодальная инъекция — вредоносные инструкции скрыты в изображениях, аудио или других форматах, обрабатываемых агентом.
Как защититься
- Чётко разделяйте пользовательский ввод и системные инструкции с помощью специальных маркеров и фильтров.
- Используйте принцип наименьших привилегий — агент не должен иметь доступ к действиям, которые могут быть использованы во вред.
- Внедрите механизмы проверки и валидации всех входящих данных перед их обработкой агентом.
- Регулярно обновляйте модели и используйте защитные промпты, устойчивые к инъекциям.
- Ограничьте возможность агента выполнять действия на основе непроверенного внешнего контента.