Prompt-инъекция

Prompt-инъекция — это тип атаки, при котором злоумышленник внедряет вредоносные инструкции в запрос, заставляя ИИ-агента выполнить нежелательные или опасные действия. Это одна из наиболее распространённых и опасных уязвимостей современных ИИ-систем.

Как работает атака

ИИ-агенты обрабатывают пользовательский ввод и системные инструкции в едином контексте. Злоумышленник может сконструировать запрос таким образом, чтобы его вредоносная часть была воспринята агентом как приоритетная инструкция, переопределяющая исходные ограничения и правила безопасности.

Типы prompt-инъекций

  • Прямая инъекция — злоумышленник напрямую вводит вредоносные инструкции в запрос.
  • Косвенная инъекция — вредоносные инструкции внедряются через внешние источники данных (веб-страницы, документы, электронные письма), которые агент обрабатывает.
  • Цепочка инъекций — злоумышленник использует несколько последовательных запросов для постепенного снятия ограничений агента.
  • Мультимодальная инъекция — вредоносные инструкции скрыты в изображениях, аудио или других форматах, обрабатываемых агентом.

Как защититься

  • Чётко разделяйте пользовательский ввод и системные инструкции с помощью специальных маркеров и фильтров.
  • Используйте принцип наименьших привилегий — агент не должен иметь доступ к действиям, которые могут быть использованы во вред.
  • Внедрите механизмы проверки и валидации всех входящих данных перед их обработкой агентом.
  • Регулярно обновляйте модели и используйте защитные промпты, устойчивые к инъекциям.
  • Ограничьте возможность агента выполнять действия на основе непроверенного внешнего контента.
← Вернуться к списку рисков