Модель угроз
На этой странице документирована модель угроз PRX -- набор рассматриваемых угроз, допущения безопасности и принятые меры противодействия.
Категории угроз
1. Инъекция промптов
Угроза: Враждебный контент во входных данных пользователя или извлечённых данных манипулирует агентом для выполнения непредусмотренных действий.
Меры противодействия:
- Процесс одобрения вызовов инструментов
- Движок политик ограничивает доступные действия
- Санитизация входных данных для известных паттернов инъекций
2. Злоупотребление инструментами
Угроза: Агент использует инструменты непредусмотренным образом (напр., чтение конфиденциальных файлов, выполнение несанкционированных сетевых запросов).
Меры противодействия:
- Изоляция выполнения инструментов в песочнице
- Движок политик с правилами запрета по умолчанию
- Ограничение частоты на инструмент
- Аудиторское журналирование всех вызовов инструментов
3. Эксфильтрация данных
Угроза: Конфиденциальные данные локальной системы отправляются на внешние сервисы через контекст LLM или вызовы инструментов.
Меры противодействия:
- Белый список сетей в песочнице
- Фильтрация контента для конфиденциальных паттернов (API-ключи, пароли)
- Правила политик, ограничивающие потоки данных
4. Цепочка поставок
Угроза: Вредоносные плагины или зависимости компрометируют агента.
Меры противодействия:
- WASM-песочница для плагинов
- Манифесты разрешений плагинов
- Аудит зависимостей (cargo audit)
Допущения безопасности
- Операционная система хоста является доверенной
- LLM-провайдеры обрабатывают API-ключи безопасно
- Пользователь несёт ответственность за проверку действий агента, когда требуется одобрение
Сообщение об уязвимостях
Если вы обнаружили уязвимость безопасности, сообщите о ней на [email protected].