Skip to content
Esta página fue generada y traducida con asistencia de IA. Si encuentra alguna imprecisión, no dude en ayudar a mejorarla. Editar en GitHub

Modelo de amenazas

Esta pagina documenta el modelo de amenazas de PRX -- el conjunto de amenazas que consideramos, nuestras suposiciones de seguridad y las mitigaciones implementadas.

Categorias de amenazas

1. Inyeccion de prompts

Amenaza: Contenido adversarial en la entrada del usuario o datos recuperados manipula al agente para realizar acciones no deseadas.

Mitigaciones:

  • Flujo de aprobacion de llamadas a herramientas
  • El motor de politicas restringe las acciones disponibles
  • Sanitizacion de entrada para patrones de inyeccion conocidos

2. Abuso de herramientas

Amenaza: El agente usa herramientas de formas no previstas (ej., leer archivos sensibles, realizar solicitudes de red no autorizadas).

Mitigaciones:

  • Aislamiento sandbox para ejecucion de herramientas
  • Motor de politicas con reglas de denegar-por-defecto
  • Limitacion de tasa por herramienta
  • Registro de auditoria de todas las llamadas a herramientas

3. Exfiltracion de datos

Amenaza: Datos sensibles del sistema local se envian a servicios externos via contexto LLM o llamadas a herramientas.

Mitigaciones:

  • Lista blanca de red en sandbox
  • Filtrado de contenido para patrones sensibles (claves API, contrasenas)
  • Reglas de politica que restringen el flujo de datos

4. Cadena de suministro

Amenaza: Plugins maliciosos o dependencias comprometen al agente.

Mitigaciones:

  • Sandbox WASM para plugins
  • Manifiestos de permisos de plugins
  • Auditoria de dependencias (cargo audit)

Suposiciones de seguridad

  • El sistema operativo del host es de confianza
  • Los proveedores LLM gestionan las claves API de forma segura
  • El usuario es responsable de revisar las acciones del agente cuando se requiere aprobacion

Reportar vulnerabilidades

Si descubres una vulnerabilidad de seguridad, por favor reportala a [email protected].

Paginas relacionadas

Released under the Apache-2.0 License.