Modelo de amenazas

Esta pagina documenta el modelo de amenazas de PRX -- el conjunto de amenazas que consideramos, nuestras suposiciones de seguridad y las mitigaciones implementadas.

Categorias de amenazas

1. Inyeccion de prompts

Amenaza: Contenido adversarial en la entrada del usuario o datos recuperados manipula al agente para realizar acciones no deseadas.

Mitigaciones:

Flujo de aprobacion de llamadas a herramientas
El motor de politicas restringe las acciones disponibles
Sanitizacion de entrada para patrones de inyeccion conocidos

2. Abuso de herramientas

Amenaza: El agente usa herramientas de formas no previstas (ej., leer archivos sensibles, realizar solicitudes de red no autorizadas).

Mitigaciones:

Aislamiento sandbox para ejecucion de herramientas
Motor de politicas con reglas de denegar-por-defecto
Limitacion de tasa por herramienta
Registro de auditoria de todas las llamadas a herramientas

3. Exfiltracion de datos

Amenaza: Datos sensibles del sistema local se envian a servicios externos via contexto LLM o llamadas a herramientas.

Mitigaciones:

Lista blanca de red en sandbox
Filtrado de contenido para patrones sensibles (claves API, contrasenas)
Reglas de politica que restringen el flujo de datos

4. Cadena de suministro

Amenaza: Plugins maliciosos o dependencias comprometen al agente.

Mitigaciones:

Sandbox WASM para plugins
Manifiestos de permisos de plugins
Auditoria de dependencias (cargo audit)

Suposiciones de seguridad

El sistema operativo del host es de confianza
Los proveedores LLM gestionan las claves API de forma segura
El usuario es responsable de revisar las acciones del agente cuando se requiere aprobacion

Reportar vulnerabilidades

Si descubres una vulnerabilidad de seguridad, por favor reportala a [email protected].

Modelo de amenazas ​

Categorias de amenazas ​

1. Inyeccion de prompts ​

2. Abuso de herramientas ​

3. Exfiltracion de datos ​

4. Cadena de suministro ​

Suposiciones de seguridad ​

Reportar vulnerabilidades ​

Paginas relacionadas ​

Modelo de amenazas

Categorias de amenazas

1. Inyeccion de prompts

2. Abuso de herramientas

3. Exfiltracion de datos

4. Cadena de suministro

Suposiciones de seguridad

Reportar vulnerabilidades

Paginas relacionadas