Skip to content
Diese Seite wurde mit KI-Unterstützung erstellt und übersetzt. Falls Ihnen Ungenauigkeiten auffallen, helfen Sie gerne bei der Verbesserung. Auf GitHub bearbeiten

Bedrohungsmodell

Diese Seite dokumentiert das PRX-Bedrohungsmodell -- die Menge der berucksichtigten Bedrohungen, unsere Sicherheitsannahmen und die vorhandenen Gegenmassnahmen.

Bedrohungskategorien

1. Prompt-Injection

Bedrohung: Feindliche Inhalte in Benutzereingaben oder abgerufenen Daten manipulieren den Agenten dazu, unbeabsichtigte Aktionen auszufuhren.

Gegenmassnahmen:

  • Werkzeugaufruf-Genehmigungs-Workflow
  • Richtlinien-Engine beschrankt verfugbare Aktionen
  • Eingabebereinigung fur bekannte Injektionsmuster

2. Werkzeugmissbrauch

Bedrohung: Der Agent verwendet Werkzeuge auf unbeabsichtigte Weise (z.B. Lesen sensibler Dateien, unautorisierte Netzwerkanfragen).

Gegenmassnahmen:

  • Sandbox-Isolation fur Werkzeugausfuhrung
  • Richtlinien-Engine mit standardmassigem Verweigern
  • Pro-Werkzeug-Ratenlimitierung
  • Audit-Protokollierung aller Werkzeugaufrufe

3. Datenexfiltration

Bedrohung: Sensible Daten aus dem lokalen System werden uber LLM-Kontext oder Werkzeugaufrufe an externe Dienste gesendet.

Gegenmassnahmen:

  • Netzwerk-Allowlisting in der Sandbox
  • Inhaltsfilterung fur sensible Muster (API-Schlussel, Passworter)
  • Richtlinienregeln zur Beschrankung des Datenflusses

4. Lieferkette

Bedrohung: Bosartige Plugins oder Abhangigkeiten kompromittieren den Agenten.

Gegenmassnahmen:

  • WASM-Sandbox fur Plugins
  • Plugin-Berechtigungsmanifeste
  • Abhangigkeitsprufung (cargo audit)

Sicherheitsannahmen

  • Das Host-Betriebssystem ist vertrauenswurdig
  • LLM-Anbieter gehen sicher mit API-Schlusseln um
  • Der Benutzer ist verantwortlich fur die Uberprufung von Agentenaktionen, wenn eine Genehmigung erforderlich ist

Schwachstellen melden

Wenn Sie eine Sicherheitslucke entdecken, melden Sie diese bitte an [email protected].

Verwandte Seiten

Released under the Apache-2.0 License.