脅威モデル
このページでは、PRX の脅威モデル -- 想定する脅威、セキュリティの前提、および実施されている緩和策について文書化しています。
脅威カテゴリ
1. プロンプトインジェクション
脅威: ユーザー入力や取得データ内の敵対的コンテンツが、エージェントを操作して意図しないアクションを実行させます。
緩和策:
- ツール呼び出し承認ワークフロー
- ポリシーエンジンが利用可能なアクションを制限
- 既知のインジェクションパターンに対する入力サニタイゼーション
2. ツールの悪用
脅威: エージェントが意図しない方法でツールを使用します(例: 機密ファイルの読み取り、不正なネットワークリクエストの実行)。
緩和策:
- ツール実行のサンドボックス分離
- デフォルト拒否ルールによるポリシーエンジン
- ツールごとのレート制限
- すべてのツール呼び出しの監査ログ
3. データ流出
脅威: ローカルシステムの機密データが LLM コンテキストやツール呼び出しを通じて外部サービスに送信されます。
緩和策:
- サンドボックスでのネットワーク許可リスト
- 機密パターン(API キー、パスワード)のコンテンツフィルタリング
- データフローを制限するポリシールール
4. サプライチェーン
脅威: 悪意のあるプラグインや依存関係がエージェントを侵害します。
緩和策:
- プラグインの WASM サンドボックス
- プラグインの権限マニフェスト
- 依存関係の監査(cargo audit)
セキュリティの前提
- ホストオペレーティングシステムは信頼できる
- LLM プロバイダーは API キーを安全に処理する
- 承認が必要な場合、ユーザーはエージェントのアクションを確認する責任がある
脆弱性の報告
セキュリティ脆弱性を発見した場合は、[email protected] に報告してください。