このページは AI の支援により作成・翻訳されました。誤りがあれば、改善にご協力ください。 GitHub で編集

脅威モデル

このページでは、PRX の脅威モデル -- 想定する脅威、セキュリティの前提、および実施されている緩和策について文書化しています。

脅威カテゴリ

1. プロンプトインジェクション

脅威: ユーザー入力や取得データ内の敵対的コンテンツが、エージェントを操作して意図しないアクションを実行させます。

緩和策:

ツール呼び出し承認ワークフロー
ポリシーエンジンが利用可能なアクションを制限
既知のインジェクションパターンに対する入力サニタイゼーション

2. ツールの悪用

脅威: エージェントが意図しない方法でツールを使用します（例: 機密ファイルの読み取り、不正なネットワークリクエストの実行）。

緩和策:

ツール実行のサンドボックス分離
デフォルト拒否ルールによるポリシーエンジン
ツールごとのレート制限
すべてのツール呼び出しの監査ログ

3. データ流出

脅威: ローカルシステムの機密データが LLM コンテキストやツール呼び出しを通じて外部サービスに送信されます。

緩和策:

サンドボックスでのネットワーク許可リスト
機密パターン（API キー、パスワード）のコンテンツフィルタリング
データフローを制限するポリシールール

4. サプライチェーン

脅威: 悪意のあるプラグインや依存関係がエージェントを侵害します。

緩和策:

プラグインの WASM サンドボックス
プラグインの権限マニフェスト
依存関係の監査（cargo audit）

セキュリティの前提

ホストオペレーティングシステムは信頼できる
LLM プロバイダーは API キーを安全に処理する
承認が必要な場合、ユーザーはエージェントのアクションを確認する責任がある

脆弱性の報告

セキュリティ脆弱性を発見した場合は、[email protected] に報告してください。

関連ページ