L2: プロンプト進化
レイヤー 2 は中頻度で動作し、エージェントのシステムプロンプトを改良します。会話品質メトリクスを分析してプロンプトの変更を提案し、恒久的な採用前に A/B フレームワークを通じてテストします。
概要
L2 進化は以下に対処します:
- システムプロンプトの改良 -- 指示の明確さとタスクカバレッジの向上
- ペルソナチューニング -- トーン、冗長性、コミュニケーションスタイルの調整
- ツール使用指示 -- LLM へのツール説明方法の最適化
- A/B テスト -- ロールアウト前にプロンプト変更を統計的に検証
A/B テストフレームワーク
プロンプト変更が提案されると、L2 は設定可能な評価期間中にオリジナルと変更版の両方のプロンプトを並行で実行します:
- トラフィック分割 -- オリジナルと候補プロンプトを交互に使用
- メトリクス収集 -- タスク完了率、ユーザー満足度、ツール使用効率を追跡
- 統計テスト -- 勝者を決定するために有意差検定を適用
- 昇格またはロールバック -- 勝者を採用するか、オリジナルを維持
設定
toml
[self_evolution.l2]
enabled = false
schedule = "weekly"
min_samples = 50
confidence_level = 0.95
max_concurrent_experiments = 2