Skip to content
このページは AI の支援により作成・翻訳されました。誤りがあれば、改善にご協力ください。 GitHub で編集

Automix ルーター

Automix ルーターは、すべてのクエリを安価なモデルから開始し、初期レスポンスの信頼度がしきい値を下回る場合にのみプレミアムモデルにエスカレーションすることで、コストを最適化します。

仕組み

  1. 初期クエリ -- 安価なモデルにクエリを送信
  2. 信頼度チェック -- レスポンスの信頼度スコアを評価
  3. 必要に応じてエスカレーション -- 信頼度がしきい値を下回る場合、プレミアムモデルで再クエリ
  4. 返却 -- 最初の信頼性のあるレスポンスを返却

信頼度スコアリング

信頼度は以下に基づいて評価されます:

  • レスポンスの自己申告信頼度
  • ヘッジング表現(「確信がありません」、「かもしれません」など)の有無
  • レスポンスのトークンレベルエントロピー
  • ツール呼び出し成功率

設定

toml
[router]
strategy = "automix"

[router.automix]
enabled = true
confidence_threshold = 0.7
cheap_model = "anthropic/claude-haiku"
premium_model = "anthropic/claude-opus-4-6"
max_escalations = 1

コスト削減

通常の使用では、Automix はクエリの 60〜80% を安価なモデルにルーティングし、複雑なクエリの品質を維持しながら大幅なコスト削減を実現します。

関連ページ

Released under the Apache-2.0 License.