Automix-Router

Der Automix-Router optimiert auf Kosten, indem er jede Abfrage mit einem gunstigen Modell startet und nur dann zu einem Premium-Modell eskaliert, wenn der Konfidenz-Score der initialen Antwort unter einem Schwellenwert liegt.

Funktionsweise

Initiale Abfrage -- die Abfrage an das gunstige Modell senden
Konfidenzprufung -- den Konfidenz-Score der Antwort bewerten
Bei Bedarf eskalieren -- wenn die Konfidenz unter dem Schwellenwert liegt, mit dem Premium-Modell erneut abfragen
Ruckgabe -- die erste konfidente Antwort zuruckgeben

Konfidenzbewertung

Die Konfidenz wird bewertet basierend auf:

Selbst berichtete Konfidenz in der Antwort
Vorhandensein von vorsichtiger Sprache ("Ich bin nicht sicher", "konnte sein")
Token-Level-Entropie der Antwort
Erfolgsrate von Werkzeugaufrufen

Konfiguration

toml

[router]
strategy = "automix"

[router.automix]
enabled = true
confidence_threshold = 0.7
cheap_model = "anthropic/claude-haiku"
premium_model = "anthropic/claude-opus-4-6"
max_escalations = 1

Kosteneinsparungen

Bei typischer Nutzung leitet Automix 60-80% der Abfragen an das gunstige Modell weiter, was erhebliche Kosteneinsparungen erzielt und gleichzeitig die Qualitat fur komplexe Abfragen beibehalt.

Automix-Router ​

Funktionsweise ​

Konfidenzbewertung ​

Konfiguration ​

Kosteneinsparungen ​

Verwandte Seiten ​

Automix-Router

Funktionsweise

Konfidenzbewertung

Konfiguration

Kosteneinsparungen

Verwandte Seiten