موجّه Automix
يُحسّن موجّه Automix التكلفة من خلال بدء كل استعلام بنموذج منخفض التكلفة، ثم التصعيد إلى نموذج مميز فقط عندما تكون ثقة الاستجابة الأولية أقل من حد معيّن.
كيف يعمل
- الاستعلام الأولي -- إرسال الاستعلام إلى النموذج الرخيص
- فحص الثقة -- تقييم درجة الثقة في الاستجابة
- التصعيد عند الحاجة -- إذا كانت الثقة أقل من الحد، يُعاد الاستعلام باستخدام نموذج مميز
- الإرجاع -- إرجاع أول استجابة موثوقة
تقييم الثقة
تُقيَّم الثقة بناءً على:
- الثقة المبلّغ عنها ذاتيًا في الاستجابة
- وجود عبارات تردّد ("I'm not sure", "might be")
- إنتروبيا الاستجابة على مستوى الرمز
- معدل نجاح استدعاءات الأدوات
الإعداد
toml
[router]
strategy = "automix"
[router.automix]
enabled = true
confidence_threshold = 0.7
cheap_model = "anthropic/claude-haiku"
premium_model = "anthropic/claude-opus-4-6"
max_escalations = 1توفير التكلفة
في الاستخدام النموذجي، يوجّه Automix نسبة 60-80% من الاستعلامات إلى النموذج الرخيص، ما يحقق وفورات تكلفة كبيرة مع الحفاظ على الجودة للاستعلامات المعقّدة.