启发式路由
启发式路由使用基于规则的评分系统为每个查询选择最优模型。它分析查询特征(长度、复杂度、工具需求)并与模型能力配置文件进行匹配。
工作原理
- 特征提取 -- 分析查询的长度、关键词模式和工具需求
- 能力评分 -- 根据提取的特征对每个模型的适用性进行评分
- 成本加权 -- 应用成本偏好,简单查询优先使用便宜模型
- 选择 -- 选择满足最低质量阈值的最高评分模型
评分因素
| 因素 | 权重 | 描述 |
|---|---|---|
| 能力匹配 | 0.4 | 模型处理查询类型的能力 |
| Elo 排名 | 0.2 | 历史模型性能 |
| 成本效率 | 0.2 | 每美元 token 数 |
| 延迟 | 0.1 | 平均响应时间 |
| 上下文窗口 | 0.1 | 适合对话上下文 |
配置
toml
[router]
strategy = "heuristic"
[router.heuristic]
complexity_threshold = 0.6
prefer_cheap_below = 0.4
elo_weight = 0.2
cost_weight = 0.2