Routing
Routing 在控制台里可视化配置。你可以把一条路由搭成 fallback chain:每一层可以是单个 backend、负载均衡池、条件分支,或另一个 model group。
Routing 控制什么
Fallback 顺序
当 Provider 失败、超时或达到阈值时,决定 One AI Gateway 依次尝试哪些后端。
Load Balancing
把流量分配到多个兼容 backend,用于消耗 plan 容量或分散 Provider 压力。
Conditional Branching
按用户等级、工作负载类型、模型需求或产品 metadata 走不同路径。
Safety Triggers
根据错误、plan quota、预算或实时并发切换到下一层。
常见路由模式
Plan First
把 Coding Plan backend 放在第一层。再添加一个按量计费 backend 作为下一层,避免 plan quota 接近耗尽时影响用户。
Provider Resilience
先使用主 Provider,再添加备用 Provider,应对限流、服务不可用或超时。
Cost Control
把常规工作负载路由到低成本池,把高能力模型留给高价值或复杂任务。
Customer Tiering
用条件分支让付费用户使用更强模型,让免费用户使用高效默认模型。
发布前检查
保存路由后,打开 model group detail 页面。确认 fallback 标记、quota meter、费用、错误率和延迟都符合预期。