policy_ir
單次模型呼叫的路由語言:六元素 sigma-pol/v2 項(term)。
單次模型呼叫的路由語言。策略(policy)是一個六元素 JSON 陣列:標籤加上五個操作槽位:filter、rank、select、mutate、fallback。您編寫 filter、rank 與 select;mutate 和 fallback 有穩定的預設值。
[
"policy",
["and", ["meets_req"], // filter
["not", ["is", "disabled"]],
["has_cap", "supports_tools"],
["cmp", "bench_intelligence", "ge", 0.5]],
["neg", ["normalize", ["field", "price_out"]]], // rank: cheapest first
["argmax"], // select: top survivor
["id"], // mutate: pass through
["always", { "action": "next_candidate" }] // fallback: next survivor
]
五個槽位
filter/rank/select 沒有外層包裹關鍵字。標籤加五個槽位,完全由陣列位置決定。(sigma-pol/v2 移除了舊版的 evidence 槽位;該槽位從未影響過任何決策。)
1 · "policy"
標籤。標記語法版本
sigma-pol/v2。2 · filter Pred
入口門控:決定哪些候選模型具備參與資格。由純謂詞(predicate)構成。未通過的模型直接排除,不會被靜默降級。策略只能收窄託管方的底線,不能放寬。
3 · rank Scorer
對通過篩選的候選模型評分排序。純評分器對通過底線的模型排序:用
["neg", ["normalize", ["field", "price_out"]]] 實現成本優先(最低價在前),亦可依 intelligence、延遲或任意加權組合排序。4 · select Selector
從排序清單中取出得分最高的候選模型。
argmax 選取得分最高的存活者;僅當評分器依價格排序時,選中的才是成本較低的模型。5 · mutate Xform
id 為恆等轉換:提示詞與參數原樣傳遞;路由只替換模型,不修改您的呼叫內容。6 · fallback FailPlan
基於封閉動作詞彙表的宣告式表格,而非使用者程式碼。任何失敗時移至下一候選模型;每次跳轉均寫入追蹤紀錄。