레퍼런스 · 형식

policy_ir

단일 모델 호출을 위한 라우팅 언어: 6요소 sigma-pol/v2 항(term).

단일 모델 호출을 위한 라우팅 언어입니다. 정책(policy)은 태그와 다섯 개의 연산 슬롯으로 구성된 6요소 JSON 배열입니다: filter, rank, select, mutate, fallback. filter, rank, select는 직접 작성하며, mutate와 fallback은 안정적인 기본값이 있습니다.

policy.support.json

[
  "policy",
  ["and", ["meets_req"],                                 // filter
         ["not", ["is", "disabled"]],
         ["has_cap", "supports_tools"],
         ["cmp", "bench_intelligence", "ge", 0.5]],
  ["neg", ["normalize", ["field", "price_out"]]],     // rank: cheapest first
  ["argmax"],                                            // select: top survivor
  ["id"],                                                // mutate: pass through
  ["always", { "action": "next_candidate" }]            // fallback: next survivor
]

다섯 개의 슬롯

filter/rank/select를 감싸는 래퍼 키워드는 없습니다. 태그와 다섯 개의 슬롯은 순전히 배열 위치로 구분됩니다. (sigma-pol/v2는 기존의 evidence 슬롯을 제거했습니다; 어떤 결정에도 영향을 준 적이 없었기 때문입니다.)

1 · "policy"

태그입니다. 문법 버전 sigma-pol/v2로 표시됩니다.

2 · filter Pred

게이트: 어떤 후보 모델이 적격인지 결정합니다. 순수한 술어(predicate)로 구성됩니다. 통과하지 못한 모델은 제외되며, 조용히 강등되지 않습니다. 정책은 호스트의 최소 기준을 좁힐 수만 있고, 넓힐 수는 없습니다.

3 · rank Scorer

생존자에게 점수를 매깁니다. 순수한 scorer가 기준을 통과한 모델을 정렬합니다: ["neg", ["normalize", ["field", "price_out"]]]로 가장 저렴한 순, 혹은 intelligence, 지연 시간, 또는 가중 혼합으로 정렬할 수 있습니다.

4 · select Selector

순위 목록의 최상위 항목 하나를 선택합니다. argmax는 가장 높은 점수의 생존자를 선택하며, scorer가 가격을 기준으로 정렬할 때만 가장 저렴한 모델이 선택됩니다.

5 · mutate Xform

id는 항등 변환입니다: 프롬프트와 파라미터가 그대로 통과되며, 라우팅은 모델만 교체하고 호출 내용은 변경하지 않습니다.

6 · fallback FailPlan

닫힌 액션 어휘 위의 선언적 테이블로, 사용자 코드가 아닙니다. 실패 시 다음 후보로 이동하며, 모든 이동은 트레이스에 기록됩니다.

← 문서로 돌아가기