Routing | JoyToken | Documentation

JoyToken routing happens inside api-gateway. The gateway validates the API key and policy, converts the OpenAI-compatible request into router-service Route input, then uses the returned selected_model for wallet freeze, provider invocation, usage calculation, and billing records.

POST /openai/v1/chat/completions
  -> ValidateApiKey
  -> build policy
  -> Route
  -> wallet freeze
  -> provider invoke
  -> usage / billing

Routing Input

Chat requests are converted into router input:

Input	Source
`request_id`	The current implementation uses an internal `req-<timestamp>` for router input; external `X-Request-ID` is mainly for gateway logs, billing, and provider correlation
`session_id`	Request `user`; otherwise a hash-like value from the latest user message
`user_id`	API key owner ID
`system_prompt`	The first `system` message
`messages`	OpenAI messages converted to role/content pairs
`latest_prompt`	Latest user message, or the last message when no user message exists
`client_ip`	`X-Forwarded-For`, `X-Real-IP`, or remote address
`tools`	Request `tools`, summarized for model selection
`policy`	Gateway-built policy constraint
`options.execute`	Currently `false`; router decides, gateway invokes provider

Model Selection

Request model	Behavior
omitted	Uses gateway default model; without a default it behaves like `auto`
`auto`	router-service chooses a model within policy
concrete model ID / key	Gateway sets `fixed_model` in route policy and still asks router to resolve and validate
API key fixed model	Concrete requests for another model are rejected before routing

Auto routing request

1 {
2   "model": "auto",
3   "tier": "standard",
4   "messages": [
5     { "role": "user", "content": "Summarize this support ticket." }
6   ]
7 }

Tier Resolution

Final allowed tiers come from:

API key policy snapshot.
API key tier.
Request body tier.
Wallet balance filtering when wallet quota is enabled.

If the request body contains an invalid tier, the gateway returns 403 policy_rejected. If the requested tier is outside the policy, the request is also rejected.

Policy Sent to Router

The gateway assembles policy from policy_snapshot_json and API key fields:

Constraint	Source
`routing_strategy`	Policy snapshot; supports `BALANCE`, `COST_FIRST`, `QUALITY_FIRST`, `SPEED_FIRST`
`allowed_tiers`	Intersection of policy tiers, API key tier, and request tier
`model_blacklist`	Policy snapshot
`fixed_model`	API key `fixed_model` or concrete request model
`tag`	Policy scenario tag, lowercased
`industry_packs`	Policy industry scenario packs
`required_feature_tags`	Derived from request content; image input adds `vision`
`quota_remaining`	API key `limit_daily`, used as routing input

Wallet-Aware Fallback

If the request uses model: "auto" and the selected tier fails wallet freeze due to insufficient balance, the gateway can retry routing to another allowed tier.

Current tier	Fallback order
`premium`	`standard` -> `economy`
`standard`	`premium` -> `economy`
`economy`	`standard` -> `premium`

This fallback only happens for model: "auto". Fixed model requests fail with 402 insufficient_quota when freeze fails.

Provider Request Body

Before calling provider-adapter, the gateway normalizes the provider body:

Change	Reason
Removes top-level `tier`	Upstream providers do not understand JoyToken tier
Sets selected `model`	Provider receives the selected model
Merges `metadata`	Adds routing metadata for observability
For streaming, sets `stream_options.include_usage = true`	Allows usage extraction from SSE when the provider supports it

Response Metadata

Non-streaming responses merge routing metadata into the JSON body. Streaming responses append a metadata event before [DONE].

Common fields:

Field	Meaning
`model`	Selected model
`tier`	Selected billing/routing tier
`score`	Router score
`task_score`	Router task scoring details when available
`model_recommendation`	Candidate models when router returns them
`latency.routing_ms`	Router latency
`latency.first_token_ms`	First-token latency for streaming
`latency.stream_ms`	Total stream transfer time
`billing`	Credits and token fields when calculated

Stream metadata event

1 {
2   "metadata": {
3     "model": "GLM-5",
4     "tier": "standard",
5     "score": 7.57,
6     "latency": {
7       "routing_ms": 6,
8       "first_token_ms": 875,
9       "stream_ms": 9878
10     },
11     "billing": {
12       "credits_used": "0.2288",
13       "input_tokens": 54,
14       "output_tokens": 545
15     }
16   }
17 }

Response Headers

Header	Meaning
`X-DAOE-Used-Model`	Model used by provider
`X-DAOE-Used-Provider`	Provider returned by provider-adapter
`X-DAOE-Failover`	`1` when streaming provider failover happened

Troubleshooting

Symptom	Check
`routing_error`	Router returned no `selected_model` or rejected candidates
`requested tier is not allowed`	API key policy and request `tier`
`requested model is not allowed`	API key fixed model
`client ip is not allowed`	Policy snapshot IP allowlist
`wallet balance is insufficient`	Wallet balance, budget, and freeze amount for the selected tier