Chat Completions V2

接口：

text

POST /v2/chat/completions

/v2/chat/completions 与 /v1/chat/completions 完全兼容：请求/响应字段、SDK 调用方式、鉴权与限流都一致。区别在于客户端可见的 SSE 流更严格地遵循客户端传入的 stream_options。

何时使用 V2

你的客户端希望 SSE 流严格遵循客户端传入的 stream_options.include_usage。
在 V1 流式下遇到 usage 行为与 OpenAI 官方 SDK 预期不一致，希望使用更贴近官方的流式 profile。
非流式请求与 /v1/chat/completions 完全一致。

注意：流式请求下 V1 与 V2 的 usage 行为不同——V1 总会输出 usage，V2 仅在 stream_options.include_usage=true 时输出。从 V1 切到 V2 时请显式设置该字段，否则将丢失 usage。

请求字段

字段与 Chat Completions 完全相同。流式相关字段：

字段	类型	必填	说明
`stream`	boolean	否	`true` 时返回 SSE
`stream_options.include_usage`	boolean	否	V2 严格遵循：仅 `true` 时才在流中输出 usage

响应

非流式响应与 /v1/chat/completions 一致。流式返回 chat.completion.chunk SSE，末帧为：

text

data: [DONE]

鉴权与限流

V2 与 V1 共用同一套 API Key 鉴权（Authorization: Bearer <key>）、RPM/TPM 限额和模型策略，无需单独开通。

示例

bash

curl -N https://llm.xiaoyue9527.xyz/v2/chat/completions \
  -H 'Content-Type: application/json' \
  -H 'Authorization: Bearer sk-gtw-REPLACE_ME' \
  --data-raw '{
    "model": "qwen3.6-plus",
    "messages": [{"role": "user", "content": "解释什么是 RESTful API"}],
    "max_tokens": 2048,
    "stream": true,
    "stream_options": {"include_usage": true}
  }'

Chat Completions V2 ​

何时使用 V2 ​

请求字段 ​

响应 ​

鉴权与限流 ​

示例 ​

Chat Completions V2

何时使用 V2

请求字段

响应

鉴权与限流

示例