Appearance
Chat Completions V2
接口:
text
POST /v2/chat/completions/v2/chat/completions 与 /v1/chat/completions 完全兼容:请求/响应字段、SDK 调用方式、鉴权与限流都一致。区别在于客户端可见的 SSE 流更严格地遵循客户端传入的 stream_options。
何时使用 V2
- 你的客户端希望 SSE 流严格遵循客户端传入的
stream_options.include_usage。 - 在 V1 流式下遇到 usage 行为与 OpenAI 官方 SDK 预期不一致,希望使用更贴近官方的流式 profile。
- 非流式请求与
/v1/chat/completions完全一致。
注意:流式请求下 V1 与 V2 的 usage 行为不同——V1 总会输出 usage,V2 仅在
stream_options.include_usage=true时输出。从 V1 切到 V2 时请显式设置该字段,否则将丢失 usage。
请求字段
字段与 Chat Completions 完全相同。流式相关字段:
| 字段 | 类型 | 必填 | 说明 |
|---|---|---|---|
stream | boolean | 否 | true 时返回 SSE |
stream_options.include_usage | boolean | 否 | V2 严格遵循:仅 true 时才在流中输出 usage |
响应
非流式响应与 /v1/chat/completions 一致。流式返回 chat.completion.chunk SSE,末帧为:
text
data: [DONE]鉴权与限流
V2 与 V1 共用同一套 API Key 鉴权(Authorization: Bearer <key>)、RPM/TPM 限额和模型策略,无需单独开通。
示例
bash
curl -N https://llm.xiaoyue9527.xyz/v2/chat/completions \
-H 'Content-Type: application/json' \
-H 'Authorization: Bearer sk-gtw-REPLACE_ME' \
--data-raw '{
"model": "qwen3.6-plus",
"messages": [{"role": "user", "content": "解释什么是 RESTful API"}],
"max_tokens": 2048,
"stream": true,
"stream_options": {"include_usage": true}
}'