令牌、分组与计费

先区分两个 Token

本文说的「令牌」是 API Key，是一把调用钥匙；你在模型计费里看到的 token 是大模型处理文本的最小单位。两者不是同一个概念。

API 令牌是什么

API 令牌用于鉴权。客户端或代码调用蛋蛋时，需要把令牌放在请求头：

http

Authorization: Bearer sk-your-api-key

Gemini 原生接口也可以使用：

http

x-goog-api-key: sk-your-api-key

令牌必须原样复制。不要添加任何协议后缀；后缀不会切换分组，只会导致鉴权失败。

建议按用途拆分令牌：

用途	令牌名称示例
个人聊天客户端	`chatbox-home`
IDE 插件	`cursor-work`
Claude Code	`claude-code-main`
Gemini CLI	`gemini-cli-main`
服务端生产环境	`server-prod`
临时测试	`test-2026-06`

分组是什么

分组决定令牌可用的模型、平台、价格、限速和策略。一个账号可以有多个分组，例如 OpenAI 分组、Claude 分组、Gemini 分组、Antigravity 分组、默认分组、企业分组。

调用失败时重点检查：

当前令牌属于哪个分组。
该分组是否开放目标模型。
该分组是否支持目标接口，例如向量、图片、Messages、Gemini v1beta。
该分组是否设置了限速或限额。
该分组是否还有余额或套餐额度。

token 计费是什么

大模型把文本拆成 token 处理。一般会区分：

类型	含义
prompt tokens	输入内容消耗，包括系统提示、历史消息、用户输入、工具定义
completion tokens	模型生成内容消耗
total tokens	输入和输出合计

不同模型价格不同，最终费用以控制台计费记录为准。

控制成本建议

不把完整聊天历史无限拼接。
对长文件先摘要或检索，再发送相关片段。
开发测试时用低成本模型。
为自动化任务设置令牌额度上限。
对失败重试设置最大次数。
为不同客户端拆分 Key，便于定位异常消耗。

为什么余额足够仍然报错

可能原因：

令牌本身设置了限额。
令牌分组没有该模型权限。
令牌分组平台和请求协议不匹配。
模型临时不可用。
并发过高触发速率限制。
客户端使用的是旧 API Key。
API Key 被手动加了后缀，导致后端无法匹配。