token 与上下文窗口科普 —— 看懂调用花费

什么是 token

模型并不是按「字」或「词」处理文本，而是按 token 处理。token 是文本被切分后的最小单位，一个汉字可能是一个或多个 token，一个英文单词也可能被切成几段。计费正是按 token 数来算的。

一次调用的花费由两部分组成：你发出的提示词（输入 token）与模型生成的回复（输出 token）。多数模型的输出单价高于输入单价，所以让回复更简洁，既省钱又更快。

上下文窗口是模型一次能「看到」的 token 总量上限，包含你的输入和它的输出。把长文档、长对话历史一股脑塞进去，一旦超过窗口就会被截断，模型就读不到被截掉的部分。

几个务实做法：只保留与当前问题相关的对话历史，长文档先做摘要再喂，提示词写得明确精炼，限制最大输出长度。这些都能直接降低每次调用的花费。

每次调用后，控制台用量页会记录这次实际消耗的输入与输出 token，以及对应金额。所有数字都来自真实计量，可逐条核对，帮你把成本控制建立在真实数据上。