跳到主内容
返回资讯
模型科普

token 与上下文窗口,到底是什么

发布于 2026-05-27 00:35 阅读 19

搞懂 token 怎么数、上下文窗口为何有上限,你才能把每一分调用花得明明白白。

什么是 token

模型并不是按「字」或「词」处理文本,而是按 token 处理。token 是文本被切分后的最小单位,一个汉字可能是一个或多个 token,一个英文单词也可能被切成几段。计费正是按 token 数来算的。

输入与输出分别计费

一次调用的花费由两部分组成:你发出的提示词(输入 token)与模型生成的回复(输出 token)。多数模型的输出单价高于输入单价,所以让回复更简洁,既省钱又更快。

上下文窗口是什么

上下文窗口是模型一次能「看到」的 token 总量上限,包含你的输入和它的输出。把长文档、长对话历史一股脑塞进去,一旦超过窗口就会被截断,模型就读不到被截掉的部分。

怎么省 token

几个务实做法:只保留与当前问题相关的对话历史,长文档先做摘要再喂,提示词写得明确精炼,限制最大输出长度。这些都能直接降低每次调用的花费。

在平台里看真实消耗

每次调用后,控制台用量页会记录这次实际消耗的输入与输出 token,以及对应金额。所有数字都来自真实计量,可逐条核对,帮你把成本控制建立在真实数据上。