你给AI发一句“你好”,为什么有时收你2分钱,有时收2毛?
秘密就藏在 Token 这个看似抽象、实则影响你钱包的关键概念里。
如果你用过 ChatGPT、DeepSeek、文心一言等 AI 对话产品,一定见过按 Token 计费的说法。那么,Token 究竟是什么?一条消息到底等于多少个 Token?中英文收费会不一样吗?
今天用一篇文章,把 Token 彻底讲清楚。
一、Token 是什么?
Token 可以理解为 AI 模型处理文本时的最小语义单元。
人类读文章是按“字→词→句”的顺序理解,而 AI 大模型(如 GPT-4、DeepSeek)看文本时,会先把句子切分成一个个 Token,再逐个“思考”。
举个例子:
- 英文
Hello→ 1 个 Token - 英文
Hello world→ 2 个 Token(含空格) - 中文
你好→ 2 个 Token(每个汉字通常 1 Token) - 中文
你好世界→ 4 个 Token
Token 不是字符,也不是单词,而是一种介于两者之间的编码单元。
二、Token 如何计算?一个直观对比
| 文本内容 | 字符数 | Token 数(约) | 说明 |
|---|---|---|---|
A | 1 | 1 | 单个英文字母 |
cat | 3 | 1 | 常用单词整体为 1 Token |
Hello, world! | 13 | 4 | 含空格和标点 |
你 | 1 | 1 | 常用汉字 |
魑魅魍魉 | 4 | 4~8 | 生僻字可能拆成 2 Token/字 |
1234567890 | 10 | 1~3 | 连续数字常被整体识别 |
!@#¥% | 5 | 5 左右 | 特殊符号一般 1 个 1 Token |
关键规律:
- 英文:按单词和空格拆分。一个常见单词 = 1 Token;长单词或罕见拼写会被拆成多个。
- 中文:绝大多数常用汉字 = 1 Token;生僻字、繁体字、表情符号可能占 2~3 Token。
- 混合文本:中英文混合时,AI 按各自规则分别拆分。
三、对话中的 Token:输入 + 输出 = 总消耗
很多人误以为只能输入长度收费。正确答案是:
一次 API 调用的总 Token = 你发给 AI 的消息 Token 数 + AI 回复你的消息 Token 数
举个真实例子:
- 你发送:
“请介绍一下Token”—— 假设 7 个 Token - AI 回复:
“Token是AI处理文本的基本单位……”—— 假设 150 个 Token - 本次对话总计:7 + 150 = 157 Token
如果你使用的是按 Token 计费的 API(如 OpenAI、DeepSeek API),你的账单就是按这个 总 Token 数 乘以单价计算。
如果是免费产品(如网页版 AI 聊天),不直接扣钱,但产品方后台依然在计算 Token,用来控制成本和性能。
四、常见误区澄清
| 误区 | 真相 |
|---|---|
| Token = 汉字个数 | 大致接近,但生僻字、标点、空格、换行都会影响,不能直接画等号 |
| 只有我的输入才算 Token | 输出(AI 的回答)一样算,而且往往输出比输入长得多 |
| 英文比中文省 Token | 不一定。英文“Thank you”=2 Token,中文“谢谢”=2 Token,实际相近。但长英文单词(如 misunderstanding)可能被拆成 3~4 Token |
| AI 内部的“思考过程”也扣 Token | 不扣。只有输入和输出的文本内容计入 Token。模型内部的注意力计算、矩阵运算不会额外收费 |
五、如何准确计算一段文本的 Token?
不要靠猜,用官方工具:
- OpenAI Tokenizer(网页版):粘贴文本,立即显示 Token 数,还能看到具体切分方式。
- DeepSeek API:调用
models/token-count接口获得精确数值。 - Python TikToken 库:程序员可以用 OpenAI 开源的 tiktoken 库,离线计算。
如果你只是普通用户:粗略估算时,中文字数 ≈ Token 数;英文单词数 ≈ Token 数。误差通常在 10%~20% 内,足够日常判断。
六、为什么 AI 要用 Token,而不直接用字符或单词?
这是 效率与泛化能力的平衡:
- 直接用单词:词汇表会巨大(英文有几十万个单词,中文词组更是无穷),模型训练和推理都极慢。
- 直接用字符:一个字母或一个汉字的信息量太少,模型需要处理极长的序列,难以理解全局意思。
- Token 作为中间粒度:既能覆盖绝大多数常见词,又可以把罕见词拆成子词,保证模型见过的“零件”都能表示。
比如unhappiness→un+happiness,既不用背整个单词,也不会只看到 u,n,h,a,p,p,i,n,e,s,s。
主流大模型(GPT、DeepSeek、Llama 等)都使用 Byte-Pair Encoding(BPE)或其变体来训练 Token 词表,这是当前工业界的标准做法。
七、一个有趣的冷知识
- GPT-4 上下文窗口最大支持 128K Token——约等于一本 300 页的小说一次性读完。
- DeepSeek-V2 上下文达到 128K,最新模型甚至支持 1M Token,可以一次性处理《三体》三部曲的体量。
- 中文因为每个字信息密度高,同样 Token 数下能表达的内容远多于英文——这既是优势,也让中英文定价时有不同策略。
八、总结一页纸
| 问题 | 答案 |
|---|---|
| Token 是什么? | AI 处理文本的最小单元,类似“积木块” |
| “你好”几个 Token? | 2 个 |
| 输入和输出都扣 Token 吗? | 都扣,总 Token = 输入 + 输出 |
| 中英文 Token 数一样多吗? | 不一样,常见汉字≈1 Token,英文常见单词≈1 Token |
| 怎么精确计算? | 用官方 Tokenizer 工具 |
| 会影响我付多少钱? | 对 API 用户直接相关;对普通用户,可帮助理解产品成本 |
希望这篇文章帮你彻底弄懂了 Token。下次再看到 AI 产品的计费说明,你就能一眼看穿它背后的“语言积木”逻辑啦。
本文为网站读者原创撰写,欢迎转载,请保留出处。