小龙虾与Token
理解 Token 是理解 AI 成本和效率的关键。养好你的小龙虾,先要搞懂它吃什么。
什么是 Token?
Token 是 AI 模型的"货币单位":
- 1 Token ≈ 0.75 个英文单词 ≈ 1-2 个汉字
- 模型按 Token 计费,不是按字数
- 输入和输出都消耗 Token
为什么用 Token?
不同语言的文字长度不同,用 Token 作为统一单位更公平:
- 英文:
"Hello"→ 1 Token - 中文:
"你好"→ 2 Token(大约)
Token 的两个方向
Input Tokens(输入)
你发送给 AI 的内容:
- 提示词(Prompt)
- 上下文文档
- 历史对话
- RAG 检索到的内容
Output Tokens(输出)
AI 生成的内容:
- 回答文本
- 代码
- 结构化数据(JSON)
tip
输入通常比输出便宜。但输入会被上下文窗口限制,输出通常更短。
计费方式
按使用量计费
| 模型类型 | 输入价格 | 输出价格 |
|---|---|---|
| 国产模型 | ¥0.001-0.008/1K tokens | ¥0.002-0.02/1K tokens |
| GPT-4o | ~$0.005/1K tokens | ~$0.015/1K tokens |
| Claude Sonnet | ~$0.003/1K tokens | ~$0.015/1K tokens |
免费额度
- 大多数国产平台有免费额度
- 新用户注册赠送 Token
- 日/月限额
估算 Token 消耗
文本长度估算
1000 汉字 ≈ 1000-1500 Tokens
1 页 A4 文档 ≈ 500-800 Tokens
1 篇公众号文章 ≈ 2000-4000 Tokens
对话消耗
每次对话都会累积:
- 第1轮:你 + AI
- 第2轮:你 + AI + 第1轮全部内容
- 第3轮:你 + AI + 前2轮全部内容
历史越长,Token 消耗越多!
节省 Token 的技巧
1. 精简提示词
❌ 冗长:
请你作为一个非常专业的人工智能助手,帮我仔细分析以下这段文本的主要内容、核心观点以及作者想要传达给读者的关键信息...
✅ 简洁:
总结这段文本的核心观点:
2. 清理历史对话
- 不需要时清除历史
- 只保留必要的上下文
- 使用 RAG 代替长历史
3. 选择合适的上下文
- 不要把整本书丢给 AI
- 摘取关键段落
- 用 RAG 检索相关内容
4. 控制输出长度
在提示词中指定:
用不超过 200 字回答...
只输出 3 个要点...
返回 JSON 格式,不要额外解释...
上下文窗口
上下文窗口 = 模型一次能"记住"的最大 Token 数:
| 模型 | 上下文窗口 |
|---|---|
| 大多数国产模型 | 32K - 128K |
| GPT-4o | 128K |
| Claude 3.5 | 200K |
超出窗口会怎样?
- 模型"忘记"最早的内容
- 可能导致前后矛盾
- 需要重新发送完整上下文
OpenClaw 的 Token 管理
查看使用量
大多数平台提供:
- 实时 Token 统计
- 消耗曲线图
- 费用预估
设置限额
- 单次调用最大 Token
- 日/月消费上限
- 超额后停止或降级
成本优化决策树
需要处理大量文本?
├─ 是 →
│ ├─ 文本超 100K? → 用长上下文模型
│ └─ 文本不长? → 普通模型即可
├─ 否 →
├─ 频繁调用? → 缓存常见回答
└─ 偶尔调用? → 按需付费
info
Token 是 AI 的"饲料"。懂 Token = 会养小龙虾 = 能控制成本。