Skip to main content

小龙虾与Token

理解 Token 是理解 AI 成本和效率的关键。养好你的小龙虾,先要搞懂它吃什么。

什么是 Token?

Token 是 AI 模型的"货币单位":

  • 1 Token ≈ 0.75 个英文单词1-2 个汉字
  • 模型按 Token 计费,不是按字数
  • 输入和输出都消耗 Token

为什么用 Token?

不同语言的文字长度不同,用 Token 作为统一单位更公平:

  • 英文:"Hello" → 1 Token
  • 中文:"你好" → 2 Token(大约)

Token 的两个方向

Input Tokens(输入)

你发送给 AI 的内容:

  • 提示词(Prompt)
  • 上下文文档
  • 历史对话
  • RAG 检索到的内容

Output Tokens(输出)

AI 生成的内容:

  • 回答文本
  • 代码
  • 结构化数据(JSON)
tip

输入通常比输出便宜。但输入会被上下文窗口限制,输出通常更短。

计费方式

按使用量计费

模型类型输入价格输出价格
国产模型¥0.001-0.008/1K tokens¥0.002-0.02/1K tokens
GPT-4o~$0.005/1K tokens~$0.015/1K tokens
Claude Sonnet~$0.003/1K tokens~$0.015/1K tokens

免费额度

  • 大多数国产平台有免费额度
  • 新用户注册赠送 Token
  • 日/月限额

估算 Token 消耗

文本长度估算

1000 汉字 ≈ 1000-1500 Tokens
1 页 A4 文档 ≈ 500-800 Tokens
1 篇公众号文章 ≈ 2000-4000 Tokens

对话消耗

每次对话都会累积:

  • 第1轮:你 + AI
  • 第2轮:你 + AI + 第1轮全部内容
  • 第3轮:你 + AI + 前2轮全部内容

历史越长,Token 消耗越多!

节省 Token 的技巧

1. 精简提示词

❌ 冗长:

请你作为一个非常专业的人工智能助手,帮我仔细分析以下这段文本的主要内容、核心观点以及作者想要传达给读者的关键信息...

✅ 简洁:

总结这段文本的核心观点:

2. 清理历史对话

  • 不需要时清除历史
  • 只保留必要的上下文
  • 使用 RAG 代替长历史

3. 选择合适的上下文

  • 不要把整本书丢给 AI
  • 摘取关键段落
  • 用 RAG 检索相关内容

4. 控制输出长度

在提示词中指定:

用不超过 200 字回答...
只输出 3 个要点...
返回 JSON 格式,不要额外解释...

上下文窗口

上下文窗口 = 模型一次能"记住"的最大 Token 数:

模型上下文窗口
大多数国产模型32K - 128K
GPT-4o128K
Claude 3.5200K

超出窗口会怎样?

  • 模型"忘记"最早的内容
  • 可能导致前后矛盾
  • 需要重新发送完整上下文

OpenClaw 的 Token 管理

查看使用量

大多数平台提供:

  • 实时 Token 统计
  • 消耗曲线图
  • 费用预估

设置限额

  • 单次调用最大 Token
  • 日/月消费上限
  • 超额后停止或降级

成本优化决策树

需要处理大量文本?
├─ 是 →
│ ├─ 文本超 100K? → 用长上下文模型
│ └─ 文本不长? → 普通模型即可
├─ 否 →
├─ 频繁调用? → 缓存常见回答
└─ 偶尔调用? → 按需付费
info

Token 是 AI 的"饲料"。懂 Token = 会养小龙虾 = 能控制成本。