小龙虾与Token

理解 Token 是理解 AI 成本和效率的关键。养好你的小龙虾，先要搞懂它吃什么。

什么是 Token？

Token 是 AI 模型的"货币单位"：

1 Token ≈ 0.75 个英文单词 ≈ 1-2 个汉字
模型按 Token 计费，不是按字数
输入和输出都消耗 Token

为什么用 Token？

不同语言的文字长度不同，用 Token 作为统一单位更公平：

英文："Hello" → 1 Token
中文："你好" → 2 Token（大约）

Token 的两个方向

Input Tokens（输入）

你发送给 AI 的内容：

提示词（Prompt）
上下文文档
历史对话
RAG 检索到的内容

Output Tokens（输出）

AI 生成的内容：

回答文本
代码
结构化数据（JSON）

tip

输入通常比输出便宜。但输入会被上下文窗口限制，输出通常更短。

计费方式

按使用量计费

模型类型	输入价格	输出价格
国产模型	¥0.001-0.008/1K tokens	¥0.002-0.02/1K tokens
GPT-4o	~$0.005/1K tokens	~$0.015/1K tokens
Claude Sonnet	~$0.003/1K tokens	~$0.015/1K tokens

免费额度

大多数国产平台有免费额度
新用户注册赠送 Token
日/月限额

估算 Token 消耗

文本长度估算

汉字 ≈ 1000-1500 Tokens
页 A4 文档 ≈ 500-800 Tokens
篇公众号文章 ≈ 2000-4000 Tokens

对话消耗

每次对话都会累积：

第1轮：你 + AI
第2轮：你 + AI + 第1轮全部内容
第3轮：你 + AI + 前2轮全部内容

历史越长，Token 消耗越多！

节省 Token 的技巧

1. 精简提示词

❌ 冗长：

请你作为一个非常专业的人工智能助手，帮我仔细分析以下这段文本的主要内容、核心观点以及作者想要传达给读者的关键信息...

✅ 简洁：

总结这段文本的核心观点：

2. 清理历史对话

不需要时清除历史
只保留必要的上下文
使用 RAG 代替长历史

3. 选择合适的上下文

不要把整本书丢给 AI
摘取关键段落
用 RAG 检索相关内容

4. 控制输出长度

在提示词中指定：

用不超过 200 字回答...
只输出 3 个要点...
返回 JSON 格式，不要额外解释...

上下文窗口

上下文窗口 = 模型一次能"记住"的最大 Token 数：

模型	上下文窗口
大多数国产模型	32K - 128K
GPT-4o	128K
Claude 3.5	200K

超出窗口会怎样？

模型"忘记"最早的内容
可能导致前后矛盾
需要重新发送完整上下文

OpenClaw 的 Token 管理

查看使用量

大多数平台提供：

实时 Token 统计
消耗曲线图
费用预估

设置限额

单次调用最大 Token
日/月消费上限
超额后停止或降级

成本优化决策树

需要处理大量文本？
├─ 是 →
│   ├─ 文本超 100K？ → 用长上下文模型
│   └─ 文本不长？ → 普通模型即可
├─ 否 →
    ├─ 频繁调用？ → 缓存常见回答
    └─ 偶尔调用？ → 按需付费

info

Token 是 AI 的"饲料"。懂 Token = 会养小龙虾 = 能控制成本。

什么是 Token？​

为什么用 Token？​

Token 的两个方向​

Input Tokens（输入）​

Output Tokens（输出）​

计费方式​

按使用量计费​

免费额度​

估算 Token 消耗​

文本长度估算​

对话消耗​

节省 Token 的技巧​

1. 精简提示词​

2. 清理历史对话​

3. 选择合适的上下文​

4. 控制输出长度​

上下文窗口​

超出窗口会怎样？​

OpenClaw 的 Token 管理​

查看使用量​

设置限额​

成本优化决策树​