目录

Prompt Caching 深度解析:插件 + 缓存 = 98% 费用节省

DeepSeek V4 架构如何把缓存折扣做到 120 倍

402 轮编码会话,从 ¥113 ($16.36) 压到 ¥1.89 ($0.27)。插件砍 token 量,缓存砍 token 单价。


两层省钱机制

很多人把省钱都归功于 Prompt Caching。实际上有两层独立机制

层次 由谁做 怎么省 本次节省
减少 token 生成量 插件(caveman / claude-mem / superpowers) 少说废话、不重复探索、少返工 97%
降低 token 单价 Prompt Caching 静态内容只付 1/30 价格 46%(在插件基础上)

两者不是竞争关系——是叠加。插件先把 token 量砍到 1/6,缓存再把剩余部分的单价打到骨折。


插件层:怎么砍 token 量

caveman — 输出压缩 65%~75%

原理:删除冠词、填充词、客套话,保留所有技术内容。

1
2
3
4
5
6
正常模式:The reason your React component is re-rendering is likely
          because you're creating a new object reference on each render
          cycle. I'd recommend using useMemo. (32 tok)

Caveman: New object ref each render. Inline object prop = new ref.
          Wrap in useMemo. (17 tok) → 省 47%

本次会话实测:输出 109k token。若无 caveman,估算 312k token。单这一项省了 3 倍输出。

claude-mem — 探索效率提升 ~30%

smart-explore:用 tree-sitter AST 解析代码结构,不读全文。找函数、找类型只返回大纲。

1
2
3
4
5
# 不用 claude-mem:读整个文件
cat workflow/executor.go  # 500+ 行,~8000 token

# 用 smart-outline:只看函数签名
# 返回 15 个函数名 + 参数列表,~200 token

每个文件查找省 70% token。一场会话查 20 个文件,积少成多。

superpowers — 减少返工 ~50%

强制 brainstorming → plan → TDD → execute → review 流程。避免"写了一半发现走错路全删重来"。

典型场景:没有 superpowers,中型功能 3-5 轮返工,每轮 10k-20k token。有 superpowers 通常 1 轮到位。

caveman-compress — 记忆文件压缩 ~46%

CLAUDE.md 等文件每会话加载。压缩后从 939 token 降到 ~500。

插件合计

1
2
3
4
5
无插件估算:    输入 36,987k  +  输出 312k  =  ~37M token
有插件实际:    输入 30,784k  +  输出 109k  =  ~31M token
─────────────────────────────────────────────────
插件节省:      ~6M token(16%)+ 输出降低 65%
费用节省:      97%(¥112.84 → ¥3.49)

注:输入 token 的绝对节省不如输出明显(因静态开销 76k/轮基数大),但输出端 caveman 效果显著。


缓存层:怎么砍 token 单价

DeepSeek V4 定价

DeepSeek 同时公布美元和人民币价格,各自独立定价。汇率换算后基本一致(<2% 偏差)。以下来自官方定价页

计费项 V4 Pro (2.5折) V4 Flash
输入 (缓存命中) ¥0.025/M ($0.0036/M) ¥0.02/M ($0.0028/M)
输入 (缓存未命中) ¥3.0/M ($0.435/M) ¥1.0/M ($0.14/M)
输出 ¥6.0/M ($0.87/M) ¥2.0/M ($0.28/M)

V4 Pro 限时 2.5 折(75% off),原至北京时间 2026/05/05 23:59,延长至 2026/05/31 23:59。缓存命中全系列降为首发价 1/10。缓存命中折扣后 ¥0.025/M —— 120 倍于未命中价。

哪些内容被缓存

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
每次请求 = 你的输入 (5~500 tok) + 固定开销 (~76,000 tok)
                           ┌────────┴────────┐
                           │  全部可缓存      │
                           │  · 系统提示词    │
                           │  · 工具定义      │
                           │  · MCP 工具     │
                           │  · Skills 列表  │
                           │  · Memory 文件  │
                           └─────────────────┘

每次请求系统固定开销 + 你的输入系统固定开销~76,000 tok / 次(固定,不随输入变化)+你的输入5 ~ 500 tok / 次全部可缓存系统提示词工具定义MCP 工具Skills 列表Memory 文件402 轮会话30,628,352 tok 全部命中缓存

402 轮 × 76k = 30,628,352 token 全部命中缓存。实际新增输入仅 155,241 token。

缓存层节省

1
2
3
4
有插件 + 无缓存:  ¥93.01 ($13.49)
有插件 + 有缓存:  ¥1.89 ($0.27)
────────────────────────
缓存节省:         ¥91.12/$13.22(98% 缓存命中折扣)

缓存层在 DeepSeek 价下省了 ¥91(从不缓存 ¥93 到缓存 ¥1.89),效果极其显著。如果用 Anthropic Opus 原价,缓存层能省 $440+


四场景完整对比

场景 输入 Token 输出 Token USD CNY
❌ 插件 · ❌ 缓存 36,986,884 312,457 $16.36 ¥112.84
❌ 插件 · ✅ 缓存 36,986,884 312,457 $0.51 ¥3.49
✅ 插件 · ❌ 缓存 30,783,593 109,360 $13.49 ¥93.01
✅ 插件 · ✅ 缓存 30,783,593 109,360 $0.27 ¥1.89

关键发现:

  1. 插件是主力——从 ¥112.84 砍到 ¥3.49(省 97%)。减少 token 生成量永远是第一优先级
  2. 缓存也很关键——从 ¥3.49 再砍到 ¥1.89(多省 46%)。120 倍的缓存命中折扣让静态开销几乎免费
  3. 两者叠加——¥112.84 → ¥1.89,节省 98%

DeepSeek 缓存折扣 120 倍,比 Anthropic(Opus ~12 倍、Sonnet ~10 倍)更激进。同样的 3000 万 token,不缓存 ¥93 vs 缓存 ¥1.89,差了 50 倍。


两层缓存机制

Anthropic API(DeepSeek 兼容实现):

缓存层 TTL 续期 用途
5 分钟缓存 5 min 每次命中续 会话内连续请求
1 小时缓存 1 hour 不续期 跨短间隔会话
1
2
3
4
5
6
会话 A (10:00-10:30)  →  5分钟缓存持续活跃
                        写入 1小时缓存

会话 B (10:35 新开)    →  5分钟过期,1小时命中

会话 C (12:00 下午)    →  全部过期,从头计费
gantt title 两层缓存生命周期 dateFormat HH:mm axisFormat %H:%M section 会话 A 5分钟缓存 (活跃) :active, 10:00, 10:30 1小时缓存 :crit, 10:00, 11:00 section 会话 B 1小时缓存命中 :done, 10:35, 11:00 section 会话 C 缓存全过期 :milestone, 11:00, 0min

重要:59 分时读到缓存,1 分后照样过期。不会续期。


对比 Anthropic 模型

同一会话,不同模型/缓存组合:

模型组合 费用 (USD) 费用 (CNY) vs 最优
DeepSeek V4 Pro + 插件 + 缓存 $0.27 ¥1.89 基准
DeepSeek V4 Pro + 插件 · 无缓存 $13.49 ¥93.01 49x
DeepSeek V4 Pro · 无插件 + 缓存 $0.51 ¥3.49 1.8x
DeepSeek V4 Pro · 无插件 · 无缓存 $16.36 ¥112.84 60x
Anthropic Sonnet 4 (估算) + 插件 + 缓存 ~$3.50 ~¥24 12.7x
Anthropic Opus 4 (估算) + 插件 + 缓存 ~$17.40 ~¥120 63x
Anthropic Opus 4 · 无插件 · 无缓存 ~$870 ~¥6000+ 3000x+

Anthropic 缓存溢价更高——在 Opus 上缓存层能省 $440+,远超插件层的 token 量优化。


DeepSeek 为什么能 120 倍缓存折扣?

Anthropic 的缓存命中折扣约 10-12 倍(Opus ~12×,Sonnet ~10×),而 DeepSeek V4 Pro 达到 120 倍。这不是补贴,是架构优势的算术结果。

缓存命中率为什么高?

本次 402 轮会话,缓存命中率 99.5%(30,628,352 / 30,783,593 输入 token)。编码 Agent 场景天然适合缓存——system prompt、工具定义、历史上下文每轮重复传输,只有新一行的用户输入需要重新编码。命中率主要由场景决定,但命中后的单价由架构决定。

三池异构 KV Cache

传统 Transformer 用 Dense Attention,每个 token 的 KV 对全精度存储,序列多长 KV Cache 就有多大。DeepSeek V4 把 KV Cache 拆成三个池,按信息密度分层存储:

缓存池 压缩比 精度 作用
SWA (Sliding Window) 无压缩,仅保留最近 128 token 全精度 局部细节补强
CSA (Compressed Sparse Attention) 4 token → 1 压缩 entry FP8/BF16,Indexer 跑 FP4 Lightning Indexer 选 top-1024 后做稀疏注意力
HCA (Heavily Compressed Attention) 128 token → 1 压缩 entry FP8/BF16 全局 dense attention,永久在线的"摘要通道"

V4-Pro 总 61 层:前 2 层用 HCA 建立全局感知,后续层 CSA/HCA 交替排布。

效果:1M token 上下文下,V4-Pro 的单 token 推理 FLOPs 仅为 DeepSeek V3.2 的 27%,KV Cache 体积仅为其 10%。相较于传统 GQA 架构,KV Cache 仅约 2%。

关键创新:压缩 + 稀疏的两级漏斗

CSA 的跨块重叠压缩

每 4 个 token 压缩为 1 条 entry 时,不是简单硬切。相邻压缩块有 50% 重叠——块 i 用 Cᵃ 投影当前 token,Cᵇ 投影前块 token,两者叠加。避免硬切带来的边界信息断裂。

Lightning Indexer(闪电索引器)

压缩后的序列仍很长。Indexer 是一个轻量级小注意力模块:

  • 全程 FP4 精度
  • 仅 64 个 head(主 attention 128 个),head dim 仅 128(主 attention 512)
  • ReLU 过滤 + per-head 加权,任何 head 认为相关即贡献正分
  • 从压缩序列中选出 top-1024 个最相关的块

HCA 的极端压缩

每 128 token 压缩为 1 条 entry。1M 上下文仅剩约 7,800 条,直接做 dense attention 完全可控。不做稀疏选择——省去 Indexer 参数和 Top-k 排序开销。

推理框架层:ShadowRadix 前缀复用

SGLang 团队为 V4 专门设计的原生前缀缓存系统。

传统 prefix cache 用 Radix Tree 管理 KV Cache 复用,但 V4 每层有三个异构 KV 池 + 两套压缩状态,传统方案直接失效。ShadowRadix 的做法:

  1. 用一个 Radix Tree 索引虚拟的完整 token 槽位(统一坐标系统)
  2. 每个虚拟槽位投影(shadow)到三个物理 KV 池
  3. 压缩状态的环形缓冲区通过二级算术映射独立寻址
  4. 每个节点带双计数器锁——full_lock_ref 覆盖源节点及 C4/C128 shadow,swa_lock_ref 仅追踪滑动窗口
  5. 当 SWA 计数归零,只释放 SWA 槽位,压缩 shadow 保留在树中继续被其他请求复用

效果:1 万 token 的请求只占 128 个 SWA token + 完整 CSA/HCA 压缩 KV。压缩 KV 正是跨请求复用的部分。在 B200 上,V4-Pro 从 4K 到 900K 上下文,解码吞吐仅从 199 tok/s 降到 180 tok/s(降幅不到 10%)。

为什么整体能低价:四层叠加

DeepSeek 的低价不是烧钱补贴,是从注意力机制到推理框架全链路效率叠加:

第一层:MoE 存算分离

  • V4-Pro 总参 1.6T,每次推理只激活 49B(3%)
  • 每 token 仅激活 2-4 个专家(传统 MoE 需 8-16 个),计算资源利用率 92%

第二层:MLA → CSA + HCA 注意力压缩

  • DeepSeek-V2(2024)先用 MLA(多头潜在注意力)沿特征维度压缩 KV,减少 93.3% KV Cache [arxiv:2405.04434]
  • V4 进一步沿序列维度压缩,KV Cache 再降至 V3.2 的 10%

第三层:混合精度 + 量化

  • RoPE 维度保留 BF16(保证位置编码精度),其余压缩至 FP8
  • CSA Indexer 的 QK 路径全程 FP4
  • Flash Compressor 将 5 步压缩链融合为单次片上 pass,HBM 往返从 5 降到 2

第四层:HiSparse CPU offload + 三档磁盘策略

  • 将不活跃的 C4(CSA)KV Cache offload 到 CPU 内存,长上下文吞吐提升 3×
  • 磁盘策略按算力/存储比弹性选择(Full / Periodic / Zero)

对比总结

维度 Anthropic (Opus 4) DeepSeek V4 Pro
注意力架构 Dense Attention CSA + HCA 混合稀疏压缩
KV Cache 体积 全精度,序列多长大 压缩至传统 2%,混合精度
缓存折扣 ~12× ~120×(命中 ¥0.025/M vs 未命中 ¥3.0/M)
单 token 推理算力 高(全量激活) V3.2 的 27%(MoE + 压缩)
前缀复用 标准 Radix Tree ShadowRadix 异构池影子投影

DeepSeek 的 120 倍缓存折扣,本质是架构上把 KV Cache 做到了传统模型的 2%。缓存命中后,只需对压缩后的极少量 KV 做计算,成本自然断崖式下降。而 Anthropic 的 dense 架构下,缓存命中只是免了 prefill 的矩阵乘法,KV Cache 本身并没有变小——这是 120× vs 12× 差距的根源。

参考来源


实际会话费用明细

本次 402 轮编码会话(2026-04-28):

1
2
3
4
5
6
7
💰 费用明细 (DeepSeek V4 Pro, 2.5折)

Cache Miss:     155,241 tok × ¥3.0/M ($0.435/M) = ¥0.47 ($0.07)
Cache Hit:   30,628,352 tok × ¥0.025/M ($0.0036/M) = ¥0.77 ($0.11)
Output:        109,360 tok × ¥6.0/M ($0.87/M) = ¥0.66 ($0.10)
─────────────────────────────────────────────────
总计:                                              ¥1.89 ($0.27)

¥1.89 ($0.27) 完成 402 轮编码对话——包括代码探索、文件整理、环境配置、博客撰写。


优化清单

优先级 操作 预期节省
1 装 caveman 输出 -65%~75%
2 装 superpowers 减少返工,总 token -50%
3 装 claude-mem 探索效率 +70%,免重复上下文
4 精简 CLAUDE.md 每轮省 ~400 input token
5 关掉不用的插件 减少 MCP/Skills 定义
6 caveman:compress 记忆文件 输入 -5%~10%
7 5 分钟内连续对话 缓存永续
8 闲暇时用 Flash 代替 Pro 降至 1/3 价格

结论

两层机制,分工明确:

  • 插件层:砍 token 生成量(主力,省 97%)
  • 缓存层:砍 token 单价(120x 折扣,多省 46%)

二者叠加 = ¥112.84 → ¥1.89(98% 节省)。

DeepSeek 的缓存折扣其实比 Anthropic 更激进——120 倍 vs Opus 的 12 倍。只不过 DeepSeek 基础价低,绝对值看起来小。换成 Opus,这场会话无缓存 ¥2100,有缓存 ¥180,都是肉疼。

结论:四个插件都装上,别让会话间隔超过一小时。缓存折扣 120 倍不是摆设——没缓存贵 50 倍。


数据来自 2026-04-28 实际编码会话,402 轮。

DeepSeek V4 Pro 含 2.5折限时折扣(原至北京时间 2026/05/05 23:59,延长至 2026/05/31 23:59)。

人民币为 DeepSeek 原始定价。

DeepSeek 定价页 · Anthropic Prompt Caching