1331 字

7 分钟

LLM API调用费怎么省？我一个月的账单复盘

2026-03-08

开发实战

LLM API

/

成本控制

/

DeepSeek

/

OpenAI

/

开发经验

LLM API调用费怎么省？我一个月的账单复盘#

三月份我的LLM API账单是347美元。看到数字的时候我愣了一下——我只是写了几个工具脚本和一个博客助手，哪来的这么多钱。

这个月我花了一些时间调整策略，账单降到了89美元。没换更便宜的模型（至少不全是），核心思路是减少”浪费的调用”。

分享一下具体的做法。

先搞清楚钱花在哪了#

我导出了三月份的调用日志，做了个简单的分析：

用途	调用次数	花费(美元)	占比
博客写作助手	312	127	36.6%
代码辅助	528	98	28.2%
日常问答	891	67	19.3%
自动化脚本	2340	42	12.1%
测试和调试	445	13	3.7%

看完我发现了两件事：

第一，日常问答的调用次数最多（891次），但每次花费很低。这块不是大头，但积少成多。

第二，博客写作助手单次调用花费最高，平均每次0.4美元——因为我用的是最大参数量的模型，而且每次prompt里塞了大量参考材料。

省钱策略一：按需选择模型，不要永远用旗舰#

我以前有个坏习惯：不管什么问题，都直接调GPT-4级别的模型。问个”这个正则怎么写”也用最贵的。

调整之后我做了个简单的路由：

简单问题（格式转换、正则、翻译）→ DeepSeek V4-Flash，$0.14/百万token
中等问题（代码解释、方案讨论）→ Claude Sonnet级别，约$1/百万token
复杂问题（架构设计、长文档分析）→ 旗舰模型，该花钱花钱

这个改动最大的效果是在自动化脚本上。那些定时跑的脚本以前全用旗舰模型，改到Flash之后，这块从 $42降到了$ 9。

说实话，格式化JSON这种事用Flash和用旗舰模型的输出质量几乎没区别，但价格差了20倍。

省钱策略二：缓存重复调用#

这是我最大的省钱发现。

我的博客助手有个功能：对同一篇文章反复修改、润色、调整结构。每次修改都会把全文重新发给模型。

但问题是——如果我只是改了第三段的措辞，前两段和最后三段根本没变，为什么要重新调用API处理它们？

我加了一层简单的缓存：

1
import hashlib
2

3
def get_cache_key(content: str, instruction: str) -> str:
4
    """同样的内容和指令，返回同样的key"""
5
    raw = f"{content}|||{instruction}"
6
    return hashlib.md5(raw.encode()).hexdigest()
7

8
def get_or_generate(content, instruction):
9
    key = get_cache_key(content, instruction)
10
    cache_file = f".cache/{key}.json"
11

12
    if os.path.exists(cache_file):
13
        return json.load(open(cache_file))
14

15
    result = call_llm(content, instruction)
16
    os.makedirs(".cache", exist_ok=True)
17
    json.dump(result, open(cache_file, "w"))
18
    return result

就这几行代码，博客助手这块的花费从 $127降到了$ 58——因为很多润色操作（改错别字、调整语气）我只改了局部，其他部分直接走缓存。

省钱策略三：减少prompt长度#

这个效果出乎意料地好。

我以前写prompt有个毛病：把能想到的背景全写上去。一篇博客的prompt大概长这样：

1
你是一个技术博客写作助手。我需要你帮我修改以下文章。
2
文章主题是XXX，目标读者是XXX，我希望风格是XXX。
3
另外，我之前的几篇文章风格是这样的（附上三篇文章）...
4
还要注意以下几点：1.不要... 2.要... 3.另外...
5
还有，如果涉及到代码示例，请用Python...

这种prompt一次就要吃掉2-3万token。

后来我发现，其实大部分背景信息只在前几次对话时有用。我改成了两阶段调用：

1
# 第一阶段（只在首次发送，约5000 token）
2
"帮我建立以下写作规则：
3
- 风格：口语化，第一人称
4
- 长度：800-1200字
5
- 代码示例用Python"
6

7
# 第二阶段（每次发送，约500 token）
8
"修改这段：[具体内容]"

这样除了首次建立规则的5000token，后续每次调用只要500token。对于需要反复调的文章，这招省了大概60%的token量。

省钱策略四：关掉thinking模式（在不需要的场景）#

有些模型有thinking/reasoning模式，效果确实更好，但消耗的token通常是普通模式的3-5倍。

我的做法：

数学题、复杂逻辑题 → 开thinking
格式转换、文案润色、简单问答 → 关thinking

这一个动作把日常问答的花费从 $67砍到了$ 31。

调整后的账单#

用途	三月花费	四月花费	降幅
博客写作助手	$127	$58	54%
代码辅助	$98	$72	27%
日常问答	$67	$31	54%
自动化脚本	$42	$9	79%
测试和调试	$13	$19	+46%

测试和调试那块涨了是因为这个月集中做了新功能的原型。其他全部下降。总计从 $347降到$ 89。

最后说两句#

省钱这事儿，核心不是”选最便宜的模型”，而是”减少不必要的调用”。我做了这四件事之后，同样的工作量，花费降了四分之三。

有个意外收获是：因为减少了prompt长度，模型输出的质量反而提高了。可能是过长的prompt让模型注意力分散了——这倒是我没预料到的。

你在LLM API上的花费怎么样？有什么省钱技巧？

用开源小模型跑本地AI：我的硬件选择和部署折腾记

我用AI辅助重构了5000行遗留代码，踩了三个大坑

1

LLM API调用费怎么省？我一个月的账单复盘

省钱策略四：关掉thinking模式（在不需要的场景）

调整后的账单

最后说两句