ClaudeCode、OpenClaw、Hermes等智能体兴起,开发者最大的体感是tokens不够用了。即使使用coding plan,也会频频触发上限。就笔者而言,这才4月初,好几个plan已经到顶。再加上Claude等主流模型频频降智,让这一问题变得更加突出,本来100万解决的问题,它非耗你1000万也解决不了。
群里也经常讨论如何本地获取tokens或者白嫖tokens的话题。


最近网络上针对于这样的问题给出了一些缓解方案,其中之一就是多模型策略。网友gkisokay将2026年主流模型分了四档,为配置多模型策略提供参考。这里特别指出,由于claude 苛刻的要求,也给了中国开源模型机会,Glm-5.1进入第一梯队。

Tier 1 - 前沿模型(复杂推理、策略)
Tier 2 - 执行模型(工具调用、长任务链)
Tier 3 - 平衡模型(内容、代码、研究)
Tier 4 - 本地/免费(32GB RAM或更少)
隐藏成本陷阱
def route(task):
if task.type == "planning" or task.requires_deep_reasoning:
return "claude-opus-4-6" # 备用:gpt-5.4, gemini-3-pro
elif task.tool_calls > 10 or task.context_len > 50_000:
return "minimax-m2.7" # 备用:kimi-k2.5, deepseek-v3.2
elif task.type in ["content", "code", "research"]:
return "qwen/qwen3.6-plus:free" # 备用:claude-sonnet-4-6, llama-4-maverick
else:
return "qwen3.5-9b-local" # 始终可用的本地备用最后记住:单模型依赖是危险的。Anthropic最近对Claude订阅的限制提醒我们,多订阅设置、OpenRouter和本地模型是应对一切变化的对冲策略。
另外,虽然我们前面提到的是模型,但路由策略、记忆管理和工具等harness一样重要,两者结合才能获得最大的稳定性和性能。
模型性能正在趋同,对于大部分任务将会处于能力过剩,模型提供商行业形成良性可比的价格体系的时机到了,让“偷工减料的降智”变成定价调整的行业约束,让用户明明白白用tokens,这有利于tokens像电力一样扩大普及,毕竟电没有好电差电之分。