Scaling Law 的真相，藏在那些「没用」的参数里

小腾资讯君

发布于 2026-06-18 09:13:52

1470

腾讯前沿科技论文解读专栏，在代码与商业的交汇处，寻找AI的确定性。

文｜博阳

编辑｜徐青阳

自从Jared Kaplan 等人在 2020 年画出那条幂律曲线，Scaling Law 就成了大模型时代最重要的经验法则。参数越大，模型越强，成了定理。

但在 2024 年，百川智能发表了一篇名为 ShortGPT 的论文。他们直接把 LLaMA-2-13B 的 40 层 Transformer 砍掉了 10 层。结果模型在 MMLU 上的得分却仅仅从 55.0 跌落到了 52.2。

ShortGPT 删层实验，逐层移除后 PPL（左）与 MMLU（右）几乎不变，深层尤其稳（图源 Men et al. 2024, Fig.1）

四分之一的层没了，核心知识基准却几乎毫发无损。

随后，牛津大学在 2025 年发表的研究《大语言模型中的深度诅咒》（The Curse of Depth in Large Language Models）又重现了这个现象。他们发现，大模型深层网络里相邻层的输出几乎是完全同质化的，把这些层直接抽走，性能不仅没崩，甚至有时还会微微反弹。

这似乎说明，大模型里有大量的层都在「吃空饷」。

如果这些参数都在空转，Scaling Law 就变得很可疑了。我们是否真的有必要要这么多的参数？它们真的在给模型带来好处吗？

这就是 Scaling Law 的一个重要谜题，即参数冗余谜题。

过去两年，最顶尖的 AI 研究者们开始了一场向微观下潜的战役。试图从各个角度去破解这一谜题。在这一过程中，也将 Scaling Law 从「经验公式」升级为「物理定律」。

两年之后，这些孜孜不倦互相印证的研究，终于构成了一张网络，来部分解释了这些冗余参数的机理和作用。

如果把模型的一生拆开，将训练、推理、后训练（微调）这三段账分开来算，你会发现，这些被统称为「冗余」的参数，其实在不同阶段扮演着四种截然不同的角色。

第一重身份，训练时的隔离空间

目前对 Scaling Law 的最大直觉挑战，来自于小模型的优秀表现。这两年来，在蒸馏技术突飞猛进之下，小模型的能力似乎与大模型的差距越来越小。

尤其是主线 benchmark 上，像 Gemini 3.5 Flash 这种模型都能打败更大的 Gemini 3.1 Pro。

过去这个 Scaling Law 成立的答案似乎是很简单的，就是因为模型参数多，能记住的东西多。但现在的小模型表现似乎很难能让你看出记忆的差距，然而在真正使用过程中，我们依然感觉它哪里有点缺陷。

它缺的到底是什么？为什么会缺？

回答这个问题的第一个侧面，来自斯坦福大学与 Anthropic 的联合明星团队。

他们在 2026 年 5 月底发布了一项新研究《Why Larger Models Learn More》，意图回答 Scaling Law 的核心问题，为什么有些能力，小模型喂再多数据也学不会？

过去笼统的解释似乎失效后，他们选择深入到训练动态的微观过程里寻找答案。

我们可以把模型的「表示空间」想象成一块面积有着严格物理上限的白板。在无休止的预训练洪流中，数据里夹杂着的成千上万种任务，都在拼了命地想在这块板上留下自己的特征。

谁能抢到地盘？研究团队经过实验，发现了一种资源分配法则，在这个高维的丛林里，效用越高的任务，越有资格优先霸占白板。

而效用=频率 X 信号强度。

频率是指这些 token 在训练过程中出现的频率。信号强度则是指这个任务的特征本身有多强，它是任务自带的固有属性。

研究团队发现，我们的任务其实可以分为高频和低频任务。高频任务就是几乎每组训练数据都会出现，模型可能在一个训练流程中看过上千万遍的任务，比如基础语法和常见事实。而低频任务则是长尾的，很少出现的任务，比如某些特别的数学技巧。

因为高频任务的频率实在是比低频任务高太多倍了。它们的效用，就算是信号强度很低，也比低频任务高很多，会被模型优先去记忆。

如果你模型的宽度只有 N，它在数学上就只能保住效用排名前 N 的特征。于是，那些天天见面的高频任务一上来就占满了最核心的位置。而那些低频、罕见但极度复杂的长尾知识，在小模型逼仄的空间里根本连上桌的资格都没有。

那高频任务天天出现，不管模型大小，它迟早都会被「学对」，一旦学对，误差（loss）归零，驱动它去改动参数的梯度也随之熄火，它自然就会安静下来把空间让给别人，小模型也可以有空间给其他长尾任务学习啊？

但高频任务本身往往也极其复杂，需要大量的向量方向才能把它完整地表达出来。在小模型那块可怜的白板上，高频任务连自己都「写不完整」。因为它始终有没学对的部分，它的误差梯度就会在整个训练周期里疯狂跳动，死死霸占所有可用的参数方向，推掉所有其他写上去的，高信号强度的低频任务。

稀有任务想在白板上落笔，它必须去跟高频任务里「最不重要的那个特征」正面硬刚。在小模型里，仅有的方向被高频任务塞得极满，哪怕是「最弱方向」的门槛也高不可攀。稀有任务哪怕碰巧写上去了，下一秒也会被高频特征挤平。

大模型则用海量的参数方向彻底砸穿了这种内卷。它的方向多到高频任务根本用不完，直接导致被占用的「最弱方向」的竞争门槛被砸到了地板价。

一个罕见的逻辑推理任务，可能每隔几百万个 token 才在语料库里出现一次。在小模型里，由于没有独立的隔离区，每次刚存下一点可怜的记忆，下一批高频数据狂飙而过，记忆账户瞬间清零。无论它见多少次长尾，永远都在从零开始。

而大模型里的稀有任务，已经抢下了一个高频任务根本不屑于去碰的正交角落。它上次写下的微弱痕迹，能够存活数百万步训练。只要没有高频梯度的肆意洗劫，这点微弱的信号早晚能通过复利增长，最终化为模型深刻的理解力。

论文定义出了一个临界阈值。当模型大到这个阈值时，长尾任务的微弱效用终于能碾压这个「地板价」，硬生生抢下一个方向并稳稳定居。

所以参数大，在训练过程中起了两个作用。

一是只有白板足够大，高频任务才能彻底把误差降到零。误差（loss）一旦够小，推土机就真正熄火了，梯度安静下来，不再去折腾那些多出来的方向。

二是只有白板容量高，能容得下稀有任务被隔离在没用完的小空间里，不会被擦掉，而是被增强并记住。

为了证明这个理论的确定性，斯坦福团队拿参数从 4M 到 4B 的 OLMo 模型做了一次干预实验。他们在 2100 亿 token 的预训练语料里，注入了比较大小和模加法这两个任务，并将出现频率极其克制地压在千万分之一的级别，让他们成为数据中的低频任务。

结果，20M 以下的小模型在这两个任务上彻底抓瞎，准确率等同于瞎蒙。而 1B 以上的大模型，哪怕低频任务每四百万个 token 才露一次脸，依然能完美掌握。

OLMo 实验的频率 × 模型尺寸相图：只有大模型才能在低频下学会注入任务（图源 Huang et al. 2026, Fig.5）

控制变量实验更是直接粉碎了「看多了就能学会」的迷思。哪怕任务总出现次数完全一样，只要两次注入的时间间隔被拉大，小模型的准确率就会断崖式崩盘。这在物理层面上证明了，低频任务在两次之间确实会被高频任务洗掉。

真正的实锤落在了显微镜级别的梯度剖析上。研究团队用因果干预技术（DAS）去分析 1B 模型，结果发现在广袤的参数荒野里，高频任务和稀有任务在数学上近乎绝对正交，实现了完美的井水不犯河水。

梯度剖析：1B 模型中任务与非任务梯度近乎正交，小模型则严重碰撞（图源 Huang et al. 2026）

这说明，大模型之所以能学会常人难以触及的长尾知识，根本不是因为它算得更努力。而是它用庞大的冗余空间，硬生生在喧嚣的高频世界里，为脆弱的智慧火种砌出了一间绝对安静的密室。

在训练里，建立起给长尾任务的隔离空间，这就是大参数的第一层身份。

而它也在一定程度上回答了 ShortGPT 论文所说的「空转参数」的疑问。

所以，大模型在训练时需要冗余。能删，不代表当初不需要。

没有这些多出来的多余容量去平息高频任务的梯度狂风，没有这些余量去拉低竞争门槛，低频的长尾能力在预训练的泥潭里，连活过第一轮的资格都没有。

但低频任务，本身因为其频率较低，很难写满这些余量。因此在最终结果中，很多这些留下来余量就在闲置状态之中了。

第二重身份，训练时的垃圾桶

在第一重身份中，我们看到的冗余参数是参与到学习中去，吸收了一些边缘化的长尾知识的。

所以可能把它裁剪掉，确实不会掉那些主要测高频任务的 benchmark 成绩。

但并非所有的冗余参数，都真正是在训练中记下了东西的。

在 2024 年马里兰大学的一项研究《What Matters in Transformers? Not All Attention is Needed》中，研究人员追踪了模型在整个训练生命周期中的各个节点，发现很多注意力层和 MLP 层的冗余，在预训练的早期阶段就非常稳定地存在。

这说明，它们不是训练后期因为功成身退才闲下来的，它们一开始就不负责记忆，而是负责泄压。

这件事，得从 attention sink（注意力下沉）这条研究线说起。早在 2023 年， StreamingLLM 的论文《Efficient Streaming Language Models with Attention Sinks》就观察到一个怪现象，模型总是把大量注意力，分给那些语义上无关紧要、却频繁出现的 token 上。最典型的就是句子开头的起始符。

StreamingLLM 发现的注意力下沉，(d) 中开头那一列（黄）固定吸走大量注意力，删掉它困惑度立刻崩（图源 Xiao et al. 2023, Fig.1）

2024 年的论文《When Attention Sink Emerges in Language Models》则通过排查法，理解了这个机制的关键。

它在于大模型底层最核心的一个数学算子，Softmax 归一化。

在阅读时，人类的注意力是自由的。我们可以盯着某个词深思，也可以快速略过一段无意义的废话。但标准的 Transformer 注意力机制不行。

因为底层的 Softmax 归一化算子要求对于每一个查询向量，它分发给当前上下文里所有单词的注意力权重，相加必须严格等于 100%（即归一化）。

但在实际训练过程中，很多注意力头在当前步骤可能根本不需要关注上下文里的任何词。它需要去保持沉默，什么更新都不输出才是更正确的迭代方法。

但 Softmax 不允许你交白卷。你不能把所有词的权重都写成 0%。即使你谁都不想理，你也必须凑够 100% 的注意力扔出去。

为了对付它，模型在训练过程中，被迫学会了一个几何学上的「偷懒」路由策略。

既然标准规定必须把 100% 的权重扔给某个地方，而我又不想让这个分值污染当前正在处理的语义表达，那我就得找一个垃圾桶把这些无用的注意力倒掉。

这个垃圾桶需要满足两个条件。它必须在每个句子里都存在，而且它本身不能携带任何实质的语义信息，否则把注意力倒给它会产生严重的幻觉。

在 LLM 中，这个完美的垃圾桶就是 BOS（Beginning of Sequence，起始字符）。

起始符只是一个句子开始的标记，没有任何语义。当某个注意力头想保持沉默、什么都不干时，它就会把 99% 的注意力一股脑全部倒给起始符，也能满足 Softmax 的要求，又不会真正改变模型的输出。

这就是冗余参数在训练阶段长出的第二重功用，数值泄压。

它在推理时看起来是在「吃空饷」，但它之所以能在那里安稳地「空转」，是因为在预训练的洗礼中，它已经替整个主干网络承担了所有的数值垃圾。

第三重身份，推理时的骨架

预训练结束了，那这些训练阶段多出来的冗余参数，是不是可以删掉也不影响能力呢？

ShortGPT 就是这么判断的。但 2026 年初，纽约大学发表的论文《 On the Limits of Layer Pruning for Generative Reasoning》则发现这个漂亮的「老兵退役」故事，其实行不通。

ShortGPT 使用的 MMLU（多选知识基准），本质上是「单步检索型」任务。它考的是模型对已有事实知识的调用能力，在激活路径上相对单一，浅层和深层的配合并不需要形成复杂的串行反馈链。

删掉几个层，模型依然能从其他层里捞出知识，完成判断。

但纽约大学团队把测试任务换成了 GSM8K（数学推理）和 HumanEval+（代码生成）等生成式推理任务。在这些任务上，你砍了在 ShortGPT 里的冗余层，准确率会瞬间腰斩，甚至跌到接近随机乱猜的个位数。

这揭示了冗余参数在推理阶段的第三重功用，撑起多步推理的跨层计算骨架。

2025 年 10 月的一篇杨立昆参与的论文《Attention Sinks and Compression Valleys in LLMs are Two Sides of the Same Coin》对这个骨架作用做了更深入的解释。

他们通过观察上面第二重身份中由于数值泄压的 BOS 字符出现的位置，提出了一个多层神经网络，其实经历了「混合-压缩-精炼」三步过程。

六个模型沿深度的实测曲线，中段熵骤降（左）、sink rate 飙升（中）、BOS 范数爆表（右）三者同步，划出压缩山谷（图源 Queipo-de-Llano et al. 2025, Fig.1）

团队发现，一个深层网络有三个不同的阶段。

● 早期层（约前 20%）在「混合」。 熵很高，注意力发散，各个 token 互相广泛交换信息，模型在这里把上下文揉成一团，建立起初始语境。

● 中间层（约 20% 到 85%）在「压缩」。 就是这里，那个无用的起始符 BOS 开始飙升、注意力头放弃注意的现象（attention sink）出现、熵骤降，这说明这个压缩阶段，任务是把前面混合好的复杂上下文信息，收窄、拧紧成一个低维的瓶颈。

● 后期层（最后约 15%）是在「精炼」。BOS 范数消退，各 token 范数重新拉平，注意力从全倒给 BOS 切换成尖锐的、位置性的模式，模型在这里做面向具体任务的最后加工。

因为中间层在干的是收窄维度的活，而不是在创造新的语义，所以在数学上，它的输入和输出必然表现出极高的相似度。

在 ShortGPT 这类剪枝算法眼里，这种原样转发的数据表现就是无可辩驳的冗余。但事实上，它不是在闲着，它是在执行压缩这道工序。

更关键的是，不同任务对这道工序的依赖深度完全不同。

知识检索类任务（如 MMLU）考的是模型调取已有事实知识的能力（比如「法国的首都是巴黎」）。这类事实在压缩阶段就已经成熟、拧紧，并保存在中间层的表示里了。

在业界一个被反复观察到的独立现象也印证了这一点，嵌入类、探针类任务的最佳表现往往出现在模型的中间层，而不是最后一层。对于检索任务，它在中间层就已经拿到了答案。后面的层对它来说是读完了还在翻页，砍掉几个精炼层，并不影响它已经拿到的事实。

但多步生成推理（如 GSM8K、HumanEval）不是去开卷读一个现成事实。它需要模型在压缩出的那个信息瓶颈之上，一步步往下算。

第一层计算进位，第二层基于进位算加法，第三层基于加法再算下一步。它需要依靠深度，一层一层变换表示，在跨层之间搭起一条串行计算链。

这就是为什么同样删层，两类能力命运截然相反。

最关键的精炼和计算，确实是在最后那 15% 的精炼层中完成的。但精炼层要跑通这条计算链，必须依赖中后期压缩层输送过来的、已经被高度压缩和数值稳定的上下文信息。

当你把中段物理性地砍掉时，你等于把连接「混合段」和「精炼段」之间的管线拦腰斩断了。

没有了中段的数值泄压（BOS 垃圾桶）和信息压缩，送进最后几层（精炼层）的输入变成了完全失稳的数值噪音。

精炼层的计算骨架失去了可以站立的基石，多步推理链条自然推不下去。

第四重身份，后训练阶段的备用生力军

即使我们退一万步，假设你的模型部署之后真的永远只需要做知识检索，那些在 GSM8K 上有用的计算骨架对你来说确实是冗余的，那么，这些空转的层是不是就可以放心砍掉了？

还是不行。因为你忽略了模型生命周期的最后一个阶段，后训练适配。

大模型在部署后，很少真的「一生只推理」。为了对齐新的价值观、适配新的垂直领域、学习新的 API 工具，它们需要持续进行微调（Fine-tuning）、领域适配和 RLHF。

而在后训练阶段，那些在推理时空转的参数，会瞬间换上第四重身份，即后训练的额度。

纽约大学的 Marek 等人在 2026 年 5 月发表的研究《Forgetting in Language Models》，给大模型的后训练可塑性（Plasticity）画出了一条容量硬边界，模型的遗忘下界，受到剩余容量（Spare Capacity）的严格约束。

在这项实验中，他们精确量化了参数和数据配比对后训练学习的影响。

当模型处于标准的 Chinchilla 最优配比（每个参数配大约 20 个 token）时，白板上还留有充足的未饱和空间。这时候对模型做微调，它几乎不会出现灾难性遗忘。新任务的梯度可以轻松写在那些空白处。

但当模型被塞满的时候（比如 LLaMA 3 将 tokens/param 比率推到了 2000 甚至 17000）时，白板已经被预训练数据塞得满满当当。

这时候对模型做微调，新知识每写一行，旧知识就必须物理性地擦掉一行。新旧任务被迫进行你死我活的以旧换新拉锯战。即使采用最先进的自生成数据方案，也只是在帮你决定该优先擦掉哪一块记忆，无法从根本上解决空间冲突。

持续学习四个任务，左图无 replay 时旧任务准确率逐个崩塌，右图自生成 replay 几乎完全保住（图源 Marek et al. 2026, Fig.3）

这种情形，其实 Sutton 早在 2024 年发表在 Nature 上的《Loss of Plasticity in Deep Continual Learning》，就已经提及了。

在持续更新后，系统内高达 90% 的神经元会退化为不再响应任何梯度的 dead units（死单元）。

这时候，模型在推理时仍然能完美运行当前的任务。但它的可塑性已经彻底归零。它退化成了一个坚硬的、无法被修改的顽石，再也学不会任何新东西。

前面纽约大学的后剪枝恢复实验，就用实验证明了这一点。

他们尝试用自生成响应（Self-Generated Responses）和海量数据去治疗和恢复那些被剪枝的模型。结果发现，分类任务的性能可以恢复到 90%，但生成式推理的性能，即使喂了 400B token 的数据，也依然无法恢复。

剪枝后微调恢复，上排分类任务能恢复到 80-90%，下排生成式推理即便喂海量数据也补不回来（图源 Shrestha et al. 2026, Fig.1）

因为剪枝把那些在推理时看似空转、实则作为「可塑性储备」的空白白板，连同多步计算的深度骨架，一起物理性地撕掉了。

这就构成了冗余参数在后训练阶段的第四重功用，留下后训练的空间。

剪枝不是一个单纯的压缩优化问题，而是一笔跨生命周期的资源交易。你省下的是今天的推理成本，透支的却是明天的学习能力。

今天能删，不代表当初不需要；今天能删，也绝不代表以后不需要。

如果你把未来的可塑性储备当成无用的冗余切掉，你就等于在部署的那一刻，亲手阉割了模型未来继续进化的可能。

Scaling Law 撞墙，是因为 benchmark 不够量

绕了一大圈，我们终于可以回到最开始那个悖论了。

ShortGPT 们之所以能砍掉四分之一的层而 benchmark 几乎不掉，是因为这些参数在那张特定的尺子上确实没贡献。

但分析完冗余参数的四重功用，我们已经知道，它们并不是真的没干活，只是干的活被尺子漏掉了。

把这件事反过来看，就触到了 Scaling Law 近期争议的一个根本逻辑。

一个长期困扰整个行业的怪象，模型越堆越大，主流 benchmark 却越来越接近天花板，涨幅肉眼可见地放缓。

很多人据此唱衰，说 Scaling 已经撞墙了。但其实那条幂律曲线却依然在平滑地往下走，没有要停的意思。

四重功用揭示的恰恰相反，模型变大，多出来的容量首先涌向的是那些 benchmark 照不到的角落。

训练时给稀有任务挡子弹的隔离空间、维持数值秩序的旁路、深处一层层搭起来的计算骨架、留给未来微调的可塑性余额。

这些东西，没有一个会在 MMLU 的分数上显现。

我们手里的尺子，无论是 MMLU 还是困惑度（Perplexity），量的都是高频、主流、单步可检索的能力。而 Scaling 的边际收益，恰恰流向了低频、长尾、多步、需要全深度才能跑通的那一端。尺子量不到的地方，正是大模型相对小模型真正拉开差距的地方。

Scaling 带来的收益是真实的，而且是必然的，每增加一分容量，模型就在长尾任务的保持、深层计算链的搭建、稀有结构的习得上多走一步。

所以模型在长程任务能力上依然疯涨，但 benchmark 能够显示的东西越来越少。

于是冗余参数谜题最终给出的，不是一个关于压缩的答案，而是一个关于 Scaling Law 的答案。

那条光滑的幂律曲线背后，从来没有什么免费的冗余。

本文系转载，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

scaling

本文系转载，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

scaling

登录后参与评论

0 条评论

热度

Scaling Law 的真相，藏在那些「没用」的参数里

Scaling Law 的真相，藏在那些「没用」的参数里

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐