< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

大模型能“原地”改参数了！字节Seed&北大新论文：测试时推理无需加层重训练

鱼羊 2026-04-10 14:12:47 来源：量子位

即插即用

鱼羊发自凹非寺

量子位 | 公众号 QbitAI

字节Seed最新研究，让大模型能“原地改参数”了。

既不用改模型结构，也不用重新训练，还跑得很快。

具体是这么个情况。智能体时代嘛，大家都知道模型们面对的任务开始变得越来越复杂、上下文越来越长。

如何让大模型边干活边学习，不断适应新的信息，而不是在超长上下文中逐渐崩溃，已经成为AI圈研究的一大重点。

测试时训练（TTT）让模型能够在推理时更新部分参数，但实际应用时，问题仍然很复杂：

首先，架构不兼容。现有的TTT需要引入全新的网络层，甚至替换注意力机制，导致必须从头开始做预训练。

其次，计算效率低。现有的TTT采用一个Token一个Token的顺序更新，无法充分利用GPU/TPU的并行计算能力。

还有优化目标不匹配的问题。现有TTT多采用重建目标（reconstruction），只让模型记住当前的词，而不是为了预测下一个词设计。也就是说，与语言模型核心的“预测下一个Token”的任务不匹配。

针对这些问题，来自字节Seed和北京大学的研究团队想到了一个小妙招：

不新增层，也不改架构，直接把Transformer里本来就有的MLP模块，当成大模型的“临时小脑”。

这个名为In-Place TTT（原地测试时训练）的方案，让TTT可以作为即插即用的模块，无缝集成到现有的预训练大模型中。

实验证明，Qwen3-4B、Llama3.1-8B、Qwen3-14B在装备In-Place TTT之后，都原地变强了，并且在长文本任务上提升尤为明显。

这篇论文已经中了ICLR 2026 Oral。

让大模型在推理时“原地改参数”

话不多说，还是来看论文的详细内容。

In-Place TTT核心要解决的问题，是在不折腾模型架构的前提下，让大模型在推理/回答问题时，也能悄悄更新自己，适配当前的上下文。

实现即插即用，字节Seed和北大的研究人员主要做了3点创新。

原地架构设计

在In-Place TTT中，研究人员巧妙地复用了Transformer中无处不在的MLP（多层感知机）。

他们将MLP的最后一个投影矩阵Wdown作为快速权重（fast weights），在推理时进行原地更新。

这样就无需引入新的专用层来处理快速权重。已经训好的大模型也可以拿来直接用，不必重新训练。

语言模型对齐的优化目标

原来的TTT只让模型“记住当前Token”，前文已经提到，这与语言模型的优化目标是不一致的。

为此，In-Place TTT设计了专门针对自回归语言模型的优化目标：

通过引入一维卷积（Conv1D）和投影矩阵，使TTT的目标值包含了未来 Token的信息，从而显式地与“预测下一个Token”的任务对齐。

研究人员还分析证明，这种做法能促使快速权重压缩对未来预测有用的信息，从而有效提升模型的上下文学习能力。

高效的块级更新机制

In-Place TTT是对MLP进行改造，保留了原有的注意力层，这就使得该方法可以实现分块更新，不用再逐Token去处理。

结合上下文并行技术，In-Place能实现更高的吞吐量和计算效率，支持更长的上下文。

实验表明，In-Place TTT能大幅提升现有模型（如Qwen3-4B）在128K甚至256K长上下文任务中的表现。

在从头训练的对比中，也优于其他TTT方法。

研究团队

In-Place TTT的论文一作是冯古豪和罗胜杰。

冯古豪目前就读于北京大学，是字节Seed的实习生。

罗胜杰同样毕业于北大，师从王立威教授和本文通讯作者贺笛教授。

本文的另一位通讯作者是字节Seed的Wenhao Huang。

论文地址：

https://arxiv.org/abs/2604.06169v1

字节Seed

鱼羊

大模型能“原地”改参数了！字节Seed&北大新论文：测试时推理无需加层重训练

让大模型在推理时“原地改参数”

原地架构设计

语言模型对齐的优化目标

高效的块级更新机制

研究团队

相关阅读

字节Seed：大概念模型来了，推理的何必是下一个token

字节Seed开源长线记忆多模态Agent，像人一样能听会看

字节Seed用化学思想搞AI，把DeepSeek-R1的脑回路拆成了分子结构

谢赛宁盛赞字节Seed新研究！单Transformer搞定任意视图3D重建

热门文章

2026年世界人工智能大会，7月17-7月20上海举办

在联合国，这家中国公司给AI“减负”：不堆算力，而是给机器人装了个“类脑”

极简方案刷新扩散模型推理纪录，阿里清华论文入选ICML杰出论文

50FPS、成本打掉70%，魔芯MoWorld把世界模型带进产业时代

刚刚，OpenAI首席未来学家离职！曾被马斯克骂蠢驴