赤峰塑料挤出机设备大模子能“原地”改参数了！字节Seed&北大出品｜ICLR'26

发布日期：2026-06-01 21:27 点击次数：194

鱼羊发自凹非寺赤峰塑料挤出机设备

量子位 | 公众号 QbitAI

字节Seed新护士，让大模子能“原地改参数”了。

既毋庸改模子结构，也毋庸再行测验，还跑得很快。

具体是这样个情况。智能体期间嘛，多数知谈模子们靠近的任务运行变得越来越复杂、陡立文越来越长。

如何让大模子边干活边学习，不停允洽新的信息，而不是在长陡立文中缓缓崩溃，依然成为AI圈护士的大。

测试时测验（TTT）让模子鄙俚在理时新部分参数，但试验应用时，问题仍然很复杂：

先，架构不兼容。现存的TTT需要引入全新的汇聚层，以致替换驻扎力机制，致须重新运行作念预测验。

其次，计较率低。现存的TTT采纳个Token个Token的规定新，法充分运用GPU/TPU的并行计较才调。

还有化见识不匹配的问题。现存TTT多采纳重建见识（reconstruction），只让模子记取刻下的词，而不是为了推断下个词策画。也等于说，与话语模子中枢的“推断下个Token”的任务不匹配。

针对这些问题，来自字节Seed和北京大学的护士团队念念到了个小妙招：

不新增层，也不改架构，平直把Transformer里本来就有的MLP模块，当成大模子的“临时小脑”。

这个名为In-Place TTT（原地测试时测验）的案，让TTT不错行为即插即用的模块，缝集成到现存的预测验大模子中。

实考据明，Qwen3-4B、Llama3.1-8B、Qwen3-14B在装备In-Place TTT之后赤峰塑料挤出机设备，都原地变强了，况且在长文本任务上提高尤为彰着。

这篇论文依然中了ICLR 2026 Oral。

让大模子在理时“原地改参数”

话未几说，照旧来看论文的详确内容。

In-Place TTT中枢要经管的问题，是在不折腾模子架构的前提下，隔热条PA66让大模子在理/酬劳问题时，也能偷偷新我方，适配刻下的陡立文。

终了即插即用，字节Seed和北大的护士东谈主员主要作念了3点立异。

原地架构策画

在In-Place TTT中，护士东谈主员奥秘地复用了Transformer中处不在的MLP（多层感知机）。

他们将MLP的后个投影矩阵Wdown行为快速权重（fast weights），在理时进行原地新。

这样就需引入新的用层来处理快速权重。依然训好的大模子也不错拿来平直用，不再行测验。

话语模子对都的化见识

蓝本的TTT只让模子“记取刻下Token”，前文依然提到，这与话语模子的化见识是不致的。

为此，In-Place TTT策画了门针对自归来话语模子的化见识：

通过引入维卷积（Conv1D）和投影矩阵，使TTT的见识值包含了将来 Token的信息，从而显式地与“推断下个Token”的任务对都。

护士东谈主员还分析证实，这种作念法能促使快速权重压缩对将来推断有效的信息，从而有提高模子的陡立体裁习才调。

的块新机制

In-Place TTT是对MLP进行校正，保留了原有的驻扎力层，这就使得该法不错终了分块新，毋庸再逐Token去向理。

结陡立文并行时候，In-Place能终了的浑沌量和计较率，撑抓长的陡立文。

实验标明，In-Place TTT能大幅提高现存模子（如Qwen3-4B）在128K以致256K长陡立文任务中的施展。

在重新测验的对比中，也于其他TTT法。

护士团队

In-Place TTT的论文作是冯古豪和罗胜杰。

冯古豪现在就读于北京大学，是字节Seed的实习生。

文安县建仓机械厂

罗胜杰相同毕业于北大，师从立威莳植和本文通信作家贺笛莳植。

本文的另位通信作家是字节Seed的Wenhao Huang。

论文地址：

https://arxiv.org/abs/2604.06169v1

相关词条:玻璃棉毡塑料挤出机预应力钢绞线铁皮保温万能胶生产厂家

1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定，并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方，并积极配合修改。
3.凡用户访问本网页，均表示默认详情页的描述，不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》，以此来变相勒索商家索要赔偿的违法恶意行为。

赤峰塑料挤出机设备大模子能“原地”改参数了！字节Seed&北大出品｜ICLR'26

推荐资讯

热点资讯

赤峰塑料挤出机设备 大模子能“原地”改参数了！字节Seed&北大出品｜ICLR'26

推荐资讯

热点资讯

赤峰塑料挤出机设备大模子能“原地”改参数了！字节Seed&北大出品｜ICLR'26