
鱼羊 发自 凹非寺赤峰塑料挤出机设备
量子位 | 公众号 QbitAI
字节Seed新护士,让大模子能“原地改参数”了。
既毋庸改模子结构,也毋庸再行测验,还跑得很快。
具体是这样个情况。智能体期间嘛,多数知谈模子们靠近的任务运行变得越来越复杂、陡立文越来越长。
如何让大模子边干活边学习,不停允洽新的信息,而不是在长陡立文中缓缓崩溃,依然成为AI圈护士的大。
测试时测验(TTT)让模子鄙俚在理时新部分参数,但试验应用时,问题仍然很复杂:
先,架构不兼容。现存的TTT需要引入全新的汇聚层,以致替换驻扎力机制,致须重新运行作念预测验。
其次,计较率低。现存的TTT采纳个Token个Token的规定新,法充分运用GPU/TPU的并行计较才调。
还有化见识不匹配的问题。现存TTT多采纳重建见识(reconstruction),只让模子记取刻下的词,而不是为了推断下个词策画。也等于说,与话语模子中枢的“推断下个Token”的任务不匹配。
针对这些问题,来自字节Seed和北京大学的护士团队念念到了个小妙招:
不新增层,也不改架构,平直把Transformer里本来就有的MLP模块,当成大模子的“临时小脑”。
这个名为In-Place TTT(原地测试时测验)的案,让TTT不错行为即插即用的模块,缝集成到现存的预测验大模子中。
实考据明,Qwen3-4B、Llama3.1-8B、Qwen3-14B在装备In-Place TTT之后赤峰塑料挤出机设备,都原地变强了,况且在长文本任务上提高尤为彰着。
这篇论文依然中了ICLR 2026 Oral。
让大模子在理时“原地改参数”话未几说,照旧来看论文的详确内容。
In-Place TTT中枢要经管的问题,是在不折腾模子架构的前提下,隔热条PA66让大模子在理/酬劳问题时,也能偷偷新我方,适配刻下的陡立文。
终了即插即用,字节Seed和北大的护士东谈主员主要作念了3点立异。
原地架构策画在In-Place TTT中,护士东谈主员奥秘地复用了Transformer中处不在的MLP(多层感知机)。
他们将MLP的后个投影矩阵Wdown行为快速权重(fast weights),在理时进行原地新。
这样就需引入新的用层来处理快速权重。依然训好的大模子也不错拿来平直用,不再行测验。
话语模子对都的化见识
蓝本的TTT只让模子“记取刻下Token”,前文依然提到,这与话语模子的化见识是不致的。
为此,In-Place TTT策画了门针对自归来话语模子的化见识:
通过引入维卷积(Conv1D)和投影矩阵,使TTT的见识值包含了将来 Token的信息,从而显式地与“推断下个Token”的任务对都。
护士东谈主员还分析证实,这种作念法能促使快速权重压缩对将来推断有效的信息,从而有提高模子的陡立体裁习才调。
的块新机制In-Place TTT是对MLP进行校正,保留了原有的驻扎力层,这就使得该法不错终了分块新,毋庸再逐Token去向理。
结陡立文并行时候,In-Place能终了的浑沌量和计较率,撑抓长的陡立文。
实验标明,In-Place TTT能大幅提高现存模子(如Qwen3-4B)在128K以致256K长陡立文任务中的施展。
在重新测验的对比中,也于其他TTT法。
护士团队
In-Place TTT的论文作是冯古豪和罗胜杰。
冯古豪现在就读于北京大学,是字节Seed的实习生。
文安县建仓机械厂罗胜杰相同毕业于北大,师从立威莳植和本文通信作家贺笛莳植。
本文的另位通信作家是字节Seed的Wenhao Huang。
论文地址:
https://arxiv.org/abs/2604.06169v1相关词条:玻璃棉毡 塑料挤出机 预应力钢绞线 铁皮保温 万能胶生产厂家1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定,并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方,并积极配合修改。
3.凡用户访问本网页,均表示默认详情页的描述,不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》,以此来变相勒索商家索要赔偿的违法恶意行为。