产品展示

赤峰塑料挤出机设备 大模子能“原地”改参数了!字节Seed&北大出品|ICLR'26

发布日期:2026-06-01 21:27 点击次数:194
塑料挤出机

鱼羊 发自 凹非寺赤峰塑料挤出机设备

量子位 | 公众号 QbitAI

字节Seed新护士,让大模子能“原地改参数”了。

既毋庸改模子结构,也毋庸再行测验,还跑得很快。

具体是这样个情况。智能体期间嘛,多数知谈模子们靠近的任务运行变得越来越复杂、陡立文越来越长。

如何让大模子边干活边学习,不停允洽新的信息,而不是在长陡立文中缓缓崩溃,依然成为AI圈护士的大。

测试时测验(TTT)让模子鄙俚在理时新部分参数,但试验应用时,问题仍然很复杂:

先,架构不兼容。现存的TTT需要引入全新的汇聚层,以致替换驻扎力机制,致须重新运行作念预测验。

其次,计较率低。现存的TTT采纳个Token个Token的规定新,法充分运用GPU/TPU的并行计较才调。

还有化见识不匹配的问题。现存TTT多采纳重建见识(reconstruction),只让模子记取刻下的词,而不是为了推断下个词策画。也等于说,与话语模子中枢的“推断下个Token”的任务不匹配。

针对这些问题,来自字节Seed和北京大学的护士团队念念到了个小妙招:

不新增层,也不改架构,平直把Transformer里本来就有的MLP模块,当成大模子的“临时小脑”。

这个名为In-Place TTT(原地测试时测验)的案,让TTT不错行为即插即用的模块,缝集成到现存的预测验大模子中。

实考据明,Qwen3-4B、Llama3.1-8B、Qwen3-14B在装备In-Place TTT之后赤峰塑料挤出机设备,都原地变强了,况且在长文本任务上提高尤为彰着。

这篇论文依然中了ICLR 2026 Oral。

让大模子在理时“原地改参数”

话未几说,照旧来看论文的详确内容。

In-Place TTT中枢要经管的问题,是在不折腾模子架构的前提下,隔热条PA66让大模子在理/酬劳问题时,也能偷偷新我方,适配刻下的陡立文。

终了即插即用,字节Seed和北大的护士东谈主员主要作念了3点立异。

原地架构策画

在In-Place TTT中,护士东谈主员奥秘地复用了Transformer中处不在的MLP(多层感知机)。

他们将MLP的后个投影矩阵Wdown行为快速权重(fast weights),在理时进行原地新。

这样就需引入新的用层来处理快速权重。依然训好的大模子也不错拿来平直用,不再行测验。

话语模子对都的化见识

蓝本的TTT只让模子“记取刻下Token”,前文依然提到,这与话语模子的化见识是不致的。

为此,In-Place TTT策画了门针对自归来话语模子的化见识:

通过引入维卷积(Conv1D)和投影矩阵,使TTT的见识值包含了将来 Token的信息,从而显式地与“推断下个Token”的任务对都。

护士东谈主员还分析证实,这种作念法能促使快速权重压缩对将来推断有效的信息,从而有提高模子的陡立体裁习才调。

的块新机制

In-Place TTT是对MLP进行校正,保留了原有的驻扎力层,这就使得该法不错终了分块新,毋庸再逐Token去向理。

结陡立文并行时候,In-Place能终了的浑沌量和计较率,撑抓长的陡立文。

实验标明,In-Place TTT能大幅提高现存模子(如Qwen3-4B)在128K以致256K长陡立文任务中的施展。

在重新测验的对比中,也于其他TTT法。

护士团队

In-Place TTT的论文作是冯古豪和罗胜杰。

冯古豪现在就读于北京大学,是字节Seed的实习生。

文安县建仓机械厂

罗胜杰相同毕业于北大,师从立威莳植和本文通信作家贺笛莳植。

本文的另位通信作家是字节Seed的Wenhao Huang。

论文地址:

https://arxiv.org/abs/2604.06169v1

相关词条:玻璃棉毡     塑料挤出机     预应力钢绞线    铁皮保温    万能胶生产厂家

1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定,并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方,并积极配合修改。
3.凡用户访问本网页,均表示默认详情页的描述,不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》,以此来变相勒索商家索要赔偿的违法恶意行为。

推荐资讯

热点资讯

Powered by 肇庆异型材设备价格_建仓机械 RSS地图 HTML地图

Copyright © 2025-2035