• 你的位置:久碰香蕉线视频在线观看视频 > 品se堂永久免费的论坛 >

  • 小二先生 调教 谷歌新架构一战成名, 挑战Transformer
    发布日期:2025-01-16 02:13    点击次数:162

    小二先生 调教 谷歌新架构一战成名, 挑战Transformer

    念念挑战Transformer的新架构有好多小二先生 调教,来自谷歌的“正宗”承袭者Titan架构更受善良。

    英伟达把测试技术狡计(Test-timeComputing)称为大模子的第三个ScalingLaw。

    OpenAI把它用在推理(Reasoning),谷歌此次把它用在了牵记(Memory)。

    一作AliBehrouz暗示:

    Titans比Transformers和当代线性RNN更高效,况兼可以灵验地膨胀到朝上200万高下文窗口,性能比GPT4、Llama3等大模子更好。

    他还解释了这篇掂量的动机,团队以为Transformer中的庄重力机制发扬为短期牵记,因此还需要一个能记着很久以前信息的神经牵记模块。

    新的长久牵记模块

    提到牵记,众人可能会念念到LSTM、Transformer等经典模子,它们从不同角度模拟了东谈主脑牵记,但仍有局限性:

    要么将数据压缩到固定大小的隐景色,容量有限;

    要么可以捕捉长程依赖,但狡计支拨随序列长度平常级增长。

    超碰在线视频

    况兼,只是记着查考数据在骨子使用时可能莫得匡助,因为测试数据可能在散播外。

    为此,Titans团队筹画将以前信息编码到神经网罗的参数中,查考了一个在线元模子(Onlinemeta-model),该模子学习如安在测试时记着/健忘特定数据。

    他们从神悉口头学中吸收灵感,设想了一个神经长久牵记模块,它鉴戒了东谈主脑旨趣:

    猜测以外的事件(即“惊喜”)更容易被记着。‍

    惊喜进度由牵记模块对输入的梯度来量度,梯度越大评释输入越出东谈主猜测。

    引入动量机制和渐忘机制,前者将短期内的惊喜鸠合起来造成长久牵记,后者可以擦除不再需要的旧牵记,堤防牵记溢出。

    牵记模块由多层MLP构成小二先生 调教,可以存储深头绪的数据概述,比传统的矩阵牵记更巨大。

    这种在线元学习范式,幸免了模子记着无须的查考数据细节,而是学到了若何凭证新数据疏浚我方,具有更好的泛化才能。

    另外,团队还考证了这个模块可以并行狡计。

    若何将这个巨大的牵记模块融入深度学习架构中呢?

    为此,Titans建议了三种变体:

    MAC,牵记算作高下文

    将长久牵记和握久牵记(编码任务知识的不变参数)算作现时输入的高下文,一皆输入给attention。

    MAG,牵记算作门

    在牵记模块和滑动窗口attention两个分支上进行门控交融。

    MAL,牵记算作层

    将牵记模块算作零丁的一层,压缩历史信息后再输入给attention。

    在践诺中,发现每种方法都有我方的优缺点。

    Titans在话语建模、学问推理、技术序列瞻望等任务上全面卓越Transformer和Mamba等各路架构的SOTA模子。

    况兼仅靠长久牵记模块(LMM,Long-termMemoryModule)自身,就在多个任务上打败基线。

    解释了即使莫得短期牵记(也便是Attention),该机制也具备零丁学习的才能。

    在长文本中寻找细粒度陈迹的“大海捞针”测试中,序列长度从2k增多到16k,准确率保握在90%傍边。

    但团队以为,这些通用的测试仍是体现不出Titans在长文本上的上风。

    在另一项需要对散播在极长文档中的事实作念推理的任务中,Titans发扬朝上了GPT4、Mamba等,以及Llama3.1+RAG的系统。

    另外皮技术序列瞻望、DNA序列建模等特定任务中,Titans也获取可以的发扬。

    三位作家来自GoogleResearchNYC算法和优化团队,当今还没被归并到GoogleDeepMind。

    一作是AliBehrouz来自康奈尔大学的实习生。

    钟沛林是清华姚班学友,博士毕业于哥伦比亚大学,2021年起加入谷歌任掂量科学家。

    2016年,钟沛林本科技术的一作论文被顶会STOC2016继承,是初度有中邦本科生在STOC上发表一作论文。

    领队的VahabMirrokni是GoogleFellow以及VP。

    团队暗示Titians是用Pytorch和Jax中终了的,筹画很快提供用于查考和评估模子的代码。

    论文地址:https://arxiv.org/abs/2501.00663v1

    参考运动:[1]https://x.com/behrouz_ali/status/1878859086227255347小二先生 调教





Powered by 久碰香蕉线视频在线观看视频 @2013-2022 RSS地图 HTML地图

Copyright Powered by站群系统 © 2013-2024