你的位置:ag百家乐真实性 > ag百家乐两个平台对打可以吗 >
AG真人旗舰厅百家乐 近8年后,谷歌Transformer继任者「Titans」来了,荆棘文追想瓶颈被冲破
发布日期:2024-10-08 23:13 点击次数:123
机器之心报谈
剪辑:杜伟
正如论文一作所说,「新架构 Titans 既比 Transformer 和当代线性 RNN 更有用,也比 GPT-4 等超大型模子性能更强。」终于,在 2017 年推出影响 AI 行业长达 8 年的 Transformer 架构之后,谷歌带来了全新的架构 Titans。此次,谷歌的重心是将推理规模相当进犯的测试时(test-time)打算用在了追想(memory)层面。
在谈到推出 Titans 的初志时,论文一作 Ali Behrouz 示意,「防护力机制一直是大大宗 LLM 进展的进犯构成部分,不外它无法彭胀到长荆棘文。因此,Titans 应运而出,它成为了一种同期具备防护力机制和元荆棘文追想的结构,不错在测试时学习追想。该架构不错将荆棘文窗口彭胀到 200 万 tokens。」
张开剩余93%图源:https://x.com/behrouz_ali/status/1878859086227255347
这意味着,谷歌 Transformer 迎来了它的「继任者」。
图源:https://x.com/mark_k/status/1878896628654022993
多年来,盘问东谈主员一直在无为琢磨何如有用地诈欺轮回模子和防护力机制,其中轮回模子旨在将数据压缩到固定大小的追想(称为隐情状)中,而防护力机制允许处理总共这个词荆棘文窗口,捕捉总共 token 的径直依赖。不外,更准确的依赖建模时常伴跟着二次老本,导致模子只可处理固定长度的荆棘文。
因此,谷歌建议了一种新的恒久神经追想模块(neural memory module),它大概学习追想历史荆棘文,并匡助防护力机制在诈欺夙昔已久信息的同期处理现时荆棘文。扫尾标明,这种神经追想具有快速并行化查考的上风,同期还能保捏快速推理。
从追想的角度来看,谷歌合计防护力机制天然受限于荆棘文但不错更准确地建模依赖关系,因此不错起到短期追想的作用;而神经追想大概对数据进行追想,起到了恒久、更捏久的追想作用。基于这两个模块,谷歌引入了一个全新的系列架构 —— Titans,通过三种变体有用地将追想会通到该系统架构中,它们划分是追想当作荆棘文(Memory as a Context,MAC)、追想当作门(Memory as a Gate,MAG)和追想当作层(Memory as a Layer,MAL)。
在言语建模、知识推理、基因组学和时序瞻望任务上的履行扫尾标明,Titans 架构比 Transformer 和频年来的当代线性轮回模子更有用。另外,在大海捞针(needle-in-haystack)中,Titans 架构大概有用地彭胀到逾越 200 万 tokens 的荆棘文窗口,而且比基准模子终明晰更高的准确性。
论文标题:Titans: Learning to Memorize at Test Time 论文地址:https://arxiv.org/pdf/2501.00663v1另外,论文作家之一 Peilin Zhong 为谷歌 NYC 算法与优化团队的盘问科学家,2021 年加入谷歌。他本科毕业于清华姚班,博士毕业于哥伦比亚大学。
现在,仍是有东谈主搞出了联系 Titans 架构的非官方终了,感兴趣兴趣的读者不错去看一下。
GitHub 地址:https://github.com/lucidrains/titans-pytorch
学习测试时追想
谷歌详确先容了恒久神经追想模块,它成为了一种不错在测试时学习追想的元模子。
恒久追想
为了设想一个恒久神经追想模块,咱们需要模子大概将夙昔历史的概述编码到其参数中。因此,一个简短的想路是查考神经收集并期望它大概记取我方的查考数据,然则追想险些一直是神经收网络令东谈主头疼的餍足,它遣散了模子的泛化能力,还激发隐秘问题,因此导致测试时性能欠安。
基于此,谷歌合计需要一个在线元模子来学习如安在测试时追想或健忘数据。在这种征战下,模子学习一个大概追想的函数,但不会过拟合查考数据,从而在测试时终了更好的泛化性能。
学习经过和偶然目的(Learning Process and Surprise Metric)。查考恒久追想的要道想路是将查考视为在线学习问题,其中将夙昔信息 x_1, …, x_t-1 压缩到恒久神经追想模块中。东谈主类时常大概记取背离预期(令东谈主骇怪)的事件,受此启发,模子偶然不错简短界说为它联系于输入的梯度。梯度越大,输入数据与夙昔数据的偏差就越大。因此,使用这个偶然分数,不错将追想更新如下:
这一偶然目的不错导致在要紧偶然时刻之后出现进犯信息缺失。从东谈主类追想的角度来看,即使一个事件令东谈主难忘,但它可能不会在永劫辰内捏续让咱们感到骇怪。为了改造这一餍足,谷歌将偶然目的判辨为了(1)夙昔偶然,它揣测最近夙昔的偶然进程;(2)瞬时偶然,它揣测传入数据的偶然。
并行化恒久追想查考
当作函数块的参数(Parameters as the Function of Chunks)。谷歌莫得让参数 a_t、θ_t 和 η_t 依赖于输入,而是让它们成为函数块。尽管失去了抒发能力,但不错匡助更快地查考。在这种情况下,谷歌在每个块中对每一个 a、θ 和 η 齐使用了调换的值。在履行中,谷歌将这些参数当作了 token 的函数,并示意,这种简化(即当作块函数)可能是异日职责感兴趣兴趣的场地,以便以更高效的格式查考更大的模子。
下图 1 展示了何如并行并在使用矩阵乘法时完成神经追想查考。
何如会通追想?
接下来需要处置的一个进犯问题是:何如有用且高效地将神经追想会通到深度学习架构中?
从追想的角度来看,Transformer 中的 K 和 V 矩阵对不错解说为期许追想块。由于它们对依赖关系的精准建模以及有限的荆棘文窗口,它们不错被用作短期追想模块,以处理现时荆棘文窗口大小。另一方面,神经追想大概束缚从数据中学习并存储在其权重中,因而不错说明恒久追想的作用。谷歌通过三个不同的 Titans 变体往返复以上问题。
追想当作荆棘文(Memory as a Context,AG百家乐怎么玩才能赢MAC)
Titans 的第一个变体 MAC 的架构设想如下图 2 所示,将追想当作现时信息的荆棘文。
该架构具有两个要道上风:一是防护力模块同期具有历史和现时荆棘文,大概字据现时数据决定是否需要恒久追想信息,二是防护力模块帮生恒久追想只存储来自现时荆棘文的有用信息。这意味着,并非每个片断中的总共 token 齐是有用的,追想总共 token 可能会导致内存溢出。因此,防护力模块匡助追想了解哪些信息是有用的,从而更好地料理内存容量。
另外,在测试时,(i)捏久追想参数是固定的,它们编码了联系任务的知识,不应编削;(ii)防护力模块权重是荆棘体裁习器;(iii)恒久追想模块在测试时仍然学习(追想)信息。也即是说,即使在测试时,神经追想的权重也会更新,这是因为权重对夙昔已久的概述进行了编码。
追想当作门(Memory as a Gate,MAG)
Titans 第二个变体 MAG 的架构设想如下图 4 所示:
在其中一个分支中,谷歌径直使用输入数据来更新恒久追想;在第二个分支中,谷歌使用了滑动窗口防护力(SWA):
该架构的举座防护力掩码如下图 3b 所示,其中滑动窗口防护力(SWA)充任精准的短期追想,而神经追想模块充任模子的衰减追想。该设想也不错看作是多头架构,其中各头的结构不同。
追想当作层(Memory as a Layer,MAL)
Titans 的第三个变体 MAL 使用了深度神经收集,这种架构设想在文件中更为常见,其中搀杂模子堆叠具有齐全或滑动窗口防护力的轮回模子。
给定输入 x,不错得到以下:
其中 SW-Attn 是滑动窗口防护力。
无防护力追想(Memory Without Attention)。从追想的角度来看,谷歌期望追想系统的每个组件齐能孤独职责,即使其他组件受到了干预。因此,即使莫得短期追想(即防护力),恒久追想模块仍然应该是一个强大的模子。谷歌在履行中将这种变体称为 Titans (LMM)。
架构细节
卷积(Convolution)。苦守最近的当代线性轮回模子,谷歌在每个查询、键和值投影后齐会通了一个 1D 深度可分离卷积层。这些 1D 卷积不错进步性能,而且打算高效。
门控(Gating)。谷歌还在最终输出投影之前诈欺线性层进行归一化和门控。
履行扫尾
谷歌在履行部分柔软上述三种 Titans 变体,划分是 MAC、MAG 和 MAL,以及单独的神经追想模块。关于每个模子,谷歌使用了四种尺寸的模子,参数划分是 (i) 170M、(ii) 340M、(iii) 400M 和 (iv) 760M。
言语建模
谷歌领先柔软模子在言语建模和知识推理任务中的困惑度。下表 1 见识了 Titans 变体和三种不同大小(340M、400M 和 760M)基线的扫尾。在包括 Transformer++ 在内的非搀杂模子中,神经追想模块在困惑度和准确度测量方面均赢得了最好性能。
谷歌还发现,Titans 的三种变体(MAC, MAG 和 MAL)齐优于 Samba (Mamba + 防护力)和 Gated DeltaNet-H2(Gated DeltaNet + 防护力)。
大海捞针
下表 2 扫尾透露,与基线比拟,神经追想模块均赢得了最好扫尾。
谷歌将这种超卓的推崇归因于 Titans 与现存序列模子的三个要道各异:(1)与 TTT 比拟,神经追想大概通过使用动量和渐忘机制(即权重衰减)更好地处理追想容量。因此,跟着序列长度的增多,神经追想的性能不会下落,呈现出一致的趋势;(2)与具有门控(渐忘)机制的 Mamba2 比拟,Titans 具有深度非线性追想,从而终明晰更好的追想料理。此外,与神经追想和 DeltaNet 不同,Mamba2 无法移除追想,因此在增多序列长度时,其性能会出现权贵下落;(3)与 DeltaNet 比拟,尽管它大概使用增量规章移除追想,但无法擦除追想,困难渐忘机制。
最终,正如预期的那样,使用 Titans 变体时能看到荒谬或更好的扫尾,其中最好扫尾来自 MAC。
BABILong 基准
在微调征战中,谷歌将微型微调版块的 Titans (MAC) 与其他模子进行了比较。
Titans 和基线的扫尾如下图 6b 所示。Titans 的推崇优于总共模子,致使比 GPT4 这么的超大型模子还要好。此外,与基于 Transformer 的 RMT 等追想模子比拟,Titans 推崇出更好的性能,这主要归功于其强大的追想。
深度追想的影响
接下来的履行评估了深度追想对 wall-clock 查考时辰和模子性能的影响。
下图 7 中见识了 Titans(LMM)和基线的困惑度与序列长度的关系。根由的是,跟着追想深度的增多,该模子不错在总共序列长度上终了更好的困惑度。此外,当模子的参数目较少时,更深的追想模块对序列长度的鲁棒性更强。跟着参数目的增多,总共模子在较长的序列上齐推崇出更好的性能。
时序瞻望
为了展示追想模块在更无为任务中的有用性,谷歌评估了 Titans 在时序瞻望任务中的推崇。扫尾如下表 3 所示,谷歌的神经追想模块优于总共基线,包括基于 Mamba、线性和 Transformer 的架构。
DNA 建模
谷歌还进一步评估了神经追想模块在 DNA 建模任务上的推崇,扫尾如下 4 所示,相较于现时的 SOTA 架构,Titans(LMM)在不同的下流基因组任务中仍具有竞争力。
扫尾
谷歌还对 Titans 与现时 SOTA 序列模子的扫尾进行了比较,下图 9 透露了不同序列长度 x 批大小的模子的查考糊涂量。不错看到,谷歌神经追想模块比 Mamba2 和 Gated DeltaNet 稍慢,不外 Titans (MAL) 比基线和神经追想模块齐要快。
更多本领细节和履行扫尾请参阅原论文AG真人旗舰厅百家乐。
发布于:北京市