首頁 > 科技

谷歌爆改Transformer，“無限注意力”讓1B小模型讀完10部小說

2024-04-13 16:03:42 來源：量子位

觀看：202

114倍信息壓縮

明敏發(fā)自凹非寺
量子位 | 公眾號 QbitAI

谷歌大改Transformer，“無限”長度上下文來了。

現(xiàn)在，1B大模型上下文長度可擴(kuò)展到1M（100萬token，大約相當(dāng)于10部小說），并能完成Passkey檢索任務(wù)。

8B大模型在500K上下文長度的書籍摘要任務(wù)中，拿下最新SOTA。

這就是谷歌最新提出的Infini-attention機(jī)制（無限注意力）。

它能讓Transformer架構(gòu)大模型在有限的計算資源里處理無限長的輸入，在內(nèi)存大小上實(shí)現(xiàn)114倍壓縮比。

什么概念？

就是在內(nèi)存大小不變的情況下，放進(jìn)去114倍多的信息。好比一個存放100本書的圖書館，通過新技術(shù)能存儲11400本書了。

這項(xiàng)最新成果立馬引發(fā)學(xué)術(shù)圈關(guān)注，大佬紛紛圍觀。

加之最近DeepMind也改進(jìn)了Transformer架構(gòu)，使其可以動態(tài)分配計算資源，以此提高訓(xùn)練效率。

有人感慨，基于最近幾個新進(jìn)展，感覺大模型越來越像一個包含高度可替換、商品化組件的軟件棧了。

引入壓縮記憶

該論文核心提出了一種新機(jī)制Infini-attention。

它通過將壓縮記憶（compressive memory）整合到線性注意力機(jī)制中，用來處理無限長上下文。

壓縮記憶允許模型在處理新輸入時保留和重用之前的上下文信息。它通過固定數(shù)量的參數(shù)來存儲和回憶信息，而不是隨著輸入序列長度的增加而增加參數(shù)量，能減少內(nèi)存占用和計算成本。

線性注意力機(jī)制不同于傳統(tǒng)Transformer中的二次方復(fù)雜度注意力機(jī)制，它能通過更小的計算開銷來檢索和更新長期記憶。

在Infini-attention中，舊的KV狀態(tài)（{KV}s-1）被存儲在壓縮記憶中，而不是被丟棄。

通過將查詢與壓縮記憶中存儲的鍵值進(jìn)行匹配，模型就可以檢索到相關(guān)的值。

PE表示位置嵌入，用于給模型提供序列中元素的位置信息。

對比來看Transformer-XL，它只緩存最后一段KV狀態(tài)，在處理新的序列段時就會丟棄舊的鍵值對，所以它只能保留最近一段的上下文信息。

對比幾種不同Transformer模型可處理上下文的長度和內(nèi)存占用情況。

Infini-attention能在內(nèi)存占用低的情況下，有效處理非常長的序列。

Infini-attention在訓(xùn)練后，分化出了兩種不同類型的注意力頭，它們協(xié)同處理長期和短期上下文信息。

專門化的頭（Specialized heads）：這些頭在訓(xùn)練過程中學(xué)習(xí)到了特定的功能，它們的門控得分（gating score）接近0或1。這意味著它們要么通過局部注意力機(jī)制處理當(dāng)前的上下文信息，要么從壓縮記憶中檢索信息。
混合頭（Mixer heads）：這些頭的門控得分接近0.5，它們的作用是將當(dāng)前的上下文信息和長期記憶內(nèi)容聚合到單一的輸出中。

研究團(tuán)隊(duì)將訓(xùn)練長度增加到100K，在Arxiv-math數(shù)據(jù)集上進(jìn)行訓(xùn)練。

在長下文語言建模任務(wù)中，Infini-attention在保持低內(nèi)存占用的同時，困惑度更低。

對比來看，同樣情況下Memorizing Transformer存儲參數(shù)所需的內(nèi)存是Infini-attention的114倍。

消融實(shí)驗(yàn)比較了“線性”和“線性+增量”記憶兩種模式，結(jié)果顯示性能相當(dāng)。

實(shí)驗(yàn)結(jié)果顯示，即使在輸入只有5K進(jìn)行微調(diào)的情況下，Infini-Transformer可成功搞定1M長度（100萬）的passkey檢索任務(wù)。

在處理長達(dá)500K長度的書籍摘要任務(wù)時，Infini-Transformer達(dá)到最新SOTA。

Bard成員參與研究

該研究由谷歌團(tuán)隊(duì)帶來。

其中一位作者（Manaal Faruqui）在Bard團(tuán)隊(duì)，領(lǐng)導(dǎo)研究Bard的模型質(zhì)量、指令遵循等問題。

最近，DeepMind的一項(xiàng)工作也關(guān)注到了高效處理長序列數(shù)據(jù)上。他們提出了兩個新的RNN模型，在高效處理長序列時還實(shí)現(xiàn)了和Transformer模型相當(dāng)?shù)男阅芎托省?span style="display:none">1Tx速刷資訊——每天刷點(diǎn)最新資訊，了解這個世界多一點(diǎn)SUSHUAPOS.COM

感覺到谷歌最近的研究重點(diǎn)之一就是長文本，論文在陸續(xù)公布。

網(wǎng)友覺得，很難了解哪些是真正開始推行使用的，哪些只是一些研究員心血來潮的成果。

不過想象一下，如果有一些初創(chuàng)公司專門做內(nèi)存數(shù)據(jù)庫，但是模型能已經(jīng)能實(shí)現(xiàn)無限內(nèi)存了，這可真是太有趣了。

論文地址：
https://arxiv.org/abs/2404.07143

參考鏈接：
[1]https://twitter.com/Joby_Fi/status/1778240236201386072
[2]https://twitter.com/omarsar0/status/1778480897198612839
[3]https://twitter.com/swyx/status/1778553757762252863

本文鏈接：谷歌爆改Transformer，“無限注意力”讓1B小模型讀完10部小說http://www.sq15.cn/show-2-4818-0.html

聲明：本網(wǎng)站為非營利性網(wǎng)站，本網(wǎng)頁內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻(xiàn)，不代表本站觀點(diǎn)，本站不承擔(dān)任何法律責(zé)任。天上不會到餡餅，請大家謹(jǐn)防詐騙！若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系，我們將在第一時間刪除處理。

上一篇：《SD高達(dá)G世紀(jì) 火線縱橫》公開三版本畫面對比及詳細(xì)規(guī)格（火線縱橫公開三版本畫面對比及詳細(xì)規(guī)格）

下一篇：魔改RNN挑戰(zhàn)Transformer，RWKV上新：推出2種新架構(gòu)模型

中文字幕亚洲欧美一区二区三区_亚洲精品菠萝久久久久久久_日本成人免费视频_狠狠躁少妇一区二区三区_国产精品中文字幕久久久_国产乱子伦农村叉叉叉_麻豆tv免费在线观看_av在线这里只有精品_色吧亚洲视频_嫩草影院一二三

谷歌爆改Transformer，“無限注意力”讓1B小模型讀完10部小說

引入壓縮記憶

Bard成員參與研究

熱門資訊

推薦資訊

科技最熱文章