114倍信息壓縮
明敏 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
谷歌大改Transformer,“無限”長度上下文來了。
現(xiàn)在,1B大模型上下文長度可擴(kuò)展到1M(100萬token,大約相當(dāng)于10部小說),并能完成Passkey檢索任務(wù)。
8B大模型在500K上下文長度的書籍摘要任務(wù)中,拿下最新SOTA。
這就是谷歌最新提出的Infini-attention機(jī)制(無限注意力)。

它能讓Transformer架構(gòu)大模型在有限的計算資源里處理無限長的輸入,在內(nèi)存大小上實(shí)現(xiàn)114倍壓縮比。
什么概念?
就是在內(nèi)存大小不變的情況下,放進(jìn)去114倍多的信息。好比一個存放100本書的圖書館,通過新技術(shù)能存儲11400本書了。
這項(xiàng)最新成果立馬引發(fā)學(xué)術(shù)圈關(guān)注,大佬紛紛圍觀。

加之最近DeepMind也改進(jìn)了Transformer架構(gòu),使其可以動態(tài)分配計算資源,以此提高訓(xùn)練效率。
有人感慨,基于最近幾個新進(jìn)展,感覺大模型越來越像一個包含高度可替換、商品化組件的軟件棧了。

引入壓縮記憶
該論文核心提出了一種新機(jī)制Infini-attention。
它通過將壓縮記憶(compressive memory)整合到線性注意力機(jī)制中,用來處理無限長上下文。
壓縮記憶允許模型在處理新輸入時保留和重用之前的上下文信息。它通過固定數(shù)量的參數(shù)來存儲和回憶信息,而不是隨著輸入序列長度的增加而增加參數(shù)量,能減少內(nèi)存占用和計算成本。
線性注意力機(jī)制不同于傳統(tǒng)Transformer中的二次方復(fù)雜度注意力機(jī)制,它能通過更小的計算開銷來檢索和更新長期記憶。
在Infini-attention中,舊的KV狀態(tài)({KV}s-1)被存儲在壓縮記憶中,而不是被丟棄。
通過將查詢與壓縮記憶中存儲的鍵值進(jìn)行匹配,模型就可以檢索到相關(guān)的值。
PE表示位置嵌入,用于給模型提供序列中元素的位置信息。

對比來看Transformer-XL,它只緩存最后一段KV狀態(tài),在處理新的序列段時就會丟棄舊的鍵值對,所以它只能保留最近一段的上下文信息。

對比幾種不同Transformer模型可處理上下文的長度和內(nèi)存占用情況。
Infini-attention能在內(nèi)存占用低的情況下,有效處理非常長的序列。

Infini-attention在訓(xùn)練后,分化出了兩種不同類型的注意力頭,它們協(xié)同處理長期和短期上下文信息。
- 專門化的頭(Specialized heads):這些頭在訓(xùn)練過程中學(xué)習(xí)到了特定的功能,它們的門控得分(gating score)接近0或1。這意味著它們要么通過局部注意力機(jī)制處理當(dāng)前的上下文信息,要么從壓縮記憶中檢索信息。
- 混合頭(Mixer heads):這些頭的門控得分接近0.5,它們的作用是將當(dāng)前的上下文信息和長期記憶內(nèi)容聚合到單一的輸出中。

研究團(tuán)隊(duì)將訓(xùn)練長度增加到100K,在Arxiv-math數(shù)據(jù)集上進(jìn)行訓(xùn)練。
在長下文語言建模任務(wù)中,Infini-attention在保持低內(nèi)存占用的同時,困惑度更低。
對比來看,同樣情況下Memorizing Transformer存儲參數(shù)所需的內(nèi)存是Infini-attention的114倍。
消融實(shí)驗(yàn)比較了“線性”和“線性+增量”記憶兩種模式,結(jié)果顯示性能相當(dāng)。

實(shí)驗(yàn)結(jié)果顯示,即使在輸入只有5K進(jìn)行微調(diào)的情況下,Infini-Transformer可成功搞定1M長度(100萬)的passkey檢索任務(wù)。

在處理長達(dá)500K長度的書籍摘要任務(wù)時,Infini-Transformer達(dá)到最新SOTA。

Bard成員參與研究
該研究由谷歌團(tuán)隊(duì)帶來。
其中一位作者(Manaal Faruqui)在Bard團(tuán)隊(duì),領(lǐng)導(dǎo)研究Bard的模型質(zhì)量、指令遵循等問題。

最近,DeepMind的一項(xiàng)工作也關(guān)注到了高效處理長序列數(shù)據(jù)上。他們提出了兩個新的RNN模型,在高效處理長序列時還實(shí)現(xiàn)了和Transformer模型相當(dāng)?shù)男阅芎托省?span style="display:none">1Tx速刷資訊——每天刷點(diǎn)最新資訊,了解這個世界多一點(diǎn)SUSHUAPOS.COM

感覺到谷歌最近的研究重點(diǎn)之一就是長文本,論文在陸續(xù)公布。
網(wǎng)友覺得,很難了解哪些是真正開始推行使用的,哪些只是一些研究員心血來潮的成果。
不過想象一下,如果有一些初創(chuàng)公司專門做內(nèi)存數(shù)據(jù)庫,但是模型能已經(jīng)能實(shí)現(xiàn)無限內(nèi)存了,這可真是太有趣了。

論文地址:
https://arxiv.org/abs/2404.07143
參考鏈接:
[1]https://twitter.com/Joby_Fi/status/1778240236201386072
[2]https://twitter.com/omarsar0/status/1778480897198612839
[3]https://twitter.com/swyx/status/1778553757762252863
本文鏈接:谷歌爆改Transformer,“無限注意力”讓1B小模型讀完10部小說http://www.sq15.cn/show-2-4818-0.html
聲明:本網(wǎng)站為非營利性網(wǎng)站,本網(wǎng)頁內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻(xiàn),不代表本站觀點(diǎn),本站不承擔(dān)任何法律責(zé)任。天上不會到餡餅,請大家謹(jǐn)防詐騙!若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。
上一篇: 《SD高達(dá)G世紀(jì) 火線縱橫》公開三版本畫面對比及詳細(xì)規(guī)格(火線縱橫公開三版本畫面對比及詳細(xì)規(guī)格)