8.3K Stars!《多模態(tài)大語(yǔ)言模型綜述》重大升級(jí)

2024-04-11 07:26:04 來(lái)源：量子位

觀看：222

《A Survey on Multimodal Large Language Models》

去年 6 月底，我們?cè)?arXiv 上發(fā)布了業(yè)內(nèi)首篇多模態(tài)大語(yǔ)言模型領(lǐng)域的綜述《A Survey on Multimodal Large Language Models》，系統(tǒng)性梳理了多模態(tài)大語(yǔ)言模型的進(jìn)展和發(fā)展方向，目前論文引用 120+，開(kāi)源 GitHub 項(xiàng)目獲得?8.3K Stars。自論文發(fā)布以來(lái)，我們收到了很多讀者非常寶貴的意見(jiàn)，感謝大家的支持！

去年以來(lái)，我們見(jiàn)證了以 GPT-4V 為代表的多模態(tài)大語(yǔ)言模型(Multimodal Large Language Model，MLLM)的飛速發(fā)展。為此我們對(duì)綜述進(jìn)行了重大升級(jí)，幫助大家全面了解該領(lǐng)域的發(fā)展現(xiàn)狀以及潛在的發(fā)展方向。

8.3K Stars!《多模態(tài)大語(yǔ)言模型綜述》重大升級(jí)

MLLM 發(fā)展脈絡(luò)圖

MLLM 脫胎于近年來(lái)廣受關(guān)注的大語(yǔ)言模型（Large Language Model , LLM），在其原有的強(qiáng)大泛化和推理能力基礎(chǔ)上，進(jìn)一步引入了多模態(tài)信息處理能力。相比于以往的多模態(tài)方法，例如以 CLIP 為代表的判別式，或以 OFA 為代表的生成式，新興的 MLLM 展現(xiàn)出一些典型的特質(zhì)：

（1）模型大。MLLM 通常具有數(shù)十億的參數(shù)量，更多的參數(shù)量帶來(lái)更多的潛力；（2）新的訓(xùn)練范式。為了激活巨大參數(shù)量的潛力，MLLM 采用了多模態(tài)預(yù)訓(xùn)練、多模態(tài)指令微調(diào)等新的訓(xùn)練范式，與之匹配的是相應(yīng)的數(shù)據(jù)集構(gòu)造方式和評(píng)測(cè)方法等。

在這兩種特質(zhì)的加持下，MLLM 涌現(xiàn)出一些以往多模態(tài)模型所不具備的能力，例如給定圖片進(jìn)行 OCR?Free 的數(shù)學(xué)推理、給定圖片進(jìn)行故事創(chuàng)作和理解表情包的深層含義等。

本綜述主要圍繞 MLLM 的基礎(chǔ)形式、拓展延伸以及相關(guān)研究課題進(jìn)行展開(kāi)，具體包括:

MLLM 的基礎(chǔ)構(gòu)成與相關(guān)概念，包括架構(gòu)、訓(xùn)練策略、數(shù)據(jù)和評(píng)測(cè)；
MLLM 的拓展延伸，包括輸入輸出粒度、模態(tài)、語(yǔ)言和場(chǎng)景的支持；
MLLM 的相關(guān)研究課題，包括多模態(tài)幻覺(jué)、多模態(tài)上下文學(xué)習(xí)(Multimodal In-Context Learning，M-ICL)、多模態(tài)思維鏈(Multimodal Chain of Thought，M-CoT)、LLM 輔助的視覺(jué)推理(LLM-Aided Visual Reasoning，LAVR)。

架構(gòu)

對(duì)于多模態(tài)輸入-文本輸出的典型 MLLM，其架構(gòu)一般包括編碼器、連接器以及?LLM。如要支持更多模態(tài)的輸出(如圖片、音頻、視頻)，一般需要額外接入生成器，如下圖所示:

MLLM 架構(gòu)圖

其中，模態(tài)編碼器負(fù)責(zé)將原始的信息(如圖片)編碼成特征，連接器則進(jìn)一步將特征處理成LLM 易于理解的形式，即視覺(jué) Token。LLM 則作為“大腦”綜合這些信息進(jìn)行理解和推理，生成回答。目前，三者的參數(shù)量并不等同，以 Qwen-VL[1]為例，LLM 作為“大腦”參數(shù)量為 7.7B，約占總參數(shù)量的 80.2%，視覺(jué)編碼器次之(1.9B，約占 19.7%)，而連接器參數(shù)量?jī)H有 0.08B。

對(duì)于視覺(jué)編碼器而言，增大輸入圖片的分辨率是提升性能的有效方法。一種方式是直接提升分辨率，這種情況下需要放開(kāi)視覺(jué)編碼器進(jìn)行訓(xùn)練以適應(yīng)更高的分辨率，如 Qwen-VL[1]等。另一種方式是將大分辨率圖片切分成多個(gè)子圖，每個(gè)子圖以低分辨率送入視覺(jué)編碼器中，這樣可以間接提升輸入的分辨率，如 Monkey[2]等工作。

對(duì)于預(yù)訓(xùn)練的 LLM，常用的包括 LLaMA[3]系列、Qwen[4]系列和 InternLM[5]系列等，前者主要支持英文，而后兩者中英雙語(yǔ)支持得更好。就性能影響而言，加大 LLM 的參數(shù)量可以帶來(lái)顯著的性能增益，如 LLaVA-NeXT[6]等工作在 7B/13B/34B 的 LLM 上進(jìn)行實(shí)驗(yàn)，發(fā)現(xiàn)提升LLM 大小可以帶來(lái)各 benchmark 上的顯著提升，在 34B 的模型上更涌現(xiàn)出 zero-shot 的中文能力。除了直接增大 LLM 參數(shù)量，近期火熱的 MoE 架構(gòu)則提供了更高效實(shí)現(xiàn)的可能性，即通過(guò)稀疏計(jì)算的方式，在不增大實(shí)際計(jì)算參數(shù)量的前提下提高總的模型參數(shù)量。

相對(duì)前兩者來(lái)說(shuō)，連接器的重要性略低。例如，MM1[7]通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)，連接器的類型不如視覺(jué) token 數(shù)量(決定之后 LLM 可用的視覺(jué)信息)及圖片的分辨率(決定視覺(jué)編碼器的輸入信息量)重要。

數(shù)據(jù)與訓(xùn)練

MLLM 的訓(xùn)練大致可以劃分為預(yù)訓(xùn)練階段、指令微調(diào)階段和對(duì)齊微調(diào)階段。預(yù)訓(xùn)練階段主要通過(guò)大量配對(duì)數(shù)據(jù)將圖片信息對(duì)齊到 LLM 的表征空間，即讓 LLM 讀懂視覺(jué) Token。指令微調(diào)階段則通過(guò)多樣化的各種類型的任務(wù)數(shù)據(jù)提升模型在下游任務(wù)上的性能，以及模型理解和服從指令的能力。對(duì)齊微調(diào)階段一般使用強(qiáng)化學(xué)習(xí)技術(shù)使模型對(duì)齊人類價(jià)值觀或某些特定需求(如更少幻覺(jué))。

早期工作在第一階段主要使用粗粒度的圖文對(duì)數(shù)據(jù)，如 LAION-5B，這些數(shù)據(jù)主要來(lái)源于互聯(lián)網(wǎng)上的圖片及其附帶的文字說(shuō)明，因此具有規(guī)模大（數(shù) 10 億規(guī)模）但噪聲多、文本短的特點(diǎn)，容易影響對(duì)齊的效果。后來(lái)的工作則探索使用更干凈、文本內(nèi)容更豐富的數(shù)據(jù)做對(duì)齊。如 ShareGPT4V[8]使用 GPT-4V 生成的詳細(xì)描述來(lái)做更細(xì)粒度的對(duì)齊，在一定程度上緩解了對(duì)齊不充分的問(wèn)題，獲得了更好的性能。但由于 GPT-4V 是收費(fèi)的，這種類型的數(shù)據(jù)規(guī)模通常較?。〝?shù)百萬(wàn)規(guī)模）。此外，由于數(shù)據(jù)規(guī)模受限，其包含的世界知識(shí)也是有限的，比如是否能夠識(shí)別出圖像中的建筑為廣州塔。此類世界知識(shí)通常儲(chǔ)備于大規(guī)模的粗粒度圖文對(duì)中。

第二階段的微調(diào)數(shù)據(jù)一方面可以來(lái)源于各種任務(wù)的數(shù)據(jù)，如 VQA 數(shù)據(jù)、OCR 數(shù)據(jù)等，也可以來(lái)源于 GPT-4V 生成的數(shù)據(jù)，如問(wèn)答對(duì)。雖然后者一般能夠生成更復(fù)雜、更多樣化的指令數(shù)據(jù)，但這種方式也顯著地增加了成本。值得一提的是，第二階段的訓(xùn)練中一般還會(huì)混合部分純文本的對(duì)話數(shù)據(jù)，這類數(shù)據(jù)可以視為正則化的手段，保留 LLM 原有的能力與內(nèi)嵌知識(shí)。

第三階段的數(shù)據(jù)主要是針對(duì)于回答的偏好數(shù)據(jù)。這類數(shù)據(jù)通常由人工標(biāo)注收集，因而成本較高。近期出現(xiàn)一些工作使用自動(dòng)化的方法對(duì)來(lái)自不同模型的回復(fù)進(jìn)行偏好排序，如 Silkie[9]通過(guò)調(diào)用 GPT-4V 來(lái)收集偏好數(shù)據(jù)。

其他技術(shù)方向

除了提升模型的基礎(chǔ)能力(如支持的輸入/輸出形式、性能指標(biāo))外，還有一些有意思的問(wèn)題以及待探索的方向。本綜述中主要介紹了多模態(tài)幻覺(jué)、多模態(tài)上下文學(xué)習(xí)(Multimodal In?Context Learning，M-ICL)、多模態(tài)思維鏈(Multimodal Chain of Thought，M-CoT)和 LLM 輔助的視覺(jué)推理(LLM-Aided Visual Reasoning，LAVR)等。

多模態(tài)幻覺(jué)的研究主要關(guān)注模型生成的回答與圖片內(nèi)容不符的問(wèn)題。視覺(jué)和文本本質(zhì)上是異構(gòu)的信息，完全對(duì)齊兩者本身就具有相當(dāng)大的挑戰(zhàn)。增大圖像分辨率和提升訓(xùn)練數(shù)據(jù)質(zhì)量是降低多模態(tài)幻覺(jué)的兩種最直觀的方式，此外我們?nèi)匀恍枰谠砩咸剿鞫嗄B(tài)幻覺(jué)的成因和解法。例如，當(dāng)前的視覺(jué)信息的 Token 化方法、多模態(tài)對(duì)齊的范式、多模態(tài)數(shù)據(jù)和 LLM 存儲(chǔ)知識(shí)的沖突等對(duì)多模態(tài)幻覺(jué)的影響仍需深入研究。

多模態(tài)上下文學(xué)習(xí)技術(shù)為少樣本學(xué)習(xí)方法，旨在使用少量的問(wèn)答樣例提示模型，提升模型的few-shot 性能。提升性能的關(guān)鍵在于讓模型有效地關(guān)注上下文，并將內(nèi)在的問(wèn)題模式泛化到新的問(wèn)題上。以 Flamingo[10]為代表的工作通過(guò)在圖文交錯(cuò)的數(shù)據(jù)上訓(xùn)練來(lái)提升模型關(guān)注上下文的能力。目前對(duì)于多模態(tài)上下文學(xué)習(xí)的研究還比較初步，有待進(jìn)一步探索。

多模態(tài)思維鏈的基本思想是通過(guò)將復(fù)雜的問(wèn)題分解為較簡(jiǎn)單的子問(wèn)題，然后分別解決并匯總。相較于純文本的推理，多模態(tài)的推理涉及更多的信息來(lái)源和更復(fù)雜的邏輯關(guān)系，因此要復(fù)雜得多。當(dāng)前該方面的工作也比較少。

LLM 輔助的視覺(jué)推理方法探索如何利用 LLM 強(qiáng)大的內(nèi)嵌知識(shí)與能力，并借助其他工具，設(shè)計(jì)各種視覺(jué)推理系統(tǒng)，解決各種現(xiàn)實(shí)問(wèn)題。相比于通過(guò)端到端訓(xùn)練獲得單一模型，這類方法一般關(guān)注如何通過(guò)免訓(xùn)練的方式擴(kuò)展和加強(qiáng) LLM 的能力，從而構(gòu)建一個(gè)綜合性的系統(tǒng)。

挑戰(zhàn)和未來(lái)方向

針對(duì) MLLM 的研究現(xiàn)狀，我們進(jìn)行了深入思考，將挑戰(zhàn)與可能的未來(lái)發(fā)展方向總結(jié)如下:

現(xiàn)有 MLLM 處理多模態(tài)長(zhǎng)上下文的能力有限，導(dǎo)致模型在長(zhǎng)視頻理解、圖文交錯(cuò)內(nèi)容理解等任務(wù)中面臨巨大挑戰(zhàn)。以 Gemini 1.5 Pro 為代表的 MLLM 正在掀起長(zhǎng)視頻理解的浪潮，而多模態(tài)圖文交錯(cuò)閱讀理解（即長(zhǎng)文檔中既有圖像也有文本）則相對(duì)空白，很可能會(huì)成為接下來(lái)的研究熱點(diǎn)。
MLLM 服從復(fù)雜指令的能力不足。例如，GPT-4V 可以理解復(fù)雜的指令來(lái)生成問(wèn)答對(duì)甚至包含推理信息，但其他模型這方面的能力則明顯不足，仍有較大的提升空間。
MLLM 的上下文學(xué)習(xí)和思維鏈研究依然處于初步階段，相關(guān)的能力也較弱，亟需相關(guān)底層機(jī)制以及能力提升的研究探索。
開(kāi)發(fā)基于 MLLM 的智能體是一個(gè)研究熱點(diǎn)。要實(shí)現(xiàn)這類應(yīng)用，需要全面提升模型的感知、推理和規(guī)劃能力。
安全問(wèn)題。MLLM 容易受設(shè)計(jì)的惡意攻擊影響，生成有偏的或不良的回答。該方面的相關(guān)研究也仍然欠缺。
目前 MLLM 在訓(xùn)練時(shí)通常都會(huì)解凍 LLM，雖然在訓(xùn)練過(guò)程中也會(huì)加入部分單模態(tài)的文本訓(xùn)練數(shù)據(jù)，但大規(guī)模的多模態(tài)和單模態(tài)數(shù)據(jù)共同訓(xùn)練時(shí)究竟對(duì)彼此互有增益還是互相損害仍然缺乏系統(tǒng)深入的研究。

更詳細(xì)內(nèi)容請(qǐng)閱讀

論文鏈接：
https://arxiv.org/pdf/2306.13549.pdf

項(xiàng)目鏈接：
https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models

本文鏈接：8.3K Stars!《多模態(tài)大語(yǔ)言模型綜述》重大升級(jí)http://www.sq15.cn/show-2-4733-0.html

聲明：本網(wǎng)站為非營(yíng)利性網(wǎng)站，本網(wǎng)頁(yè)內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻(xiàn)，不代表本站觀點(diǎn)，本站不承擔(dān)任何法律責(zé)任。天上不會(huì)到餡餅，請(qǐng)大家謹(jǐn)防詐騙！若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系，我們將在第一時(shí)間刪除處理。

上一篇：剛剛，圖靈獎(jiǎng)揭曉！史上首位數(shù)學(xué)和計(jì)算機(jī)最高獎(jiǎng)“雙料王”出現(xiàn)了

下一篇： 2019年全球云計(jì)算企業(yè)排行榜TOP50（2019年全球云計(jì)算企業(yè)排行榜TOP50）

中文字幕亚洲欧美一区二区三区_亚洲精品菠萝久久久久久久_日本成人免费视频_狠狠躁少妇一区二区三区_国产精品中文字幕久久久_国产乱子伦农村叉叉叉_麻豆tv免费在线观看_av在线这里只有精品_色吧亚洲视频_嫩草影院一二三

8.3K Stars!《多模態(tài)大語(yǔ)言模型綜述》重大升級(jí)

架構(gòu)

數(shù)據(jù)與訓(xùn)練

其他技術(shù)方向

挑戰(zhàn)和未來(lái)方向

熱門(mén)資訊

推薦資訊

科技最熱文章