《A Survey on Multimodal Large Language Models》
去年 6 月底,我們?cè)?arXiv 上發(fā)布了業(yè)內(nèi)首篇多模態(tài)大語(yǔ)言模型領(lǐng)域的綜述《A Survey on Multimodal Large Language Models》,系統(tǒng)性梳理了多模態(tài)大語(yǔ)言模型的進(jìn)展和發(fā)展方向,目前論文引用 120+,開(kāi)源 GitHub 項(xiàng)目獲得?8.3K Stars。自論文發(fā)布以來(lái),我們收到了很多讀者非常寶貴的意見(jiàn),感謝大家的支持!
去年以來(lái),我們見(jiàn)證了以 GPT-4V 為代表的多模態(tài)大語(yǔ)言模型(Multimodal Large Language Model,MLLM)的飛速發(fā)展。為此我們對(duì)綜述進(jìn)行了重大升級(jí),幫助大家全面了解該領(lǐng)域的發(fā)展現(xiàn)狀以及潛在的發(fā)展方向。

MLLM 發(fā)展脈絡(luò)圖
MLLM 脫胎于近年來(lái)廣受關(guān)注的大語(yǔ)言模型(Large Language Model , LLM),在其原有的強(qiáng)大泛化和推理能力基礎(chǔ)上,進(jìn)一步引入了多模態(tài)信息處理能力。相比于以往的多模態(tài)方法,例如以 CLIP 為代表的判別式,或以 OFA 為代表的生成式,新興的 MLLM 展現(xiàn)出一些典型的特質(zhì):
(1)模型大。MLLM 通常具有數(shù)十億的參數(shù)量,更多的參數(shù)量帶來(lái)更多的潛力;(2)新的訓(xùn)練范式。為了激活巨大參數(shù)量的潛力,MLLM 采用了多模態(tài)預(yù)訓(xùn)練、多模態(tài)指令微調(diào)等新的訓(xùn)練范式,與之匹配的是相應(yīng)的數(shù)據(jù)集構(gòu)造方式和評(píng)測(cè)方法等。
在這兩種特質(zhì)的加持下,MLLM 涌現(xiàn)出一些以往多模態(tài)模型所不具備的能力,例如給定圖片進(jìn)行 OCR?Free 的數(shù)學(xué)推理、給定圖片進(jìn)行故事創(chuàng)作和理解表情包的深層含義等。

本綜述主要圍繞 MLLM 的基礎(chǔ)形式、拓展延伸以及相關(guān)研究課題進(jìn)行展開(kāi),具體包括:
- MLLM 的基礎(chǔ)構(gòu)成與相關(guān)概念,包括架構(gòu)、訓(xùn)練策略、數(shù)據(jù)和評(píng)測(cè);
- MLLM 的拓展延伸,包括輸入輸出粒度、模態(tài)、語(yǔ)言和場(chǎng)景的支持;
- MLLM 的相關(guān)研究課題,包括多模態(tài)幻覺(jué)、多模態(tài)上下文學(xué)習(xí)(Multimodal In-Context Learning,M-ICL)、多模態(tài)思維鏈(Multimodal Chain of Thought,M-CoT)、LLM 輔助的視覺(jué)推理(LLM-Aided Visual Reasoning,LAVR)。
架構(gòu)
對(duì)于多模態(tài)輸入-文本輸出的典型 MLLM,其架構(gòu)一般包括編碼器、連接器以及?LLM。如要支持更多模態(tài)的輸出(如圖片、音頻、視頻),一般需要額外接入生成器,如下圖所示:

MLLM 架構(gòu)圖
其中,模態(tài)編碼器負(fù)責(zé)將原始的信息(如圖片)編碼成特征,連接器則進(jìn)一步將特征處理成LLM 易于理解的形式,即視覺(jué) Token。LLM 則作為“大腦”綜合這些信息進(jìn)行理解和推理,生成回答。目前,三者的參數(shù)量并不等同,以 Qwen-VL[1]為例,LLM 作為“大腦”參數(shù)量為 7.7B,約占總參數(shù)量的 80.2%,視覺(jué)編碼器次之(1.9B,約占 19.7%),而連接器參數(shù)量?jī)H有 0.08B。
對(duì)于視覺(jué)編碼器而言,增大輸入圖片的分辨率是提升性能的有效方法。一種方式是直接提升分辨率,這種情況下需要放開(kāi)視覺(jué)編碼器進(jìn)行訓(xùn)練以適應(yīng)更高的分辨率,如 Qwen-VL[1]等。另一種方式是將大分辨率圖片切分成多個(gè)子圖,每個(gè)子圖以低分辨率送入視覺(jué)編碼器中,這樣可以間接提升輸入的分辨率,如 Monkey[2]等工作。
對(duì)于預(yù)訓(xùn)練的 LLM,常用的包括 LLaMA[3]系列、Qwen[4]系列和 InternLM[5]系列等,前者主要支持英文,而后兩者中英雙語(yǔ)支持得更好。就性能影響而言,加大 LLM 的參數(shù)量可以帶來(lái)顯著的性能增益,如 LLaVA-NeXT[6]等工作在 7B/13B/34B 的 LLM 上進(jìn)行實(shí)驗(yàn),發(fā)現(xiàn)提升LLM 大小可以帶來(lái)各 benchmark 上的顯著提升,在 34B 的模型上更涌現(xiàn)出 zero-shot 的中文能力。除了直接增大 LLM 參數(shù)量,近期火熱的 MoE 架構(gòu)則提供了更高效實(shí)現(xiàn)的可能性,即通過(guò)稀疏計(jì)算的方式,在不增大實(shí)際計(jì)算參數(shù)量的前提下提高總的模型參數(shù)量。
相對(duì)前兩者來(lái)說(shuō),連接器的重要性略低。例如,MM1[7]通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),連接器的類型不如視覺(jué) token 數(shù)量(決定之后 LLM 可用的視覺(jué)信息)及圖片的分辨率(決定視覺(jué)編碼器的輸入信息量)重要。
數(shù)據(jù)與訓(xùn)練
MLLM 的訓(xùn)練大致可以劃分為預(yù)訓(xùn)練階段、指令微調(diào)階段和對(duì)齊微調(diào)階段。預(yù)訓(xùn)練階段主要通過(guò)大量配對(duì)數(shù)據(jù)將圖片信息對(duì)齊到 LLM 的表征空間,即讓 LLM 讀懂視覺(jué) Token。指令微調(diào)階段則通過(guò)多樣化的各種類型的任務(wù)數(shù)據(jù)提升模型在下游任務(wù)上的性能,以及模型理解和服從指令的能力。對(duì)齊微調(diào)階段一般使用強(qiáng)化學(xué)習(xí)技術(shù)使模型對(duì)齊人類價(jià)值觀或某些特定需求(如更少幻覺(jué))。
早期工作在第一階段主要使用粗粒度的圖文對(duì)數(shù)據(jù),如 LAION-5B,這些數(shù)據(jù)主要來(lái)源于互聯(lián)網(wǎng)上的圖片及其附帶的文字說(shuō)明,因此具有規(guī)模大(數(shù) 10 億規(guī)模)但噪聲多、文本短的特點(diǎn),容易影響對(duì)齊的效果。后來(lái)的工作則探索使用更干凈、文本內(nèi)容更豐富的數(shù)據(jù)做對(duì)齊。如 ShareGPT4V[8]使用 GPT-4V 生成的詳細(xì)描述來(lái)做更細(xì)粒度的對(duì)齊,在一定程度上緩解了對(duì)齊不充分的問(wèn)題,獲得了更好的性能。但由于 GPT-4V 是收費(fèi)的,這種類型的數(shù)據(jù)規(guī)模通常較?。〝?shù)百萬(wàn)規(guī)模)。此外,由于數(shù)據(jù)規(guī)模受限,其包含的世界知識(shí)也是有限的,比如是否能夠識(shí)別出圖像中的建筑為廣州塔。此類世界知識(shí)通常儲(chǔ)備于大規(guī)模的粗粒度圖文對(duì)中。
第二階段的微調(diào)數(shù)據(jù)一方面可以來(lái)源于各種任務(wù)的數(shù)據(jù),如 VQA 數(shù)據(jù)、OCR 數(shù)據(jù)等,也可以來(lái)源于 GPT-4V 生成的數(shù)據(jù),如問(wèn)答對(duì)。雖然后者一般能夠生成更復(fù)雜、更多樣化的指令數(shù)據(jù),但這種方式也顯著地增加了成本。值得一提的是,第二階段的訓(xùn)練中一般還會(huì)混合部分純文本的對(duì)話數(shù)據(jù),這類數(shù)據(jù)可以視為正則化的手段,保留 LLM 原有的能力與內(nèi)嵌知識(shí)。
第三階段的數(shù)據(jù)主要是針對(duì)于回答的偏好數(shù)據(jù)。這類數(shù)據(jù)通常由人工標(biāo)注收集,因而成本較高。近期出現(xiàn)一些工作使用自動(dòng)化的方法對(duì)來(lái)自不同模型的回復(fù)進(jìn)行偏好排序,如 Silkie[9]通過(guò)調(diào)用 GPT-4V 來(lái)收集偏好數(shù)據(jù)。
其他技術(shù)方向
除了提升模型的基礎(chǔ)能力(如支持的輸入/輸出形式、性能指標(biāo))外,還有一些有意思的問(wèn)題以及待探索的方向。本綜述中主要介紹了多模態(tài)幻覺(jué)、多模態(tài)上下文學(xué)習(xí)(Multimodal In?Context Learning,M-ICL)、多模態(tài)思維鏈(Multimodal Chain of Thought,M-CoT)和 LLM 輔助的視覺(jué)推理(LLM-Aided Visual Reasoning,LAVR)等。
多模態(tài)幻覺(jué)的研究主要關(guān)注模型生成的回答與圖片內(nèi)容不符的問(wèn)題。視覺(jué)和文本本質(zhì)上是異構(gòu)的信息,完全對(duì)齊兩者本身就具有相當(dāng)大的挑戰(zhàn)。增大圖像分辨率和提升訓(xùn)練數(shù)據(jù)質(zhì)量是降低多模態(tài)幻覺(jué)的兩種最直觀的方式,此外我們?nèi)匀恍枰谠砩咸剿鞫嗄B(tài)幻覺(jué)的成因和解法。例如,當(dāng)前的視覺(jué)信息的 Token 化方法、多模態(tài)對(duì)齊的范式、多模態(tài)數(shù)據(jù)和 LLM 存儲(chǔ)知識(shí)的沖突等對(duì)多模態(tài)幻覺(jué)的影響仍需深入研究。
多模態(tài)上下文學(xué)習(xí)技術(shù)為少樣本學(xué)習(xí)方法,旨在使用少量的問(wèn)答樣例提示模型,提升模型的few-shot 性能。提升性能的關(guān)鍵在于讓模型有效地關(guān)注上下文,并將內(nèi)在的問(wèn)題模式泛化到新的問(wèn)題上。以 Flamingo[10]為代表的工作通過(guò)在圖文交錯(cuò)的數(shù)據(jù)上訓(xùn)練來(lái)提升模型關(guān)注上下文的能力。目前對(duì)于多模態(tài)上下文學(xué)習(xí)的研究還比較初步,有待進(jìn)一步探索。
多模態(tài)思維鏈的基本思想是通過(guò)將復(fù)雜的問(wèn)題分解為較簡(jiǎn)單的子問(wèn)題,然后分別解決并匯總。相較于純文本的推理,多模態(tài)的推理涉及更多的信息來(lái)源和更復(fù)雜的邏輯關(guān)系,因此要復(fù)雜得多。當(dāng)前該方面的工作也比較少。
LLM 輔助的視覺(jué)推理方法探索如何利用 LLM 強(qiáng)大的內(nèi)嵌知識(shí)與能力,并借助其他工具,設(shè)計(jì)各種視覺(jué)推理系統(tǒng),解決各種現(xiàn)實(shí)問(wèn)題。相比于通過(guò)端到端訓(xùn)練獲得單一模型,這類方法一般關(guān)注如何通過(guò)免訓(xùn)練的方式擴(kuò)展和加強(qiáng) LLM 的能力,從而構(gòu)建一個(gè)綜合性的系統(tǒng)。
挑戰(zhàn)和未來(lái)方向
針對(duì) MLLM 的研究現(xiàn)狀,我們進(jìn)行了深入思考,將挑戰(zhàn)與可能的未來(lái)發(fā)展方向總結(jié)如下:
- 現(xiàn)有 MLLM 處理多模態(tài)長(zhǎng)上下文的能力有限,導(dǎo)致模型在長(zhǎng)視頻理解、圖文交錯(cuò)內(nèi)容理解等任務(wù)中面臨巨大挑戰(zhàn)。以 Gemini 1.5 Pro 為代表的 MLLM 正在掀起長(zhǎng)視頻理解的浪潮,而多模態(tài)圖文交錯(cuò)閱讀理解(即長(zhǎng)文檔中既有圖像也有文本)則相對(duì)空白,很可能會(huì)成為接下來(lái)的研究熱點(diǎn)。
- MLLM 服從復(fù)雜指令的能力不足。例如,GPT-4V 可以理解復(fù)雜的指令來(lái)生成問(wèn)答對(duì)甚至包含推理信息,但其他模型這方面的能力則明顯不足,仍有較大的提升空間。
- MLLM 的上下文學(xué)習(xí)和思維鏈研究依然處于初步階段,相關(guān)的能力也較弱,亟需相關(guān)底層機(jī)制以及能力提升的研究探索。
- 開(kāi)發(fā)基于 MLLM 的智能體是一個(gè)研究熱點(diǎn)。要實(shí)現(xiàn)這類應(yīng)用,需要全面提升模型的感知、推理和規(guī)劃能力。
- 安全問(wèn)題。MLLM 容易受設(shè)計(jì)的惡意攻擊影響,生成有偏的或不良的回答。該方面的相關(guān)研究也仍然欠缺。
- 目前 MLLM 在訓(xùn)練時(shí)通常都會(huì)解凍 LLM,雖然在訓(xùn)練過(guò)程中也會(huì)加入部分單模態(tài)的文本訓(xùn)練數(shù)據(jù),但大規(guī)模的多模態(tài)和單模態(tài)數(shù)據(jù)共同訓(xùn)練時(shí)究竟對(duì)彼此互有增益還是互相損害仍然缺乏系統(tǒng)深入的研究。
更詳細(xì)內(nèi)容請(qǐng)閱讀
論文鏈接:
https://arxiv.org/pdf/2306.13549.pdf
項(xiàng)目鏈接:
https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models
本文鏈接:8.3K Stars!《多模態(tài)大語(yǔ)言模型綜述》重大升級(jí)http://www.sq15.cn/show-2-4733-0.html
聲明:本網(wǎng)站為非營(yíng)利性網(wǎng)站,本網(wǎng)頁(yè)內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻(xiàn),不代表本站觀點(diǎn),本站不承擔(dān)任何法律責(zé)任。天上不會(huì)到餡餅,請(qǐng)大家謹(jǐn)防詐騙!若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。
上一篇: 剛剛,圖靈獎(jiǎng)揭曉!史上首位數(shù)學(xué)和計(jì)算機(jī)最高獎(jiǎng)“雙料王”出現(xiàn)了
下一篇: 2019年全球云計(jì)算企業(yè)排行榜TOP50(2019年全球云計(jì)算企業(yè)排行榜TOP50)