智能模型應融入對視覺/語音的理解
編輯部 整理自 AIGC峰會
量子位 | 公眾號 QbitAI
在過去一年中,通義千問系列模型持續開源。
不僅頻繁放出多種版本,涉及不同的規模和模態,成績在大模型競技場中也名列前茅。
比如目前最大的72B模型,表現就勝過了Llama 2-70B和MoE開源模型Mixtral。

而縱觀整個大模型行業,開源開放也正促進著AIGC新應用的涌現。
過去一年,通義千問團隊都做了什么,又有哪些經驗值得開源模型開發者參考?
中國AIGC產業峰會上,阿里高級算法專家林俊旸給出了他的答案。

林俊旸參與了通義千問大模型的研發、開源、與外部系統融合等探索工作,還曾參與超大規模預訓練模型系列M6、通用統一多模態預訓練模型OFA等大模型的打造。
為了完整體現林俊旸的思考,在不改變原意的基礎上,量子位對演講內容進行了編輯整理,希望能給你帶來更多啟發。
中國AIGC產業峰會是由量子位主辦的行業峰會,20位產業代表與會討論。線下參會觀眾近千人,線上直播觀眾300萬,獲得了主流媒體的廣泛關注與報道。
演講要點
- 開源大模型要更深地融入整個生態,才能給用戶帶來便捷的使用體驗。
- 除了基礎模型Benchmark之外,多語言、長序列和Agent能力,也是衡量大模型表現的關鍵指標。
- 大語言模型發展下去,終將變成多模態模型,因為一個非常智能的模型,不僅要有語言能力,還應該融入對視覺語音方面的理解。
以下為林俊旸演講全文:
融入生態,讓大模型使用更加便捷
相信國內朋友都聽說過通義千問的開源模型,我們從去年8月份開始一直開源,到現在我們開源的系列模型已經非常多了,剛開始先從7B、14B開始開源,直到現在1.5系列的72B版本,用戶使用下來的感覺還不錯。
當然,我們的1.5系列模型,涵蓋的規模非常全,除了72B還有0.5B、1.8B這樣的小規模版本,最新還有一個小的MoE的模型,大概是14B的參數量,激活參數量大概是2.7B。
我們的模型現在在LMSYS chatbot Arena,也就是人工評測上面取得比較不錯的成績,在剛開始登榜的時候,我們是開源的第一名,剛剛才被千億參數的Command-R-Plus給超越。
如果只在相同規模中比較,那么截止到現在(4月17日),我們的72B模型還是最好的。
除此之外,我們也聽從了開發者的建議,發布了32B模型,因為開發者反饋說72B模型太大,14B又好像還不夠用。
最新推出的這個32B模型也取得了比較不錯的成績,躋身到了前15的行列,表現非常接近72B的模型,跟MoE架構的Mixtral相比也具有一定優勢。
而除了不斷提高模型的表現,最近幾個月我們還做了一些不太一樣的事情,就是讓千問系列模型更好地去融入大模型生態,讓用戶使用起來更加便捷。

具體的舉措有這樣幾點,第一是千問的代碼已經融入了Hugging Face的官方代碼當中,大家使用通義千問1.5的模型時就不需要再用Transformer code來調用了。
除此之外,我們很多三方框架都做了比較好的支持,包括LLama.cpp、vLLM,現在還有像Ollama也非常方便,都可以一鍵使用我們的模型。
如果你用LM Studio,也可以從中使用我們的GGUF的模型。如果想對我們模型進行微調的話,其實可以用到比如說Axolotl以及國內的LlaMA-Factory等工具。
多語言和長文本能力是關鍵指標
接下來我會給大家詳細介紹一下我們模型的構成以及模型當前表現水平。
首先要看Base Language Model是一個什么樣的水平,因為只有基礎語言模型的表現好了,才能實現對齊,去進一步做一個比較好的模型。
我們各個Size都做了對比,其中72B的模型在各個Benchmark上的表現都比較有競爭力。
當然,我們現在開源模型跟GPT-4還會有差距,但是相比于此前的Llama2-70B以及Mixtral,都有比較明顯的優勢。
很長一段時間,如果大家關注Hugging Face Open LLM Leaderboard,會發現其實有很多模型是基于我們的72B模型微調出來的,因為海外朋友很多非常喜歡微調這個模型,然后登到這個榜上去。

同時我們不僅僅有7B及以上的大模型,也有小一些的模型,又叫做Small Language Model這一塊,我們最小的模型參數量是0.5B,也就是5億。
我們還有像1.8B、4B這些規模的模型,跟Phi-2、Gemma-2B等模型相比的話,我們的模型都非常有競爭力。
另外一個方面是多語言的能力,我們此前的模型在Qwen1的時候,沒有對多語言進行檢測,但本質上是多語言的模型。
大家可能會有一些想法,比如說阿里訓出來的模型就是中文的模型,或者是中英雙語的模型,其實不是這樣,我們最近對多語言能力做一些檢測,發現它的表現還不錯,所以我們進一步在這個基礎上做了多語言方面的對齊。
在12個比較大的語言上面去跟GPT-3.5相比,我們的模型表現都比較有競爭力。

如果大家關注社交媒體,會看到有很多朋友在使用我們的多語言的能力。
從目前收到的一些反饋來看,它的越南語能力還不錯,還有人跟我說,孟加拉語也還可以。
最近還出現了一個模型東南亞語言模型Salior,它是基于Qwen1.5繼續訓練然后微調出來的。
而在小模型方面,有反饋說在法語上的表現不錯,家如果看ChatBot Arena法語榜上,Qwen1.5表現也是非常有競爭力的。
在長序列方面,目前我們看32K長度上的表現是比較穩定的,有些模型Size甚至可以通過外推的方式推的更長,接下來的版本也會有更長的上下文窗口。
我們除了做簡單的大海撈針的實驗之外,也對一些針對序列評測的榜單做評估,發現我們的Chat模型在長序列方面,是可以做一些使用方面的東西。

下一個部分就是常說的Post-training,今天大家對大模型感興趣,主要也是因為Post-training讓大模型的潛力爆發出來,能夠成為一個Assistant來幫助我們。
我們在Post-training做了非常長時間的工作,包括SFT(指導監督微調),主要是在數據方面做了一些比較扎實的工作。
我們最近在DPO方面也做了比較多的工作,之后如果有機會會通過技術報告的方式跟大家分享更多相關的細節。我們做完這些之后,會發現模型在一些評測上面的表現更有競爭力。
除了人工評測之外,還有像MT-Bench和Alpaca-Eval這樣的測試,我們模型的表現也都非常有競爭力,尤其是Alpaca-Eval。

另一方面我們講Agent方面的能力,這是我們一直非常關心的。
但我們剛開始給Qwen系列模型做SFT的時候,發現模型不太具備Agent相關的能力。
解決的方式是做更多的數據標注,時間長了之后,經驗越來越豐富,就可以做一些Agent相關的任務了。
下一站是多模態Agent
今天我們還會關心另外一個問題,就是“大”模型對于很多人來說是不夠用的。
因為大模型發展下去,終將變成多模態的模型,因為一個非常智能的模型,應該能夠融入對視覺語音方面的理解。
過去幾年的時間里,我們在多模態領域也做了比較多的工作,再把之前的一些經驗融入進來,就有了Qwen-VL系列模型。
Qwen-VL系列模型的訓練方法也相對來說比較簡單,分為三個階段。

首先是非常扎實對齊的預訓練,實現視覺和語言模型的對齊,讓我們的語言模型能夠睜開雙眼看世界,能夠理解視覺方面的信息。
接下來是能力的注入和對齊,我們VL核心開發同學,他有一天剛好去醫院,對醫院密密麻麻拍了一個照問它說肚子疼去哪里,模型把相關信息都能準確識別出來。

這是今天VL模型跟過去不一樣的點,今天對OCR的識別比以往做的好很多。
在這個基礎上我們想做更加冒險的事情,比如說打造VL方面的Agent,如果能成功的話,將會非常有吸引力。
比如說,如果想對手機屏幕進行操作,如果看到的是一堆代碼,那么操作起來將會非常困難,而對人來說不管怎么看、不管顏色、Logo怎么變我們都能理解,屏幕上面有哪些東西我們都能做出正確選擇。
所以我們也讓模型進行了一些嘗試,發現它能準確識別出來這些位置,所以我相信隨著VL模型水平不斷提升,在Agent方面的潛力會越來越大。
如果讓我們模型看見世界,能不能讓它聽見呢?方法也非常簡單,簡單說就是把Audio Encoder接入我們的模型,再基于剛才所說的幾個階段進行訓練,就能得到非常好的效果。

而能夠聽見聲音的大模型,可以做的事情非常多。
比如我在海外旅游,到了某個國家去,不太會說當地的語言,希望有一款產品能幫我進行翻譯。
而在這種產品背后需要解決幾個問題,需要先對語音進行識別,然后再進行機器翻譯,這個過程其實非常麻煩。
但有了大模型之后,這樣的任務只需要一個prompt就能解決,并且還能翻譯成不同的語言,只需要跟模型交互就可以了。
除此之外,還有對自然聲音和音樂的理解,ASR模型只能理解人的說話并轉成文字,但現實中的聲音包括自然聲音以及音樂等多種類型。
而我們的模型可以做音樂的賞析,聽到一段聲音就能寫出一首詩,可以看到大語言模型在多模態方面潛力十足。

另外,今年非常重要的一個趨勢是大模型與視頻的結合,我們下一步會做出更多模態,其中視頻就是一個重點。
最后我做一個簡單的總結,我們現在的Base模型和Chat模型每一次都會推出幾個版本,最新的模型就在幾個小時前,還推出了code專項模型,叫做CodeQwen 1.5,是一個7B規模的模型,在代碼方面的Benchmark表現比較突出,大家可以去嘗試。
接下來我們會去做進一步的Scaling,包括模型本身和數據的scaling,接下來還有模態方面的scaling,也就是接入更多的模態。
我們最終的目標是實現一個非常強大的大預言模型,能夠理解各種模態的信息,甚至實現不同模態的輸入和輸出。所以,接下來大家可以持續關注我們的進展。
本文鏈接:阿里林俊旸:大模型對很多人來說不夠用,打造多模態Agent是關鍵 | 中國AIGC產業峰會http://www.sq15.cn/show-2-5644-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。