Llama 3英文能力與GPT-4并列第一bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
克雷西 發自 凹非寺bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
量子位 | 公眾號 QbitAI
關于Llama 3,又有測試結果新鮮出爐——bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
大模型評測社區LMSYS發布了一份大模型排行榜單,Llama 3位列第五,英文單項與GPT-4并列第一。bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
不同于其他Benchmark,這份榜單的依據是模型一對一battle,由全網測評者自行命題并打分。bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
最終,Llama 3取得了榜單中的第五名,排在前面的是GPT-4的三個不同版本,以及Claude 3超大杯Opus。bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
而在英文單項榜單中,Llama 3反超了Claude,與GPT-4打成了平手。bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
對于這一結果,Meta的首席科學家LeCun十分高興,轉發了推文并留下了一個“Nice”。bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
PyTorch之父Soumith Chintala也激動地表示,這樣的成果令人難以置信,對Meta感到驕傲。bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
Llama 3的400B版本還沒出來,單靠70B參數就獲得了第五名……bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
我還記得去年三月GPT-4發布的時候,達到與之相同的表現幾乎是一件不可能的事。bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
……bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
現在AI的普及化實在是令人難以置信,我對Meta AI的同仁們做出這樣的成功感到非常驕傲。bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
那么,這份榜單具體展示了什么樣的結果呢?bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
近90個模型對戰75萬輪
截至最新榜單發布,LMSYS共收集了近75萬次大模型solo對戰結果,涉及的模型達到了89款。bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
其中,Llama 3參與過的有1.27萬次,GPT-4則有多個不同版本,最多的參與了6.8萬次。bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
下面這張圖展示了部分熱門模型的比拼次數和勝率,圖中的兩項指標都沒有統計平局的次數。bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
榜單方面,LMSYS分成了總榜和多個子榜單,GPT-4-Turbo位列第一,與之并列的是早一些的1106版本,以及Claude 3超大杯Opus。bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
另一個版本(0125)的GPT-4則位列其后,緊接著就是Llama 3了。bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
不過比較有意思的是,較新一些的0125,表現還不如老版本1106。bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
而在英文單項榜單中,Llama 3的成績直接和兩款GPT-4打成了平手,還反超了0125版本。bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
中文能力排行榜的第一名則由Claude 3 Opus和GPT-4-1106共享,Llama 3則已經排到了20名開外。bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
除了語言能力之外,榜單中還設置了長文本和代碼能力排名,Llama 3也都名列前茅。bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
不過,LMSYS的“游戲規則”又具體是什么樣的呢?bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
人人都可參與的大模型評測
這是一個人人都可以參與的大模型測試,題目和評價標準,都由參與者自行決定。bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
而具體的“競技”過程,又分成了battle和side-by-side兩種模式。bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
battle模式下,在測試界面輸入好問題之后,系統會隨機調用庫中的兩個模型,而測試者并不知道系統到底抽中了誰,界面中只顯示“模型A”和“模型B”。bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
在模型輸出答案后,測評人需要選擇哪個更好,或者是平手,當然如果模型的表現都不符合預期,也有相應的選項。bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
只有在做出選擇之后,模型的身份才會被揭開。bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
side-by-side則是由用戶選擇指定的模型來PK,其余測試流程與battle模式相同bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
不過,只有battle的匿名模式下的投票結果才會被統計,且在對話過程中模型不小心暴露身份就會導致結果失效。bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
按照各個模型對其他模型的Win Rate,可以繪制出這樣的圖像:bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
△示意圖,較早版本
而最終的排行榜,是利用Win Rate數據,通過Elo評價系統換算成分數得到的。bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
Elo評價系統是一種計算玩家相對技能水平的方法,由美國物理學教授Arpad Elo設計。bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
具體到LMSYS,在初始條件下,所有模型的評分(R)都被設定為1000,然后根據這樣的公式計算出期待勝率(E)。bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
隨著測試的不斷進行,會根據實際得分(S)對評分進行修正,S有1、0和0.5三種取值,分別對應獲勝、失敗和平手三種情況。bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
修正算法如下式所示,其中K為系數,需要測試者根據實際情況調整。bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
最終將所有有效數據納入計算后,就得到了模型的Elo評分。bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
不過實際操作過程中,LMSYS團隊發現這種算法的穩定性存在不足,于是又采用了統計學方法進行了修正。bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
他們利用Bootstrap方法進行重復采樣,得到了更穩定的結果,并估計了置信度區間。bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
最終修正后的Elo評分,就成了榜單中的排列依據。bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
One More Thing
Llama 3已經可以在大模型推理平臺Groq(不是馬斯克的Grok)上跑了。bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
這個平臺的最大亮點就是“快”,之前用Mixtral模型跑出過每秒近500 token的速度。bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
跑起Llama 3,也是相當迅速,實測70B可以跑到每秒約300 Token,8B版本更是接近了800。bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
參考鏈接:bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
[1]https://lmsys.org/blog/2023-05-03-arena/bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
[2]https://chat.lmsys.org/?leaderboardbUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
[3]https://twitter.com/lmsysorg/status/1782483699449332144bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
本文鏈接:大模型一對一戰斗75萬輪,GPT-4奪冠,Llama 3位列第五http://www.sq15.cn/show-2-5308-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。
上一篇: 1966年楊成武匯報部隊建設,毛主席突然插話說 曾國藩殺人很厲害(1966年楊成武匯報部隊建設)
下一篇: 黑照變廢為寶!超能AI一句話修出創意大片,親媽看了都說真