量子位 | 公眾號 QbitAI關于Llama 3,又有測試結果新鮮出爐——大模型評測社區LMSYS發布了一份大模型排行榜單,Llama 3位列第五,英文單項與GPT-4并" />

中文字幕亚洲欧美一区二区三区_亚洲精品菠萝久久久久久久_日本成人免费视频_狠狠躁少妇一区二区三区_国产精品中文字幕久久久_国产乱子伦农村叉叉叉_麻豆tv免费在线观看_av在线这里只有精品_色吧亚洲视频_嫩草影院一二三

設置
  • 日夜間
    隨系統
    淺色
    深色
  • 主題色

大模型一對一戰斗75萬輪,GPT-4奪冠,Llama 3位列第五

2024-04-23 15:17:55 來源: 量子位

Llama 3英文能力與GPT-4并列第一bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

克雷西 發自 凹非寺bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
量子位 | 公眾號 QbitAI

關于Llama 3,又有測試結果新鮮出爐——bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

大模型評測社區LMSYS發布了一份大模型排行榜單,Llama 3位列第五,英文單項與GPT-4并列第一。bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

圖片bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

不同于其他Benchmark,這份榜單的依據是模型一對一battle,由全網測評者自行命題并打分。bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

最終,Llama 3取得了榜單中的第五名,排在前面的是GPT-4的三個不同版本,以及Claude 3超大杯Opus。bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

而在英文單項榜單中,Llama 3反超了Claude,與GPT-4打成了平手。bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

對于這一結果,Meta的首席科學家LeCun十分高興,轉發了推文并留下了一個“Nice”。bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

圖片bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

PyTorch之父Soumith Chintala也激動地表示,這樣的成果令人難以置信,對Meta感到驕傲。bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

Llama 3的400B版本還沒出來,單靠70B參數就獲得了第五名……bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
我還記得去年三月GPT-4發布的時候,達到與之相同的表現幾乎是一件不可能的事。bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
……bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
現在AI的普及化實在是令人難以置信,我對Meta AI的同仁們做出這樣的成功感到非常驕傲。bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

圖片bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

那么,這份榜單具體展示了什么樣的結果呢?bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

近90個模型對戰75萬輪

截至最新榜單發布,LMSYS共收集了近75萬次大模型solo對戰結果,涉及的模型達到了89款。bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

其中,Llama 3參與過的有1.27萬次,GPT-4則有多個不同版本,最多的參與了6.8萬次。bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

圖片bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

下面這張圖展示了部分熱門模型的比拼次數和勝率,圖中的兩項指標都沒有統計平局的次數。bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

圖片bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

榜單方面,LMSYS分成了總榜和多個子榜單,GPT-4-Turbo位列第一,與之并列的是早一些的1106版本,以及Claude 3超大杯Opus。bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

另一個版本(0125)的GPT-4則位列其后,緊接著就是Llama 3了。bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

不過比較有意思的是,較新一些的0125,表現還不如老版本1106。bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

圖片bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

而在英文單項榜單中,Llama 3的成績直接和兩款GPT-4打成了平手,還反超了0125版本。bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

圖片bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

中文能力排行榜的第一名則由Claude 3 Opus和GPT-4-1106共享,Llama 3則已經排到了20名開外。bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

圖片bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

除了語言能力之外,榜單中還設置了長文本和代碼能力排名,Llama 3也都名列前茅。bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

不過,LMSYS的“游戲規則”又具體是什么樣的呢?bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

人人都可參與的大模型評測

這是一個人人都可以參與的大模型測試,題目和評價標準,都由參與者自行決定。bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

而具體的“競技”過程,又分成了battle和side-by-side兩種模式。bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

圖片bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

battle模式下,在測試界面輸入好問題之后,系統會隨機調用庫中的兩個模型,而測試者并不知道系統到底抽中了誰,界面中只顯示“模型A”和“模型B”。bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

在模型輸出答案后,測評人需要選擇哪個更好,或者是平手,當然如果模型的表現都不符合預期,也有相應的選項。bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

只有在做出選擇之后,模型的身份才會被揭開。bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

side-by-side則是由用戶選擇指定的模型來PK,其余測試流程與battle模式相同bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

不過,只有battle的匿名模式下的投票結果才會被統計,且在對話過程中模型不小心暴露身份就會導致結果失效。bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

圖片bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

按照各個模型對其他模型的Win Rate,可以繪制出這樣的圖像:bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

圖片bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

示意圖,較早版本

而最終的排行榜,是利用Win Rate數據,通過Elo評價系統換算成分數得到的。bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

Elo評價系統是一種計算玩家相對技能水平的方法,由美國物理學教授Arpad Elo設計。bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

具體到LMSYS,在初始條件下,所有模型的評分(R)都被設定為1000,然后根據這樣的公式計算出期待勝率(E)。bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

圖片bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

隨著測試的不斷進行,會根據實際得分(S)對評分進行修正,S有1、0和0.5三種取值,分別對應獲勝、失敗和平手三種情況。bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

修正算法如下式所示,其中K為系數,需要測試者根據實際情況調整。bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

圖片bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

最終將所有有效數據納入計算后,就得到了模型的Elo評分。bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

不過實際操作過程中,LMSYS團隊發現這種算法的穩定性存在不足,于是又采用了統計學方法進行了修正。bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

他們利用Bootstrap方法進行重復采樣,得到了更穩定的結果,并估計了置信度區間。bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

最終修正后的Elo評分,就成了榜單中的排列依據。bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

One More Thing

Llama 3已經可以在大模型推理平臺Groq(不是馬斯克的Grok)上跑了。bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

這個平臺的最大亮點就是“快”,之前用Mixtral模型跑出過每秒近500 token的速度。bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

跑起Llama 3,也是相當迅速,實測70B可以跑到每秒約300 Token,8B版本更是接近了800。bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

圖片bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

參考鏈接:bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
[1]https://lmsys.org/blog/2023-05-03-arena/bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
[2]https://chat.lmsys.org/?leaderboardbUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
[3]https://twitter.com/lmsysorg/status/1782483699449332144bUv速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

本文鏈接:大模型一對一戰斗75萬輪,GPT-4奪冠,Llama 3位列第五http://www.sq15.cn/show-2-5308-0.html

聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。

上一篇: 1966年楊成武匯報部隊建設,毛主席突然插話說 曾國藩殺人很厲害(1966年楊成武匯報部隊建設)

下一篇: 黑照變廢為寶!超能AI一句話修出創意大片,親媽看了都說真

熱門資訊

  • 我國成功研制可靶向送藥的磁驅軟體機器人

    中國科學院深圳先進技術研究院15日發布消息稱,該院科研團隊研發了一種具有靶向送藥功能的磁驅軟體機器人,該機器人能夠根據器官內部環境的特點選擇合

  • 凌晨重磅!英偉達官宣最強AI芯片

    北京時間凌晨4點至6點,英偉達聯合創始人兼CEO黃仁勛發表主題演講《見證AI的變革時刻》,正式拉開了2024年英偉達GTC大會的序幕。黃仁勛宣布,正

  • 新AI系統可提供足球制勝戰術

    未來的足球場,人工智能(AI)當“大腦”?《自然·通訊》19日發表一項來自谷歌深度思維的最新成果,研究團隊報告了一個名為“TacticAI”的系統,能在足

  • 迄今最大三維宇宙地圖發布

    國際天文學家團隊繪制了迄今最大的三維宇宙地圖,記錄了大約130萬個活躍類星體在空間和時間上的位置。它將成為探測類星體、暗物質暈和超大質量黑洞

  • 239萬的無人駕駛航空器淘寶上架,人人可以“打飛的”還有多遠

      239萬的無人駕駛航空器淘寶上架,人人可以“打飛的”還有多遠  239萬元/架的無人駕駛載人航空器也看上了電商渠道。  3月18日,億航智能設備(廣州)有限公司(下稱“億航

  • 馬斯克開源3140億參數的Grok,大模型爭相開源所為何求?

      馬斯克開源3140億參數的Grok,大模型爭相開源所為何求?  作者:劉曉潔  特斯拉CEO埃隆?馬斯克(Elon Musk)給大模型領域投下一枚重磅炸彈。  北京時間3月18日凌晨,馬斯

  • CRISPR能消除培養細胞中艾滋病病毒

    荷蘭阿姆斯特丹大學醫學院科學家開展的一項新研究證明,利用最新CRISPR-Cas基因編輯技術,能消除實驗室中受感染細胞內所有艾滋病病毒(HIV)的痕跡,為治愈

  • 新型催化劑為國內柴油發動機尾氣氮氧化物處理補短板

    記者3月19日從天津大學獲悉,該校環境學院劉慶嶺教授團隊與吉林大學于吉紅院士團隊以及天津工業大學梅東海教授團隊合作,證明了無有機模板劑合成的具

  • “嬰兒香”原來是真的香

    所謂香噴噴的嬰兒,到底是源于人們的愛意,還是說確有其香?《通訊·化學》21日一項小型研究首次分析了嬰兒和青少年體味化學組成的差異。研究顯示

  • AI芯片巨頭低調賺錢

      AI芯片巨頭低調賺錢  駱軼琪  在過去一年半導體行業下行周期中,除了英偉達以GPU霸主身份實現業績快速成長之外,另一些主營雖非GPU,但是立足于AI定制芯片市場的半導體巨

  • “AI鋼鐵俠”黃仁勛,又進化了英偉達

      “AI鋼鐵俠”黃仁勛,又進化了英偉達  作 者丨倪雨晴  2024年,英偉達一年一度的GTC大會已然成為AI界春晚,現場座無虛席,全球AI愛好者翹首以待黃仁勛的獨家SOLO。  北京

  • 潛望長焦缺席三代后 曝xiaomi15 Pro重新擁抱潛望鏡頭

    3月22日消息,數碼閑聊站爆料稱,xiaomi15 Pro將采用5000萬像素的超大底三攝方案,其中一顆是全新的潛望長焦鏡頭。據資料顯示,xiaomi11 Pro配備了潛望長焦鏡

推薦資訊

  • 日榜
  • 周榜
  • 月榜
欧美大片aaaa一级毛片| 国产福利免费观看| 毛片高清| 国产一区二区福利久久| 欧美大片毛片aaa免费看| 四虎影视库| 日韩字幕在线| 色综合久久天天综合观看| 成人免费观看的视频黄页| 一级女人毛片人一女人| 91麻豆精品国产片在线观看| 欧美电影免费| 尤物视频网站在线| 国产综合91天堂亚洲国产| 91麻豆精品国产自产在线观看一区| 日本在线www| 国产高清在线精品一区a| 精品视频在线观看一区二区三区| 99色视频| 成人a级高清视频在线观看| 国产91丝袜在线播放0| 久久99这里只有精品国产| 国产欧美精品| 精品久久久久久综合网| 午夜激情视频在线观看| 美女免费毛片| 毛片成人永久免费视频| 在线观看成人网| 欧美激情一区二区三区视频 | 日本特黄特黄aaaaa大片| 欧美日本免费| 欧美另类videosbestsex视频| 久久国产精品自由自在| 国产综合成人观看在线| 日本在线播放一区| 久久国产一久久高清| 天堂网中文在线| 麻豆污视频| 四虎影视久久久| 欧美激情一区二区三区在线播放 | 高清一级做a爱过程不卡视频| 一级女性全黄久久生活片| 精品视频在线看| 二级特黄绝大片免费视频大片| 亚洲精品永久一区| 深夜做爰性大片中文| 黄色短视频网站| 欧美大片a一级毛片视频| 美女免费精品视频在线观看| 国产国语对白一级毛片| 黄色福利片| 成人高清视频免费观看| 久久精品道一区二区三区| 999精品影视在线观看| 国产一区二区精品尤物| 香蕉视频久久| 国产国语对白一级毛片| 色综合久久天天综合绕观看| 精品国产香蕉伊思人在线又爽又黄| 精品视频一区二区| 免费国产在线视频| 国产麻豆精品视频| 美女免费毛片| 国产亚洲精品aaa大片| 99色播| 欧美一级视频免费| 精品国产亚洲一区二区三区| 国产成人精品影视| 亚洲第一页乱| 国产麻豆精品视频| 亚飞与亚基在线观看| 欧美激情中文字幕一区二区| 国产极品精频在线观看| 中文字幕一区二区三区 精品| 日本免费乱理伦片在线观看2018| 日本特黄特黄aaaaa大片| 韩国三级香港三级日本三级| 九九久久99综合一区二区| 国产91精品系列在线观看| 色综合久久天天综合| 久久国产一久久高清| 国产麻豆精品| 99热视热频这里只有精品| 精品视频免费观看| 美女被草网站| 国产一区二区精品在线观看| 久久国产精品永久免费网站| 亚洲精品永久一区| 日本在线不卡免费视频一区| 国产伦精品一区三区视频| 香蕉视频亚洲一级| 夜夜操网| a级毛片免费全部播放| 四虎影视库| 精品国产一区二区三区久久久蜜臀 | 美女免费黄网站| 国产伦精品一区三区视频| 国产不卡在线看| 国产成人啪精品| 九九九国产| 夜夜操网| 欧美爱爱网| 一级毛片视频播放| 尤物视频网站在线观看| 久久久久久久久综合影视网| 精品国产亚洲人成在线| 久久久久久久男人的天堂| 日韩字幕在线| 免费国产在线视频| 国产a视频精品免费观看| 亚洲 男人 天堂| 国产一区二区精品久| 国产福利免费视频| 天天色色色| 麻豆午夜视频| 精品国产三级a∨在线观看| 精品在线免费播放| 亚欧乱色一区二区三区| 国产成人精品综合| 国产成人精品影视| 精品久久久久久中文字幕2017| 沈樵在线观看福利| 日韩中文字幕在线播放| 精品国产一区二区三区免费 | 欧美夜夜骑 青草视频在线观看完整版 久久精品99无色码中文字幕 欧美日韩一区二区在线观看视频 欧美中文字幕在线视频 www.99精品 香蕉视频久久 | 精品视频一区二区| 黄色免费三级| 天堂网中文在线| 高清一级淫片a级中文字幕| 成人高清免费| 香蕉视频一级| 一本高清在线| 好男人天堂网 久久精品国产这里是免费 国产精品成人一区二区 男人天堂网2021 男人的天堂在线观看 丁香六月综合激情 | 国产伦久视频免费观看 视频| 欧美一级视频免费| 韩国毛片基地| 四虎久久影院| 日韩在线观看网站| 久久久久久久久综合影视网| 欧美一级视频高清片| 日本在线不卡视频| 91麻豆精品国产高清在线| 国产精品自拍在线观看| 国产伦久视频免费观看视频| 久久99欧美| 久久精品大片| 久久国产精品只做精品| 欧美一区二区三区在线观看| 91麻豆精品国产自产在线观看一区| 日本免费看视频| 日韩一级黄色| 99色播| 一级女性全黄生活片免费| 日本久久久久久久 97久久精品一区二区三区 狠狠色噜噜狠狠狠狠97 日日干综合 五月天婷婷在线观看高清 九色福利视频 | 国产成+人+综合+亚洲不卡| 成人免费观看视频| 日韩专区第一页| 精品国产一区二区三区国产馆 | 精品国产三级a∨在线观看| 国产91精品一区| 国产不卡福利| 麻豆污视频| 中文字幕一区二区三区 精品| 午夜久久网| 欧美电影免费| 国产美女在线观看| 亚洲第一页色| 欧美a级片免费看| 99色视频在线观看| 91麻豆tv| 九九久久99| 国产一级强片在线观看| 亚洲天堂免费| 久草免费在线观看| 四虎论坛| 精品国产香蕉伊思人在线又爽又黄| 欧美日本免费| 999精品影视在线观看| 久久久久久久免费视频| 国产成人精品综合| 国产高清视频免费观看| 国产麻豆精品hdvideoss| 午夜激情视频在线观看| 成人在免费观看视频国产| 日本免费看视频| 精品国产一区二区三区国产馆 | 黄视频网站免费看| 久久99这里只有精品国产| 韩国三级视频网站| 欧美激情一区二区三区在线播放 | 国产网站在线| 国产伦理精品| 中文字幕97| 精品视频一区二区三区免费| 四虎久久精品国产| 中文字幕97| 成人高清免费| 国产精品免费精品自在线观看| 午夜在线亚洲| 成人免费一级毛片在线播放视频|