中文字幕亚洲欧美一区二区三区_亚洲精品菠萝久久久久久久_日本成人免费视频_狠狠躁少妇一区二区三区_国产精品中文字幕久久久_国产乱子伦农村叉叉叉_麻豆tv免费在线观看_av在线这里只有精品_色吧亚洲视频_嫩草影院一二三

設置
  • 日夜間
    隨系統
    淺色
    深色
  • 主題色

中科大等意外發現:大模型不看圖也能正確回答視覺問題!

2024-04-06 17:11:04 來源: 量子位

提出新基準,結果GPT-4V不合格zo8速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

大模型不看圖,竟也能正確回答視覺問題?!zo8速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

中科大、香港中文大學、上海AI Lab的研究團隊團隊意外發現了這一離奇現象。zo8速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

他們首先看到像GPT-4V、GeminiPro、Qwen1.5-72B、Yi-VL-34B以及LLaVA-Next-34B等大模型,不管是閉源還是開源,語言模型還是多模態,竟然只根據在多模態基準MMMU測試中的問題和選項文本,就能獲得不錯的成績。zo8速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

△藍色表示能看到圖的LVLMs,橘色和綠色分別表示只接收問題和選項文本的LLMs和LVLMszo8速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

(LLM:大語言模型;LVLMs:多模態大模型)zo8速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

不知道的還以為是大模型的隱藏技能被發現了。zo8速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

有網友發出靈魂拷問:我們評估多模態模型的方法正確嗎?zo8速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

這一結果也激起了研究者們的好奇,于是他們決定對此展開進一步探究。zo8速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

大模型隱藏技能被發現?

針對現有的評估樣本和評估過程,研究人員認為造成這種現象的兩個主要問題。zo8速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

第一,一些多模態評估樣本缺少對視覺內容的依賴性。zo8速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

這種問題反映了現有的benchmark中的不合理之處。這個問題包含了兩種情況:zo8速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

一種是有些評估樣本的答案可以被蘊含在了題目和選項中從而免去了看圖的必要。zo8速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

比如會有這種問題,這個圓形土圈是什么形狀?zo8速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

另外一種則是有些評估樣本可以直接被語言大模型利用嵌入的豐富世界知識進行解答而無需依賴圖片。zo8速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

比如下圖中的問題:內布拉斯加州的首府是什么?zo8速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

第二,現有評估過程未考慮語言和多模態大模型訓練過程中的數據泄露問題。zo8速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

LVLM通常由一個vision encoder,一個語言模型基座,以及一個視覺-語言連接件組成。而且現有的多模態benchmark中有大量的評估樣本是從單模態的文本語料中轉化過來的(比如從考試題目中轉化而來)。zo8速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

因此如果大語言模型的訓練數據中無意間泄露了多模態benchmark中轉化不充分的評估樣本,就會影響LVLMs之間的公平比較。zo8速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

為了定量觀察大語言模型中廣泛存在的泄露現象,研究者們采用了22個大語言模型在6個公開benchmark上進行評估。zo8速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

這些大語言模型包含了2個閉源模型(GPT4-Turbo以及GeminiPro)和20個大小、架構各異的開源模型(比如Qwen系列,LLaMA2系列,Baichuan系列,Mixtral-8x7B等),并且使用了2-shot推理策略來減少拒絕回答的情況以及對齊回答的格式。zo8速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

結果看到,閉源模型GeminiPro和開源模型Qwen1.5-72B在極具挑戰性的MMMU基準上可以分別取得42.7和42.4的驚人成績,一度逼近GeminiPro-Vision (44.4),LLaVA-Next-34B (47.0)和Yi-VL-34B (43.2)等多模態模型在能看到圖片情況下的表現。zo8速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

進一步的,他們還定量觀察多模態大模型在訓練過程中的數據泄露情況:屏蔽了LVLM的圖片輸入從而只根據文本問題和選項來進行評估(標記為LVLM-text)。zo8速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

可以看到,像Sphinx-X-MoE和Monkey-Chat經過多模態訓練后在不看圖的情況下相比原始大模型在MMMU基準上可以分別提升驚人的17.9和12.6,而它們即使進一步在看到圖片的情況下也只能獲得1.2和4.7的性能提升。zo8速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

GPT-4在新基準上沒有及格

為了解決上述問題從而進行更公平和準確的評估,研究者們設計了一個多模態評估基準MMStar——zo8速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

包含了1,500個具有視覺依賴性的高質量評估樣本,涵蓋了樣本均衡的粗略感知、精細感知,實例推理、邏輯推理、科學技術、數學這六個核心能力以及18個詳細的能力維度。zo8速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

伴隨著MMStar benchmark,作者們還提出了multi-modal gain (MG)和 multi-modal leakage (ML)兩個評估指標來反映出LVLMs在多模訓練過程中的真實性能增益和數據泄露程度。zo8速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

隨后,為了檢驗所提出的MMStar質量,他們進行了三項評估。zo8速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

1)用22個大語言模型只根據MMStar中的問題和選型進行了評估,結果顯示,他們的表現都接近于隨機選擇,這表明MMStar在現有大模型訓練語料中有著很少的數據泄露。zo8速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

2)評估16個多模態模型在MMStar上的性能。zo8速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

高分辨率設置下的GPT4V取得了57.1的最高平均性能(但還是沒有及格)。zo8速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

開源模型中InternLM-Xcomposer2取得了平均性能為55.4的好成績,LLaVA-Next在數學維度上的表現要略優于GPT4V和GeminiPro-Vision。zo8速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

值得注意的是,沒有多模態大模型能夠在精細感知(FP),邏輯推理(LR),科學技術(ST)以及數學(MA)上及格。zo8速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

3)用16個LVLMs在6個公開benchmark以及所提的MMStar上對MG和ML指標進行了廣泛評估。zo8速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

可以看到,而MMStar展示出了最少的平均數據泄漏程度。zo8速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

研究團隊相信,這種跨模型間的ML指標對社區之后檢驗新開發的多模態benchmarks也是有益的。zo8速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

論文鏈接:zo8速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
https://arxiv.org/pdf/2403.20330.pdfzo8速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
項目鏈接:zo8速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
https://mmstar-benchmark.github.io/zo8速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

https://huggingface.co/datasets/Lin-Chen/MMStarzo8速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

代碼鏈接:zo8速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
https://github.com/MMStar-Benchmark/MMStarzo8速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

— 完 —zo8速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

本文鏈接:中科大等意外發現:大模型不看圖也能正確回答視覺問題!http://www.sq15.cn/show-2-4604-0.html

聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。

上一篇: 七彩虹再掀國風熱潮,東方韻味與現代科技的激情碰撞!

下一篇: 馬斯克感嘆硅谷AI春招太瘋狂!百萬美元年薪隨便開,小扎一線當獵頭,谷歌創始人返場搶人

熱門資訊

推薦資訊

  • 日榜
  • 周榜
  • 月榜
麻豆午夜视频| 日本特黄特黄aaaaa大片| 欧美a免费| 九九九国产| 日日夜夜婷婷| 亚欧成人乱码一区二区| 精品在线免费播放| 精品久久久久久免费影院| 精品国产亚一区二区三区| 天天做日日干| 久久99中文字幕| 久久国产精品永久免费网站| 夜夜操网| 国产国语在线播放视频| 日本伦理黄色大片在线观看网站| 国产成人精品综合| 日本免费乱人伦在线观看 | 日韩专区在线播放| 天天做日日爱夜夜爽| 999精品影视在线观看| 日本在线不卡视频| 久久精品欧美一区二区| 美国一区二区三区| 国产激情一区二区三区| 91麻豆精品国产自产在线观看一区| 久久国产精品自线拍免费| 青青青草影院| 97视频免费在线| 九九干| 色综合久久久久综合体桃花网| 黄色福利片| 91麻豆精品国产片在线观看| 精品视频免费看| 日本伦理片网站| 黄视频网站免费| 精品毛片视频| 九九久久99综合一区二区| 青青久热| 91麻豆国产福利精品| 999久久久免费精品国产牛牛| 日韩中文字幕一区| 台湾毛片| 国产精品免费久久| 91麻豆精品国产自产在线观看一区| 999久久狠狠免费精品| 欧美另类videosbestsex视频 | 韩国三级视频网站| 国产不卡福利| 四虎久久影院| 午夜欧美福利| 国产网站麻豆精品视频| 国产视频久久久久| 欧美a免费| 欧美激情一区二区三区在线播放| 欧美a级成人淫片免费看| 麻豆系列 在线视频| 国产一级生活片| 国产a网| 日本久久久久久久 97久久精品一区二区三区 狠狠色噜噜狠狠狠狠97 日日干综合 五月天婷婷在线观看高清 九色福利视频 | 国产精品1024永久免费视频 | 999久久66久6只有精品| 久久精品店| 好男人天堂网 久久精品国产这里是免费 国产精品成人一区二区 男人天堂网2021 男人的天堂在线观看 丁香六月综合激情 | 免费毛片播放| 欧美一级视频免费观看| 午夜在线观看视频免费 成人| 香蕉视频亚洲一级| 91麻豆国产| 久久99爰这里有精品国产| 日韩专区亚洲综合久久| 91麻豆精品国产片在线观看| 精品国产亚洲一区二区三区| 黄视频网站免费看| 国产视频久久久久| 国产伦精品一区二区三区在线观看| 成人免费一级毛片在线播放视频| 亚洲爆爽| 四虎影视库国产精品一区| 国产一区二区福利久久| 国产精品1024永久免费视频 | 91麻豆tv| 深夜做爰性大片中文| 一本高清在线| 91麻豆精品国产自产在线观看一区| 一级女性全黄久久生活片| 99久久精品国产高清一区二区 | 国产一区二区精品尤物| 精品久久久久久综合网| 国产成人精品在线| 欧美另类videosbestsex视频 | 久久99这里只有精品国产| 日韩在线观看视频黄| 国产不卡高清在线观看视频| 国产视频在线免费观看| 日韩中文字幕一区二区不卡| 午夜在线影院| 国产极品精频在线观看| 香蕉视频亚洲一级| 国产成人精品影视| 欧美一级视频免费观看| 九九久久99综合一区二区| 国产伦精品一区三区视频| 亚洲天堂在线播放| 国产伦精品一区三区视频| 成人免费观看网欧美片| 亚洲女人国产香蕉久久精品| 国产精品12| 国产不卡福利| 999久久久免费精品国产牛牛| 久久精品免视看国产明星| 国产a视频| 一级女性全黄生活片免费| 中文字幕97| 99色吧| 可以免费看污视频的网站| 亚洲第一页乱| 国产麻豆精品免费视频| 91麻豆tv| 日本伦理片网站| 99热热久久| 国产亚洲免费观看| 欧美激情一区二区三区视频高清| 九九久久99| 日韩专区第一页| 久久精品免视看国产成人2021| 国产视频久久久久| 国产精品123| 欧美一级视频免费| 精品国产亚洲人成在线| 久久国产一久久高清| 欧美日本国产| 一级女性全黄久久生活片| 欧美18性精品| 可以免费看毛片的网站| 美国一区二区三区| 日本特黄特色aa大片免费| 青青久久精品| 国产网站在线| 成人a大片高清在线观看| 九九精品在线播放| a级黄色毛片免费播放视频| 中文字幕Aⅴ资源网| 精品国产亚一区二区三区| 欧美18性精品| 日韩一级黄色| 久久99爰这里有精品国产| 一级片片| 美女免费毛片| 四虎影视久久久免费| 亚欧成人毛片一区二区三区四区| 97视频免费在线观看| 精品久久久久久中文| 欧美激情一区二区三区视频 | 天天色成人网| 国产高清视频免费| 国产91精品系列在线观看| 成人免费观看的视频黄页| 欧美大片aaaa一级毛片| 一级片片| 欧美a级大片| 黄色免费三级| 中文字幕Aⅴ资源网| 欧美夜夜骑 青草视频在线观看完整版 久久精品99无色码中文字幕 欧美日韩一区二区在线观看视频 欧美中文字幕在线视频 www.99精品 香蕉视频久久 | 天天色成人网| 可以免费看毛片的网站| 四虎影视精品永久免费网站| 久久精品店| 欧美日本免费| 欧美1区| 午夜久久网| 日本在线www| 天天做日日干| 成人在免费观看视频国产| 麻豆网站在线免费观看| 国产高清在线精品一区二区| 国产一区二区高清视频| 成人免费一级毛片在线播放视频| 99久久精品国产免费| 精品在线免费播放| 四虎影视久久久免费| 九九久久国产精品| 午夜激情视频在线观看| 黄视频网站免费看| 久久99中文字幕| 国产不卡高清在线观看视频| 日韩在线观看网站| 成人免费观看视频| 日本在线不卡视频| 一级毛片视频免费| 午夜在线亚洲| 免费一级生活片| 国产不卡精品一区二区三区| 香蕉视频亚洲一级| 国产伦久视频免费观看 视频| 色综合久久手机在线| 国产伦久视频免费观看 视频| 精品视频在线看 | 一级毛片视频免费| 黄视频网站免费看| 日日夜夜婷婷|