中文字幕亚洲欧美一区二区三区_亚洲精品菠萝久久久久久久_日本成人免费视频_狠狠躁少妇一区二区三区_国产精品中文字幕久久久_国产乱子伦农村叉叉叉_麻豆tv免费在线观看_av在线这里只有精品_色吧亚洲视频_嫩草影院一二三

設置
  • 日夜間
    隨系統
    淺色
    深色
  • 主題色

“大海撈針”out!“數星星”成測長文本能力更精準方法,來自鵝廠

2024-04-02 17:05:20 來源: 量子位

GPT-4和Kimi已接受測試8RQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

大模型長文本能力測試,又有新方法了!8RQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

騰訊MLPD實驗室,用全新開源的“數星星”方法替代了傳統的“大海撈針”測試。8RQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

相比之下,新方法更注重對模型處理長依賴關系能力的考察,對模型的評估更加全面精準。8RQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

“大海撈針”out!“數星星”成測長文本能力更精準方法,來自鵝廠

利用這種方法,研究人員對GPT-4和國內知名的Kimi Chat進行了“數星星”測試。8RQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

結果,在不同的實驗條件下,兩款模型各有勝負,但都體現出了很強的長文本能力。8RQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

“大海撈針”out!“數星星”成測長文本能力更精準方法,來自鵝廠8RQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

△橫軸系以2為底的對數坐標8RQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

那么,“數星星”究竟是怎樣的一種測試呢?8RQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

比“大海撈針”更加精準

首先,研究人員選擇了一段長文本做為上下文,測試過程中長度逐漸遞增,最大為128k。8RQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

然后,根據不同的測試難度需求,整段文本會被劃分成N段,并向其中插入M個包含“星星”的句子。8RQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

“大海撈針”out!“數星星”成測長文本能力更精準方法,來自鵝廠

實驗過程中,研究人員選擇了《紅樓夢》作為上下文文本,向其中加入了“小企鵝數了x顆星星”這樣的句子,每個句子中的x都各不相同。8RQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

“大海撈針”out!“數星星”成測長文本能力更精準方法,來自鵝廠

然后,模型會被要求找到所有這樣的句子,并以JSON格式輸出其中所有的數字,且只輸出數字。8RQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

“大海撈針”out!“數星星”成測長文本能力更精準方法,來自鵝廠

得到模型的輸出之后,研究人員會將這些數字和Ground Truth進行對比,最終計算出模型輸出的正確率。8RQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

相比于之前的“大海撈針”測試,這種“數星星”的方法更能體現出模型處理長依賴關系能力。8RQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

簡而言之,“大海撈針”中插入多個“針”就是插入多個線索,然后讓大模型找到并串聯推理多個線索,并獲得最終答案。8RQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

但實際的“大海撈多針”測試中,模型并不需要找到所有“針”才能答對問題,甚至有時只需要找到最后一根就可以了。8RQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

“大海撈針”out!“數星星”成測長文本能力更精準方法,來自鵝廠

但“數星星”則不同——因為每句話中“星星”的數量都不一樣,模型必須把所有星星都找到才能把問題答對。8RQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

所以,雖然看似簡單,但至少在多“針”任務上,“數星星”對模型長文本能力有著更為精準的體現。8RQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

那么,有哪些大模型最先接受了“數星星”測試呢?8RQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

GPT-4與Kimi難分高下

參加這場測試的大模型分別是GPT-4和國內以長文本能力而知名的大模型Kimi。8RQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

在“星星”數量和文本粒度均為32時,GPT-4的準確率達到了96.8%,Kimi則有86.4%。8RQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

“大海撈針”out!“數星星”成測長文本能力更精準方法,來自鵝廠

但當“星星”增加到64顆時,Kimi則以93.1%的準確率超過了準確率為89.7%的GPT-4.8RQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

“大海撈針”out!“數星星”成測長文本能力更精準方法,來自鵝廠

減少到16時,也是Kimi的表現略勝于GPT-4。8RQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

“大海撈針”out!“數星星”成測長文本能力更精準方法,來自鵝廠

而劃分的顆粒度也會對模型的表現造成一些影響,在“星星”同樣出現32次時,顆粒度從32變為16,GPT-4的成績有所上升,而Kimi則有所下降。8RQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

需要注意的是,在以上的測試中,“星星”的數量是依次遞增的,但研究人員很快發現,這種情況下大模型很喜歡“偷懶”——8RQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

當模型發現星星數量是遞增的的時候,即使區間內的數字是隨機生成,也會引起大模型的敏感度增加。8RQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

例如:模型對3、9、10、24、1145、114514這樣的遞增序列會比24、10、3、1145、9、114514更加敏感8RQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

所以,研究人員又特意將數字的順序進行了打亂,重新進行了一次測試。8RQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

結果在打亂之后,GPT-4和Kimi的表現都出現了明顯下降,不過準確率仍在60%以上,兩者相差8.6個百分點。8RQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

One More Thing

這個方法的準確性可能還需要時間檢驗,但不得不說名字起得真的很有一手。8RQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

8RQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

△英文系同名歌曲Counting Stars歌詞8RQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

網友也不禁感嘆,現在關于大模型的研究,真的是越來越魔幻了。8RQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

但魔幻的背后,也體現出人們對于大模型長語境處理能力和性能的了解還不夠充分。8RQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

就在前些天,先后有多家大模型廠商宣布推出能夠處理超長文本的模型(雖然不全是基于上下文窗口實現),最高可達上千萬,但實際表現還是未知數。8RQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

而Counting Stars的出現,或許正好有助于我們了解這些模型的真實表現。8RQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

那么,你還想看看哪些模型的測試成績呢?8RQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

論文地址:
https://arxiv.org/abs/2403.118028RQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
GitHub:
https://github.com/nick7nlp/Counting-Stars8RQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

本文鏈接:“大海撈針”out!“數星星”成測長文本能力更精準方法,來自鵝廠http://www.sq15.cn/show-2-4493-0.html

聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。

上一篇: 易點天下受邀參與AWS出海全球化論壇,以AI+數據破局泛娛樂出海新增長

下一篇: 阿里7B多模態文檔理解大模型拿下新SOTA|開源

熱門資訊

  • 站在“人工智能+”探索前列

    今年全國兩會期間,人工智能成為熱點話題,“人工智能+”首次被寫入政府工作報告。一頭連著數字經濟發展大局,一頭連著行業變革與創新,“人工智能+”既是

  • 全國愛肝日丨專家提醒注意“小心肝”

    3月18日是第24個“全國愛肝日”。今年活動的主題是,“早防早篩,遠離肝硬化”。重慶多所醫院開展義診咨詢活動,通過普及肝病的防治知識,讓民眾主動篩查

  • 數字化管理已在故宮廣泛應用

    在今天的故宮,工作人員使用的數字化辦公平臺名叫“內務輔”,這款應用的開發者,是與故宮博物院合作的釘釘(中國)信息技術有限公司(以下簡稱“釘釘”)。3月1

  • 中經社發布垂直領域數字化應用系統 為行業提供數智化解決方案

    3月18日,中國經濟信息社(以下簡稱中經社)垂直領域數字化應用系統發布儀式在北京舉行。在發布儀式上,錨定建設“國家級經濟信息旗艦”的目標,中經社推出

  • 多功能金納米花顆粒 可促進感染性組織修復

    3月17日,記者從海南大學獲悉,該?;瘜W化工學院副教授李萌婷與相關研究團隊合作,合成了多功能復合金納米花顆粒。該顆粒配合溫和光熱、光動力、藥物控

  • Sora將如何影響科學與社會

    英國《自然》周刊網站3月12日刊登題為《OpenAI的文生視頻工具Sora會如何改變科學——以及社會》的文章,作者為喬納森·奧卡拉漢,內

  • 借AI“慧眼”鑒別可疑論文圖片

    今年1月,英國分子生物學家肖爾托·戴維發表文章,指控美國哈佛大學醫學院附屬丹娜-法伯癌癥研究所科學家通過修改圖片偽造數據。隨后該研究所正

  • 我科學家實現最小資源消耗的量子態分辨

    記者3月20日從中國科學技術大學獲悉,該校郭光燦院士團隊在量子態分辨研究中取得重要進展。研究組在最小資源消耗的量子態分辨問題中首次提出了全局

  • 光儲行業迎來2000V新時代

    3月21日,由安徽省工業和信息化廳指導、中國光伏行業協會主辦、陽光電源股份有限公司承辦的“PAT2024愛光伏一生一世”先進技術研討會在合肥舉辦。光

  • 云海二號02組衛星發射成功

    記者從中國航天科技集團獲悉,3月21日13時27分,長征二號丁運載火箭/遠征三號上面級在酒泉衛星發射中心起飛,隨后將云海二號02組衛星送入預定軌道,發射任

  • 千元機皇 小8Gen3+1.5K直屏+5500mAh大電池 有點香啊!

    回望一加去年的整體節奏,如果要用一個詞來總結其數字系列和Ace系列的概況,那就是“卷”!從外觀質感、內存性能到整機體驗,與友商的相互競爭中,一加表現的都

  • 科技助力市場驅動 無人車產品賦能環衛物流等行業

    隨著無人駕駛技術的快速發展,無人車在城市配送、環衛清掃、安防巡邏等應用場景中已得到較好示范應用。3月22日,南京溧水經濟開發區管委會與南京易咖

推薦資訊

  • 日榜
  • 周榜
  • 月榜
国产伦久视频免费观看 视频| 国产国语在线播放视频| 99久久网站| 青草国产在线观看| 精品在线观看一区| 久草免费在线色站| 色综合久久天天综线观看| 欧美国产日韩在线| 青青青草影院 | 国产原创视频在线| 一级毛片视频在线观看| 欧美大片a一级毛片视频| 黄视频网站免费| 中文字幕97| 日韩在线观看网站| 国产伦久视频免费观看视频| 欧美一区二区三区在线观看| 免费一级生活片| 午夜在线亚洲| 99色视频在线| 欧美一级视频免费| 日本在线不卡视频| 成人免费观看视频| 免费一级片在线观看| 午夜激情视频在线观看| 一级女性大黄生活片免费| 一级毛片视频播放| 欧美另类videosbestsex视频 | 麻豆网站在线免费观看| 国产麻豆精品高清在线播放| 欧美一级视频免费观看| 精品国产一区二区三区国产馆| 尤物视频网站在线观看| 久久国产精品自线拍免费| 欧美激情一区二区三区在线| 免费国产在线视频| 成人免费网站久久久| 国产一区二区精品久| 超级乱淫黄漫画免费| 国产一区二区精品久久91| 成人免费一级毛片在线播放视频| 免费一级片在线观看| 欧美电影免费| 天天色成人网| 午夜精品国产自在现线拍| 中文字幕Aⅴ资源网| 成人影视在线播放| 可以免费看毛片的网站| 日日日夜夜操| 精品毛片视频| 在线观看导航| 日韩专区在线播放| 91麻豆精品国产高清在线| 九九久久国产精品| 国产一区二区精品久久91| 欧美激情中文字幕一区二区| 成人免费一级纶理片| 91麻豆精品国产自产在线| 欧美另类videosbestsex视频| 国产不卡在线播放| 韩国毛片免费大片| 日韩男人天堂| 国产一区二区精品久| 四虎影视精品永久免费网站| 日韩免费片| 久久成人亚洲| 免费国产在线视频| 精品视频在线观看免费| 尤物视频网站在线观看| 国产视频久久久久| 国产a网| 成人免费观看男女羞羞视频| 久草免费在线色站| 色综合久久天天综合| 精品视频在线观看免费| 韩国三级视频网站| 日韩av成人| 久久国产影视免费精品| 精品久久久久久综合网| 精品国产香蕉在线播出| 色综合久久天天综合绕观看| 一a一级片| 久久国产影院| 欧美大片a一级毛片视频| 四虎久久影院| 国产精品免费久久| 精品国产亚洲人成在线| 精品国产一区二区三区久久久蜜臀| 精品毛片视频| 亚洲www美色| 日本久久久久久久 97久久精品一区二区三区 狠狠色噜噜狠狠狠狠97 日日干综合 五月天婷婷在线观看高清 九色福利视频 | 欧美大片aaaa一级毛片| 国产网站麻豆精品视频| 99久久精品国产高清一区二区| 日韩在线观看免费完整版视频| 久久99爰这里有精品国产| 日韩在线观看免费完整版视频| 成人a大片高清在线观看| 国产一区二区精品尤物| 国产伦精品一区三区视频| 韩国毛片免费| 精品国产一区二区三区国产馆| 日韩欧美一二三区| 日韩中文字幕一区| 国产亚洲精品aaa大片| 台湾毛片| 九九免费高清在线观看视频| 九九九国产| 91麻豆精品国产高清在线| 日本免费看视频| 亚洲 欧美 91| 天天做日日干| 91麻豆精品国产自产在线观看一区| 国产精品123| 欧美国产日韩一区二区三区| 99色视频在线| 国产成人女人在线视频观看| 九九久久99| 欧美a级片视频| 日韩免费片| 精品在线免费播放| 天天色成人网| 韩国三级香港三级日本三级la| 日韩欧美一及在线播放| 国产福利免费观看| 成人免费观看男女羞羞视频| 日本在线www| 成人免费一级毛片在线播放视频| 国产网站免费在线观看| 四虎久久影院| 一级毛片视频在线观看| 99色吧| 欧美国产日韩在线| 日韩av东京社区男人的天堂| 99久久精品国产高清一区二区| 四虎影视库| 九九久久99综合一区二区| 久久国产精品自由自在| 麻豆网站在线看| 国产一区二区精品久| 亚洲 欧美 91| 精品在线免费播放| 日韩中文字幕在线观看视频| 一级片片| 日韩av成人| 精品国产亚洲人成在线| 四虎影视库国产精品一区| a级毛片免费全部播放| 韩国毛片免费大片| 日韩在线观看视频免费| 一级毛片视频免费| 韩国三级香港三级日本三级la| 国产视频一区二区在线播放| 青草国产在线| 欧美1区| 精品国产亚洲人成在线| 91麻豆精品国产自产在线| 天天做日日爱夜夜爽| 成人a大片高清在线观看| 日本在线www| 香蕉视频三级| 免费国产在线观看| 天天色成人| 成人免费一级毛片在线播放视频| 精品国产一区二区三区久| 国产成人啪精品视频免费软件| a级黄色毛片免费播放视频| 精品美女| 国产综合91天堂亚洲国产| 欧美大片一区| 香蕉视频亚洲一级| 精品国产一区二区三区精东影业| 一a一级片| 欧美爱色| 青草国产在线| 亚洲女初尝黑人巨高清在线观看| 国产美女在线一区二区三区| 四虎久久精品国产| 国产一区免费在线观看| 成人影视在线播放| 免费一级生活片| 99久久精品国产免费| 九九国产| 国产不卡高清在线观看视频| 国产麻豆精品| 精品久久久久久免费影院| 精品毛片视频| 99热精品在线| 午夜在线影院| 日韩女人做爰大片| 美女免费精品高清毛片在线视| 成人高清免费| 成人影院一区二区三区| 99热精品在线| 二级特黄绝大片免费视频大片| 可以免费看毛片的网站| 国产一区免费观看| 亚欧乱色一区二区三区| 亚洲 国产精品 日韩| 日韩中文字幕一区二区不卡|