中文字幕亚洲欧美一区二区三区_亚洲精品菠萝久久久久久久_日本成人免费视频_狠狠躁少妇一区二区三区_国产精品中文字幕久久久_国产乱子伦农村叉叉叉_麻豆tv免费在线观看_av在线这里只有精品_色吧亚洲视频_嫩草影院一二三

設置
  • 日夜間
    隨系統
    淺色
    深色
  • 主題色

GPT4單項僅7.1分,揭露大模型寫代碼三大短板,最新基準測試來了

2024-04-01 14:24:06 來源: 量子位

多團隊聯合出品bwU速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

DevBench團隊 投稿bwU速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

量子位 | 公眾號 QbitAIbwU速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

首個AI軟件工程師Devin正式亮相,立即引爆了整個技術界。bwU速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

Devin不僅能夠輕松解決編碼任務,更可以自主完成軟件開發的整個周期——從項目規劃到部署,涵蓋但不限于構建網站、自主尋找并修復 BUG、訓練以及微調AI模型等。bwU速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

這種 “強到逆天” 的軟件開發能力,讓一眾碼農紛紛絕望,直呼:“程序員的末日真來了?”bwU速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

在一眾測試成績中,Devin在SWE-Bench基準測試中的表現尤為引人注目。bwU速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

SWE-Bench是一個評估AI軟件工程能力的測試,重點考察大模型解決實際 GitHub 問題的能力。bwU速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

Devin以獨立解決13.86%的問題率高居榜首,“秒殺”了GPT-4僅有的 1.74%得分,將一眾AI大模型遠遠甩在后面。bwU速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

這強大的性能讓人不禁浮想聯翩:“未來的軟件開發中,AI將扮演怎樣的角色?”bwU速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

上海人工智能實驗室聯合字節跳動SE Lab的研究人員以及SWE-Bench團隊,提出了一個新測試基準DevBench,首次揭秘大模型在多大程度上可以從PRD出發,完成一個完整項目的設計、開發、測試bwU速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

GPT4單項僅7.1分,揭露大模型寫代碼三大短板,最新基準測試來了

具體地說,DevBench首次對大模型進行了從產品需求文檔(PRD)到完整項目開發各階段表現的評測,包括軟件設計、依賴環境搭建、代碼庫級別代碼生成、集成測試和單元測試。bwU速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

GPT4單項僅7.1分,揭露大模型寫代碼三大短板,最新基準測試來了

實驗證明,DevBench可以揭露GPT、CodeLlama、DeepSeek-Coder 等大語言模型在軟件研發不同階段的能力短板,如面向對象編程能力不足無法編寫較為復雜的構建腳本(build script),以及函數調用參數不匹配等問題。bwU速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

大語言模型距離可以獨立完成一個中小規模的軟件項目開發還有一段路要走。bwU速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

目前,DevBench的論文已經發布在預印平臺arXiv,相關代碼和數據開源在GitHub上。(鏈接見文末)bwU速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

DevBench 有哪些任務?

GPT4單項僅7.1分,揭露大模型寫代碼三大短板,最新基準測試來了

?圖為DevBench框架概覽bwU速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

傳統的編程基準測試往往關注代碼生成的某個單一方面,無法全面反映現實世界編程任務的復雜性。bwU速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

DevBench的出現,打破了這一局限,它通過一系列精心設計的任務,模擬軟件開發的各個階段,從而提供了一個全面評估LLM能力的平臺。bwU速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

DevBench圍繞五個關鍵任務構建,每個任務都關注軟件開發生命周期的一個關鍵階段,模塊化的設計允許對每個任務進行獨立的測試和評估。bwU速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

軟件設計:利用產品需求文檔PRD創建UML圖和架構設計,展示類、屬性、關系,以及軟件的結構布局。該任務參考MT-Bench,采用LLM-as-a-Judge的評測方式。評測主要依據兩個主要指標:軟件設計一般原則(如高內聚低耦合等)和忠實度(faithfulness)。bwU速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

環境設置:根據提供的需求文檔,生成初始化開發環境所需的依賴文件。在評測過程中,該依賴文件將在給定的基礎隔離環境(docker container)內通過基準指令進行依賴環境搭建。隨后在這個模型搭建的依賴環境中,該任務通過執行代碼倉的基準示例使用代碼(example usage),評估執行基準代碼的成功率。bwU速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

代碼實現:依據需求文檔和架構設計,模型需要完成整個代碼庫的代碼文件生成。DevBench開發了一個自動化測試框架,并針對所使用的具體編程語言進行了定制,集成了Python的PyTest、C++的GTest、Java的JUnit和JavaScript的Jest。該任務評估模型生成代碼庫在基準環境中執行基準集成測試和單元測試的通過率。bwU速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

集成測試:模型根據需求,生成集成測試代碼,驗證代碼庫的對外接口功能。該任務在基準實現代碼上運行生成的集成測試,并報告測試的通過率。bwU速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

單元測試:模型根據需求,生成單元測試代碼。同樣,該任務在基準實現代碼上運行生成的單元測試。除了通過率指標外,該任務還引入了語句覆蓋率評價指標,對測試全面性的進行定量評估。bwU速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

GPT4單項僅7.1分,揭露大模型寫代碼三大短板,最新基準測試來了

DevBench 包含哪些數據?

DevBench數據準備過程包括三個階段:倉庫準備、代碼清理和文檔準備。bwU速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

  • 在準備階段,研究人員從GitHub中選擇高質量的倉庫,確保它們的復雜性可管理。
  • 在代碼清理階段,標注人員驗證代碼的功能性,對其進行精煉,并補充和運行測試以確保質量。
  • 文檔準備階段涉及為倉庫創建需求文檔、 UML圖和架構設計。

最終,DevBench的數據集包含4個編程語言,多個領域,共22個代碼庫。這些代碼倉庫的復雜性和所使用編程范式的多樣性為語言模型設置了巨大的挑戰。bwU速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

GPT4單項僅7.1分,揭露大模型寫代碼三大短板,最新基準測試來了

幾個有趣的例子:bwU速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

TextCNNbwU速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

大模型能完整地寫一個TextCNN做文本二分類的模型嗎?能夠自己把數據集從HF拉下來,把訓練跑起來是基本要求。還需模型按照文檔的需求定制超參數、記錄log、存儲checkpoint、同時保證實驗可復現性。bwU速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

(https://github.com/open-compass/DevBench/tree/main/benchmark_data/python/TextCNN)bwU速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

Registration & LoginbwU速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

前端項目往往依賴較多的組件庫和前端框架,模型是否能夠在可能出現版本沖突的前端項目中應對自如?bwU速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

(https://github.com/open-compass/DevBench/tree/main/benchmark_data/javascript/login-registration)bwU速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

People ManagementbwU速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

模型對SQLite數據庫的創建和管理掌握的怎么樣?除了基本的增刪改查操作,模型能否將校園人員信息和關系數據庫的管理和操作封裝成易用的命令行工具?bwU速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

(https://github.com/open-compass/DevBench/tree/main/benchmark_data/cpp/people_management)bwU速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

Actor Relationship GamebwU速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

“六度分隔理論”在影視圈的猜想驗證?模型需要從TMDB API獲取數據,并構建流行演員們之間通過合作電影進行連接的人際連系網。bwU速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

(https://github.com/open-compass/DevBench/tree/main/benchmark_data/java/Actor_relationship_game)bwU速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

ArXiv digestbwU速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

ArXiv論文檢索小工具也被輕松拿捏了?ArXiv的API并不支持“篩選最近N天的論文”的功能,但卻可以“按發表時間排序”,模型能夠以此開發一個好用的論文查找工具嗎?bwU速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

(https://github.com/open-compass/DevBench/tree/main/benchmark_data/python/ArXiv_digest)bwU速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

實驗發現

研究團隊利用DevBench對當前流行的LLMs,包括GPT-4-Turbo進行了全面測試。結果顯示,盡管這些模型在簡單的編程任務中表現出色,但在面對復雜的、真實世界的軟件開發挑戰時,它們仍然遇到了重大困難。特別是在處理復雜的代碼結構和邏輯時,模型的性能還有待提高。bwU速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

GPT4單項僅7.1分,揭露大模型寫代碼三大短板,最新基準測試來了

DevBench不僅揭示了現有LLMs在軟件開發中的局限性,也為未來模型的改進提供了寶貴的洞見。通過這一基準測試,研究人員可以更好地理解 LLMs的強項和弱點,從而有針對性地優化它們,推動AI在軟件工程領域的進一步發展。bwU速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

此外,DevBench 框架的開放性和可擴展性意味著它可以持續適配不同的編程語言和開發場景。DevBench 還在發展過程中,非常歡迎社區的朋友參與共建。bwU速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

Devin 在 SWE-Bench 上一路領先,它的優異表現可以擴展到其他評測場景嗎?隨著 AI 軟件開發能力的持續發展,這場碼農和 AI 的較量讓人倍感期待。bwU速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

還有OpenCompass大模型評測體系

DevBench現已加入OpenCompass司南大模型能力評測體系,OpenCompass是上海人工智能實驗室研發推出的面向大語言模型、多模態大模型等各類模型的一站式評測平臺。bwU速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

OpenCompass具有可復現、全面的能力維度、豐富的模型支持、分布式高效評測、多樣化評測范式以及靈活化拓展等特點。基于高質量、多層次的能力體系和工具鏈,OpenCompass 創新了多項能力評測方法,支持各類高質量的中英文雙語評測基準,涵蓋語言與理解、常識與邏輯推理、數學計算與應用、多編程語言代碼能力、智能體、創作與對話等多個方面,能夠實現對大模型真實能力的全面診斷。DevBench更是拓寬了 OpenCompass 在智能體領域的評測能力。bwU速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

DevBench論文:https://arxiv.org/abs/2403.08604bwU速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
GitHub:https://github.com/open-compass/devBench/bwU速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
OpenCompass https://github.com/open-compass/opencompassbwU速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

本文鏈接:GPT4單項僅7.1分,揭露大模型寫代碼三大短板,最新基準測試來了http://www.sq15.cn/show-2-4434-0.html

聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。

上一篇: 吉娃娃or松餅難題被解決!IDEA研究院新模型打通文本視覺Prompt

下一篇: OpenAI藏了1年多的技術公開!15秒素材克隆聲音,HeyGen也在用

熱門資訊

推薦資訊

  • 日榜
  • 周榜
  • 月榜
九九热精品免费观看| 韩国三级香港三级日本三级| 999精品在线| 日韩avdvd| 欧美一级视频免费| 精品视频免费看| 天天色成人网| 国产原创视频在线| 欧美1区| 香蕉视频亚洲一级| 欧美激情伊人| 亚洲 激情| 韩国毛片免费大片| 一级片片| 欧美大片a一级毛片视频| 国产a视频| 黄色短视屏| 国产激情视频在线观看| 精品国产香蕉伊思人在线又爽又黄| 天天色色网| 黄色免费三级| 国产91丝袜高跟系列| 国产伦久视频免费观看 视频| 99色视频在线| 亚洲 国产精品 日韩| 精品国产一区二区三区久久久狼| 国产91丝袜高跟系列| 欧美1卡一卡二卡三新区| 免费一级生活片| 可以免费看毛片的网站| 久久精品店| 免费一级生活片| 欧美爱色| 成人a大片高清在线观看| 天天色色网| 久草免费资源| 国产精品免费久久| 国产精品自拍一区| 亚洲精品影院| 欧美夜夜骑 青草视频在线观看完整版 久久精品99无色码中文字幕 欧美日韩一区二区在线观看视频 欧美中文字幕在线视频 www.99精品 香蕉视频久久 | 黄色免费三级| 国产亚洲精品成人a在线| 青青青草视频在线观看| 国产精品1024永久免费视频| 欧美激情伊人| 久久成人综合网| 99久久精品国产片| 色综合久久天天综合观看| 韩国三级一区| 亚洲精品影院一区二区| 国产成人欧美一区二区三区的| 国产不卡福利| 四虎影视精品永久免费网站| 深夜做爰性大片中文| 二级片在线观看| 日韩一级精品视频在线观看| 国产91丝袜高跟系列| 国产成人精品综合| 免费一级片网站| 99色视频| 免费国产一级特黄aa大片在线| 黄色福利片| 免费国产一级特黄aa大片在线| 国产网站免费观看| 亚洲 国产精品 日韩| 成人a大片高清在线观看| 国产成人精品综合在线| 国产激情视频在线观看| 四虎久久影院| 精品国产亚洲人成在线| 黄色福利片| 免费国产一级特黄aa大片在线| 国产成人精品综合在线| 日日爽天天| 国产a视频| 四虎久久精品国产| 天天色色网| 免费毛片播放| 成人免费观看网欧美片| 欧美电影免费看大全| 国产欧美精品| 天天色色网| 99热精品在线| 欧美大片a一级毛片视频| 99久久精品费精品国产一区二区| 国产高清在线精品一区二区| 国产伦精品一区二区三区无广告 | 午夜精品国产自在现线拍| 午夜家庭影院| 99久久精品费精品国产一区二区| 亚州视频一区二区| 99久久精品国产高清一区二区| 色综合久久天天综合| 毛片的网站| 久久久久久久久综合影视网| 999精品在线| 九九干| 国产一区二区精品久久91| 国产成人精品影视| 九九久久99| 精品视频在线观看一区二区| 青青青草视频在线观看| 二级特黄绝大片免费视频大片| 国产福利免费观看| 深夜做爰性大片中文| 精品视频在线观看一区二区三区| 韩国三级香港三级日本三级| 好男人天堂网 久久精品国产这里是免费 国产精品成人一区二区 男人天堂网2021 男人的天堂在线观看 丁香六月综合激情 | 韩国三级视频网站| 九九精品久久久久久久久| 国产成人欧美一区二区三区的| 色综合久久手机在线| 日本免费乱人伦在线观看 | 九九精品久久久久久久久| 九九久久国产精品| 欧美日本免费| 国产综合91天堂亚洲国产| 午夜在线影院| 久久国产精品永久免费网站| 欧美a级片视频| 精品视频在线看 | 国产网站麻豆精品视频| 国产麻豆精品高清在线播放| 一级毛片视频在线观看| 麻豆系列 在线视频| 二级片在线观看| 精品视频在线观看视频免费视频 | 亚洲精品中文一区不卡| 国产麻豆精品hdvideoss| 欧美激情影院| 九九九在线视频| 国产视频一区二区在线播放| 国产一级生活片| 成人高清免费| 日日日夜夜操| 成人免费观看男女羞羞视频| 九九干| 黄视频网站在线免费观看| 日韩av东京社区男人的天堂| 精品国产亚洲人成在线| 国产精品免费久久| 精品国产亚洲人成在线| 毛片的网站| 高清一级片| 二级片在线观看| 日本久久久久久久 97久久精品一区二区三区 狠狠色噜噜狠狠狠狠97 日日干综合 五月天婷婷在线观看高清 九色福利视频 | 久草免费在线视频| 国产一区免费在线观看| 久久国产一久久高清| 精品视频在线看| 久久国产影院| 成人免费观看的视频黄页| 在线观看成人网| 国产激情一区二区三区| 国产美女在线一区二区三区| 精品久久久久久中文| 韩国三级视频在线观看| 欧美一区二区三区在线观看| 国产不卡高清| 好男人天堂网 久久精品国产这里是免费 国产精品成人一区二区 男人天堂网2021 男人的天堂在线观看 丁香六月综合激情 | 可以免费在线看黄的网站| 久草免费在线视频| 精品国产一区二区三区久久久蜜臀 | 欧美一区二区三区在线观看| 青青久久精品国产免费看| 高清一级片| 一级女性全黄生活片免费| 你懂的日韩| 成人免费观看男女羞羞视频| 久久久成人网| 国产91丝袜在线播放0| 国产伦久视频免费观看视频| 精品国产香蕉伊思人在线又爽又黄| 国产a免费观看| 二级特黄绝大片免费视频大片| 国产精品免费久久| 国产91精品露脸国语对白| 精品视频免费在线| 国产一区二区精品久久| 国产一区二区精品久久91| 国产福利免费观看| 久久久成人网| 免费国产在线观看不卡| 91麻豆精品国产自产在线观看一区 | 欧美电影免费看大全| 尤物视频网站在线观看| 九九九网站| 尤物视频网站在线观看| 国产成人精品综合在线| 亚洲爆爽| 成人免费网站久久久| 国产不卡精品一区二区三区| 国产欧美精品午夜在线播放| 国产视频一区二区在线观看| 好男人天堂网 久久精品国产这里是免费 国产精品成人一区二区 男人天堂网2021 男人的天堂在线观看 丁香六月综合激情 | 九九热精品免费观看| 免费国产在线观看不卡| 国产91丝袜高跟系列| 你懂的福利视频| 青青青草视频在线观看|