中文字幕亚洲欧美一区二区三区_亚洲精品菠萝久久久久久久_日本成人免费视频_狠狠躁少妇一区二区三区_国产精品中文字幕久久久_国产乱子伦农村叉叉叉_麻豆tv免费在线观看_av在线这里只有精品_色吧亚洲视频_嫩草影院一二三

設置
  • 日夜間
    隨系統
    淺色
    深色
  • 主題色

僅需格式轉換提升9%數學推理能力,上交開源新對齊方法ReAlign

2024-03-17 20:22:16 來源: 量子位

代碼數據集都開源uip速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

大模型對齊新方法,讓數學推理能力直接提升9%。uip速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

上海交通大學生成式人工智能實驗室(GAIR Lab)新成果ReAlign,現已開源。uip速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

僅需格式轉換提升9%數學推理能力,上交開源新對齊方法ReAlign

隨著以ChatGPT為代表的語言大模型的快速發展,研究人員意識到訓練數據的質量才是大模型對齊的關鍵。uip速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

然而,目前主流的提示數據質量的方法不是需要大量人工成本(人工構造高質量數據)就是容易遭受大模型幻覺的影響(從蒸餾數據中選擇高質量樣本)。uip速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

ReAlign能以較小的人工成本提升現有數據集的質量,進而提升模型整體對齊能力,包含數學推理能力、回答問題的事實性、回答的可讀性。uip速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

目前,該項目開源了大量資源:uip速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

  • ReAlign代碼(使用方法和步驟均在Github中給出)
  • ReAlign后的數據集,Github倉庫中給出,同時包含huggingface版本。
  • 46個不同任務場景對應的任務描述以及人工構造的回答格式。
  • 用于對指令數據任務分類的分類器以及該分類器的訓練數據。
  • 用于事實性(Factuality)評估的NQ數據集及其ground truth。
  • 用于可讀性(Readability)和事實性(Factuality)評估的prompt。

該方法有如下優勢:uip速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

可以顯著提升數學推理能力:LLaMA-2-13B在GSM8K上的數學推理能力從46.77%提升到了56.63%uip速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

同時具備顯著的OOD泛化能力:在MATH上訓練,LLaMA-2-13B在GSM8K上從14.48%提升到了25.17%uip速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

僅需格式轉換提升9%數學推理能力,上交開源新對齊方法ReAlign

該方法與其他對齊技術(如SFT、DPO、指令數據構造方法等)垂直,即可以在現有技術的基礎上去進一步提升大模型性能。uip速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

該方法所得到的模型在回答問題時具備更易讀、組織格式更優良、原因解釋更細致等優點,可以顯著提升可讀性與數學推理能力。uip速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

該方法在針對知識密集型任務時采用了檢索增強技術,可以有效提升模型的事實性,減少了幻覺帶來的影響。uip速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

該文章也指出ReAlign的底層邏輯是重新協調人類與大模型在對齊過程中的角色,利用他們之間互補的優勢,讓人類去明確指定自己的偏好,而大模型采用自己強大的生成能力去按照人類指定偏好重構回答,并不會蒸餾大模型本身的知識(避免幻覺問題)。uip速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

示例

下圖示例1展示了ReAlign用于一個數學任務訓練數據后的效果,可以看出ReAlign后的回答格式更加清晰易讀。uip速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

僅需格式轉換提升9%數學推理能力,上交開源新對齊方法ReAlign

下圖示例2展示了采用原始數據集訓練后的模型與采用ReAlign的數據集訓練后的模型在回答問題上的差異,紅色字體高亮了原始回答較弱的部分,綠色字體高亮了ReAlign后的模型回答較強的部分。uip速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

僅需格式轉換提升9%數學推理能力,上交開源新對齊方法ReAlign

方法

該方法流程示意圖如下:uip速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

僅需格式轉換提升9%數學推理能力,上交開源新對齊方法ReAlign

該方法分為3個模塊:準則定義、檢索增強、和格式重構。uip速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

1、準則定義

該預定義準則包含任務和相應的格式。uip速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

任務uip速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

該文章作者人工定義了46個任務,可以歸為10個大類,具體分類情況如下表所示:uip速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

僅需格式轉換提升9%數學推理能力,上交開源新對齊方法ReAlign

同時,作者針對這46個任務訓練了一個任務分類器。uip速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

格式uip速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

由于不同任務對于格式的需求是不一樣的,因此作者針對這46種任務精心設計了46個回答格式,包含組織結構、章節內容要求和輸出形態。這樣特定的格式相比通用格式更清晰易讀,下表示例為郵件生成任務的格式:uip速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

僅需格式轉換提升9%數學推理能力,上交開源新對齊方法ReAlign

2、檢索增強

知識密集型任務如開放域問答和事實驗證任務,需要大量外部知識作為證據來確保回答的事實性。uip速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

因此作者選擇了5個知識密集型任務,針對這些任務的問題,先去調用谷歌搜索的API得到對應證據,用于后續改寫。以下是一個檢索增強的示例,可以看出有了檢索增強后的ReAlign可以給出具備事實性的詳細解釋:uip速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

僅需格式轉換提升9%數學推理能力,上交開源新對齊方法ReAlign

3、格式重構

重寫uip速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

作者利用大模型(比如ChatGPT)基于之前定義的準則和檢索到的證據(對于知識密集型任務)來重新改寫原數據集中的回答。具體來說,是通過提示將問題、原始回答、格式要求和證據(對于知識密集型任務)進行組織,然后詢問大模型得到重寫后的回答。此外,由于一些問題有特定的格式要求,因此作者采用了自適應改寫,即先讓大模型判斷該問題與給定的格式是否匹配,若匹配則改寫,否則保留原始回答。uip速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

此外,作者認為一些特定任務不應有特定格式要求,例如故事生成、詩歌生成等,因此作者對這類任務并沒有采用格式重構(具體可看論文)。uip速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

后處理uip速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

長度過濾:作者發現大模型在改寫回答的時候偶爾會只輸出做了改變的句子,這種情況下長度會銳減。因此,作者將改寫后長度小于原始回答一半的數據保留其原始回答不改變。uip速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

基于任務的過濾:作者發現任務分類器有時候會導致錯誤傳播,因此針對以下3個任務設計了特定過濾規則:uip速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

  • 代碼相關任務:通過關鍵詞匹配確定改寫前后的回答是否均包含代碼,如果其中一方不包含代碼則認為改寫失敗,進而保留原始回答。
  • 考題任務:匹配改寫前后的答案是否一致,若不一致則認為改寫失敗,保留原始回答。
  • 計劃任務:如果問題中不包含計劃相關的關鍵詞,則不采納改寫的回答,保留原始回答。

實驗與結果

作者在5個數據集(Open-Platypus、No Robots、Alpaca、GSM8K、MATH)和2個模型(LLaMA-2-13B和Mistral-7B)上做了實驗。uip速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

作者首先在AlpacaEval、MT-Bench、Vicuna-Bench上測試了通用對齊能力,結果如下表所示,發現除了部分MT-Bench的第二輪對話性能下降,其他均有提升,證明了對回答格式重構可以有效提升對齊能力。uip速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

僅需格式轉換提升9%數學推理能力,上交開源新對齊方法ReAlign

隨后,作者測試該方法對數學推理能力的影響,其在GSM8K和MATH兩個常用數學數據集上進行測試。結果如下表所示,可以看到該方法可以顯著提升數學推理能力,甚至可以得到9-10個點的提升。uip速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

此外,還具有顯著的OOD泛化能力,例如LLaMA-2-13B在MATH上訓練,在GSM8K上測試可以提升10個點以上。作者認為這樣的提升可能是因為格式重構后帶來了更多以及更清晰的中間步驟和解釋,進而提升了模型的數學推理能力。uip速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

僅需格式轉換提升9%數學推理能力,上交開源新對齊方法ReAlign

接下來,作者構造了一個評測標準去測試模型的事實性(Factuality),他們從帶有正確答案的NQ數據集中隨機篩選了100條數據。uip速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

隨后用訓練好的模型去回答這100個問題,得到模型的回答,接下來采用一個提示模版將問題、答案和模型的回答組織起來,讓GPT-4為該回答與正確答案的符合程度進行打分作為事實性分數。uip速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

測評結果如下圖所示,可以看到在這三個數據集上事實性均有提升,作者認為是檢索增強帶來的效果。uip速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

僅需格式轉換提升9%數學推理能力,上交開源新對齊方法ReAlign

此外,作者還測試了模型的可讀性(Readability),他們針對Vicuna-Bench的回答,采用GPT-4和人工評估對用ReAlign前后的回答進行一對一可讀性比較。uip速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

結果如下圖所示,可以看到無論是GPT-4還是人工,ReAlign后的數據集相比原始數據集均有顯著提升。uip速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

僅需格式轉換提升9%數學推理能力,上交開源新對齊方法ReAlign

作者還進行了對齊稅(Alignment Tax)分析,在知識型評測基準BBH和AGIEval上進行測試,發現采用ReAlign后的模型并不會損失其原有的知識,并且在個別情況還會有提升。uip速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

僅需格式轉換提升9%數學推理能力,上交開源新對齊方法ReAlign

最后,作者分析了ReAlign的擴展定律(Scaling Law),即只ReAlign一部分數據,對訓練后的模型的影響情況。uip速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

結果如下圖所示,可以看出只ReAlign 5%的數據即可為通用對齊能力帶來全部ReAlign的67%提升,并且隨著ReAlign的比例提升性能也呈上升趨勢。uip速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

僅需格式轉換提升9%數學推理能力,上交開源新對齊方法ReAlign

總結

總的來說,GAIR研究組提出了一個新的對齊方法ReAlign,其可以自動化提升現有指令數據集的回答質量,并且最小化了人工成本和幻覺影響。uip速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

他們ReAlign得到了了5個新的高質量數據集Open-Platypus、No Robots、Alpaca、GSM8K和MATH。實驗證明,ReAlign可以顯著提升通用對齊能力、數學推理能力、事實性和可讀性,并且不會損害知識能力。uip速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

此外,也公開了數據集、人工精心撰寫的46種任務描述及格式、任務分類器及其訓練數據、事實性評估數據集。uip速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

論文地址:https://arxiv.org/pdf/2402.12219.pdfuip速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
項目地址:https://gair-nlp.github.io/ReAlign/uip速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
代碼與數據地址:https://github.com/GAIR-NLP/ReAlignuip速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

本文鏈接:僅需格式轉換提升9%數學推理能力,上交開源新對齊方法ReAlignhttp://www.sq15.cn/show-2-3874-0.html

聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。

上一篇: OpenAI大模型上身機器人,原速演示炸場!

下一篇: 用AI重構PC,榮耀筆記本AI PC技術正式發布

熱門資訊

推薦資訊

  • 日榜
  • 周榜
  • 月榜
国产视频一区二区在线观看| 精品国产香蕉在线播出 | 国产精品123| 国产一区二区精品久| 色综合久久天天综合观看| 午夜在线影院| 成人高清视频在线观看| 可以免费在线看黄的网站| 台湾毛片| 韩国三级香港三级日本三级| 精品国产亚一区二区三区| 成人免费网站视频ww| 日韩欧美一及在线播放| 久久99爰这里有精品国产| 日本久久久久久久 97久久精品一区二区三区 狠狠色噜噜狠狠狠狠97 日日干综合 五月天婷婷在线观看高清 九色福利视频 | 日本伦理网站| 国产国语在线播放视频| 台湾美女古装一级毛片| 台湾美女古装一级毛片| 欧美1卡一卡二卡三新区| 四虎久久精品国产| 韩国毛片免费大片| 九九精品久久久久久久久| 国产精品1024永久免费视频| 一级女性全黄久久生活片| 欧美电影免费看大全| 精品国产一区二区三区久久久蜜臀| a级毛片免费全部播放| 欧美另类videosbestsex| 久草免费在线视频| 青草国产在线观看| 91麻豆tv| 欧美激情一区二区三区视频| 韩国三级视频在线观看| 欧美一区二区三区性| 国产不卡在线看| 99久久精品国产高清一区二区 | 一级女性全黄生活片免费| 九九热精品免费观看| 成人免费一级毛片在线播放视频| 国产综合成人观看在线| 欧美激情一区二区三区在线| 午夜精品国产自在现线拍| 色综合久久天天综线观看| 亚洲 男人 天堂| 精品国产一区二区三区久久久蜜臀| 成人免费网站视频ww| 亚洲第一色在线| 中文字幕一区二区三区精彩视频 | 欧美激情一区二区三区在线| 国产福利免费观看| 精品国产一区二区三区久久久狼 | 亚洲精品影院| 99色视频在线| 精品视频免费观看| 成人高清视频在线观看| 亚洲精品影院一区二区| 九九久久国产精品| 久久精品店| 黄视频网站免费观看| 国产一区二区精品久| 日韩女人做爰大片| 97视频免费在线| 亚洲不卡一区二区三区在线| 亚洲女人国产香蕉久久精品 | 青青久久精品| 精品久久久久久免费影院| 香蕉视频久久| 国产成人精品影视| 天堂网中文字幕| 日日夜夜婷婷| 一本高清在线| 亚洲第一视频在线播放| 亚洲 欧美 91| 国产亚洲男人的天堂在线观看| 国产视频一区在线| 99热精品在线| 日韩专区第一页| 99久久精品国产高清一区二区 | 国产91精品一区| 91麻豆精品国产自产在线观看一区| 成人在免费观看视频国产| 国产网站免费| 青青青草影院| 麻豆午夜视频| 日韩av东京社区男人的天堂| 99久久精品国产免费| 黄视频网站在线免费观看| 精品国产香蕉在线播出 | 日本在线不卡视频| 成人在激情在线视频| 欧美激情一区二区三区中文字幕| 你懂的福利视频| 在线观看导航| 成人免费高清视频| 一本高清在线| 好男人天堂网 久久精品国产这里是免费 国产精品成人一区二区 男人天堂网2021 男人的天堂在线观看 丁香六月综合激情 | 日本伦理黄色大片在线观看网站| 国产伦理精品| 国产91素人搭讪系列天堂| 青青久久精品国产免费看| 国产一区免费在线观看| 日韩av片免费播放| 日韩欧美一及在线播放| 亚洲女初尝黑人巨高清在线观看| 日韩avdvd| 久久精品欧美一区二区| 久久国产精品自由自在| 精品久久久久久综合网| 国产高清在线精品一区a| 国产高清在线精品一区a| 九九久久99综合一区二区| 精品国产三级a| 精品在线免费播放| 久草免费在线视频| 999精品视频在线| 亚欧成人毛片一区二区三区四区| 欧美激情一区二区三区视频高清| 美女被草网站| 四虎影视久久| 日本特黄特黄aaaaa大片| 欧美激情一区二区三区在线| 欧美激情一区二区三区视频高清| 国产高清在线精品一区a| 在线观看导航| 国产精品1024永久免费视频 | 国产麻豆精品视频| 精品国产香蕉在线播出| 国产国语对白一级毛片| 国产福利免费观看| 成人免费观看男女羞羞视频| 国产成人精品综合在线| 日韩专区第一页| 国产亚洲精品aaa大片| 日日夜人人澡人人澡人人看免| 成人影院一区二区三区| 国产成人欧美一区二区三区的| 韩国三级视频在线观看| 好男人天堂网 久久精品国产这里是免费 国产精品成人一区二区 男人天堂网2021 男人的天堂在线观看 丁香六月综合激情 | 天天做人人爱夜夜爽2020| 日韩在线观看视频网站| 欧美激情一区二区三区在线| 九九精品在线播放| 国产视频久久久| 你懂的福利视频| 毛片的网站| 精品视频免费在线| 午夜欧美福利| 日韩中文字幕在线播放| 一级女性全黄生活片免费| 久久精品成人一区二区三区| 日本乱中文字幕系列| 午夜在线亚洲| 欧美夜夜骑 青草视频在线观看完整版 久久精品99无色码中文字幕 欧美日韩一区二区在线观看视频 欧美中文字幕在线视频 www.99精品 香蕉视频久久 | 二级特黄绝大片免费视频大片| 精品视频一区二区三区免费| 亚洲天堂免费观看| 91麻豆国产福利精品| 日本伦理片网站| 亚洲女初尝黑人巨高清在线观看| 日韩一级黄色片| 国产一级强片在线观看| 四虎影视库| 国产一区二区精品久久91| 精品视频在线观看视频免费视频| 人人干人人草| 九九九在线视频| 国产91素人搭讪系列天堂| 精品在线免费播放| 久草免费在线色站| 九九九国产| 日本伦理网站| 精品视频免费在线| 成人高清视频在线观看| 精品视频在线看 | 国产一区二区精品尤物| 国产91精品系列在线观看| 好男人天堂网 久久精品国产这里是免费 国产精品成人一区二区 男人天堂网2021 男人的天堂在线观看 丁香六月综合激情 | 91麻豆精品国产综合久久久| 99久久精品国产高清一区二区| 国产不卡在线观看视频| 日韩专区第一页| 99热视热频这里只有精品| 精品在线观看国产| 精品毛片视频| a级毛片免费观看网站| 香蕉视频亚洲一级| a级精品九九九大片免费看| 精品久久久久久中文字幕一区| 日韩免费在线| 成人影院一区二区三区| 欧美国产日韩一区二区三区| 欧美一区二区三区在线观看| 深夜做爰性大片中文| 欧美激情一区二区三区在线播放| 黄视频网站在线免费观看| 欧美激情在线精品video| 久久精品人人做人人爽97| 四虎论坛| 国产伦精品一区二区三区无广告 |