中文字幕亚洲欧美一区二区三区_亚洲精品菠萝久久久久久久_日本成人免费视频_狠狠躁少妇一区二区三区_国产精品中文字幕久久久_国产乱子伦农村叉叉叉_麻豆tv免费在线观看_av在线这里只有精品_色吧亚洲视频_嫩草影院一二三

設置
  • 日夜間
    隨系統
    淺色
    深色
  • 主題色

抱抱臉Open了OpenAI的秘密武器,網易參與復現

2024-04-08 08:54:59 來源: 量子位

Too Long;Didn’t ReadviH速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

西風 發自 凹非寺viH速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

量子位 | 公眾號 QbitAIviH速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

OpenAI的秘密武器、ChatGPT背后功臣RLHF,被開源了。viH速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

來自Hugging Face、加拿大蒙特利爾Mila研究所、網易伏羲AI Lab的研究人員從零開始復現了OpenAI的RLHF pipeline,羅列了25個關鍵實施細節viH速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

最終成功展示了隨著模型大小的增加,響應質量顯著提升的scaling行為,其中2.8B、6.9B的Pythia模型在性能上超過了OpenAI發布的1.3B checkpoint。viH速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

抱抱臉Open了OpenAI的秘密武器,網易參與復現

沒有寫在論文中,但被作者在推文中po出來的,還有一個初步的Pythia 1.4B實驗,根據GPT-4的數據顯示,這個1.4B模型非常接近OpenAI的1.3B性能(由于GPT4成本過高,只進行了一次評估)。viH速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

抱抱臉Open了OpenAI的秘密武器,網易參與復現

研究人員表示,他們的這一“配方”的獨特之處在于對SFT、RM和PPO使用了單一的學習率,所以再重現他們的工作會變得更加簡單。viH速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

作者已公開發布了訓練好的模型checkpoint和代碼。viH速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

抱抱臉Open了OpenAI的秘密武器,網易參與復現

順便一提,Huggingface最近上了一把新聞,抱抱臉現在是正式譯名了viH速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

抱抱臉Open了OpenAI的秘密武器,網易參與復現

viH速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

抱抱臉Open了OpenAI的秘密武器,網易參與復現

寫在前頭

大語言模型的功能實質上就是在玩“詞語接龍”——以給定的前面的token,預測下一個token。viH速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

為了讓輸出的下一個token符合人類意愿,人類反饋強化學習(RLHF)這一方法理念逐漸被引入pipeline,用于收集成對的人類偏好,訓練獎勵模型(RM)來對這些偏好進行建模,并使用強化學習(RL)創建一個模型來輸出人類喜歡的內容。viH速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

OpenAI對RLHF的探索一直走在前頭。viH速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

在2020年“Learning to summarize from human feedback”這項工作中,OpenAI研究員將RLHF應用到了捕捉原始文本主要信息和意圖的摘要任務中。viH速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

這種人類反饋訓練的模型在英文摘要任務上顯著優于人類參考摘要和僅使用監督學習的更大模型。且具有較強的泛化能力,在沒有特定領域微調的情況下,也能生成高質量的文章摘要,接近人類參考摘要的質量。viH速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

抱抱臉Open了OpenAI的秘密武器,網易參與復現

在2022年“Training language models to follow instructions with human feedback”這項工作中,RLHF再次被使用,為指令遵循任務而專門設計的InstructGPT誕生。viH速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

這也是GPT-3到ChatGPT的過渡論文。viH速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

抱抱臉Open了OpenAI的秘密武器,網易參與復現

InstructGPT的結構和訓練技術與ChatGPT大差不差,所以也被稱為是ChatGPT的兄弟模型。而此后OpenAI并未放出ChatGPT論文,所以有不少學者從InstructGPT出發探索ChatGPT的內核。viH速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

其中秘密武器RLHF,開源界圍繞著它做了不少工作,不過想要重現OpenAI的RLHF pipeline很是困難。viH速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

主要有這么幾個原因:viH速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

  • RL和RLHF有許多微妙的實現細節,這些細節對訓練穩定性有很大影響;
  • 對于指令遵循任務,如評估一個編碼任務中生成的800行代碼片段的質量,評估模型的表現不太行;
  • 模型需要長時間的訓練和迭代。

考慮到以上原因,加之總結任務比一般的指令任務更容易評估,所以Hugging Face最新的這項工作選擇退后一步,從OpenAI早期的RLHF工作(也就是上面第一篇論文的摘要任務)中,探尋OpenAI的RLHF的真面目。viH速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

25個細節深度復現

RLHF通常包括以下三個步驟。viH速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

步驟1:訓練SFT(監督微調)策略viH速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

使用下一個詞預測損失對預訓練的LLM進行微調,這些微調數據基于人類示范。viH速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

在這項復現工作中,人類示范數據與OpenAI的工作保持一致,選自過濾后的Reddit TL;DR(Too Long; Didn’t Read)數據集(當時OpenAI還Open了他們的人類反饋數據集)。viH速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

步驟2:收集偏好對并訓練RM(獎勵模型)viH速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

使用SFT策略等采樣不同完成序列,讓人類標注員指出他們較偏好的序列。viH速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

基于這些偏好數據,通過在SFT策略上添加一個隨機初始化的線性頭來初始化RM,并優化交叉熵損失函數進行訓練,目標是預測人類標注員更傾向于接受哪種完成序列。viH速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

步驟3:針對RM訓練RL(強化學習)策略viH速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

從SFT策略初始化,RL策略根據RM對采樣的完成序列給出獎勵分數,同時加上一個KL懲罰項以防止過度偏離SFT策略。然后使用PPO算法最大化這個RLHF目標函數。viH速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

研究人員針從數據集到SFT、RM、OPP,共介紹了25個復現細節,深入分析了TL;DR數據集的規格、分詞過程和分詞長度分布。同時,詳細描述了SFT和RM組件的訓練設置、實施細節和結果。viH速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

感興趣的家人們可以劃到最后查看論文,這里羅列了作者認為有趣的細節。viH速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

數據預處理階段:viH速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

對于RLHF的提示查詢,OpenAI在最后一段進行截斷,而不是使用硬性的截斷限制;同時確保“TL;DR:”之后沒有多余的空格。viH速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

抱抱臉Open了OpenAI的秘密武器,網易參與復現

始終在reference completions前加上前導空格,在reference completions后添加`<|endoftext|>`,并使用單獨的[PAD] token填充。viH速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

抱抱臉Open了OpenAI的秘密武器,網易參與復現

SFT和偏好數據集的tokenization length不同,因此在SFT和RM訓練期間分別設置最大token長度時需要注意。viH速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

抱抱臉Open了OpenAI的秘密武器,網易參與復現

RM的驗證集非常有趣,因為它包含更多獨特的策略對進行比較,所以它有很多超出分布的數據。viH速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

抱抱臉Open了OpenAI的秘密武器,網易參與復現

SFT階段:viH速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

SFT階段沒有太多的實現細節,只需要標準的下一個token預測損失就可以了。除了使用了不同的學習率之外,研究人員的設置幾乎與原始設置相同。viH速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

損失下降,ROUGE分數在4個隨機種子和3個模型checkpoint大小上都有所提高。viH速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

抱抱臉Open了OpenAI的秘密武器,網易參與復現

RM訓練:viH速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

RM訓練更有趣。例如,研究人員發現RM只在EOS token處提取獎勵。此外,在檢查獎勵的logits時,除了EOS token外,幾乎所有的logits都是負數。viH速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

抱抱臉Open了OpenAI的秘密武器,網易參與復現

結果非常不錯,驗證準確率提高了,RM幾乎完美地轉移到了偏好數據集驗證集中的CNN/DM子集上。viH速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

抱抱臉Open了OpenAI的秘密武器,網易參與復現

他們計算了SFT demonstration的平均獎勵——標量值看起來有些隨意;還計算了OpenAI偏好數據集中每個批號和置信度的驗證準確率。viH速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

值得注意的是,不同的批次/置信度可能會有截然不同的準確率。viH速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

抱抱臉Open了OpenAI的秘密武器,網易參與復現

研究人員也測量了RM與GPT3.5和RM的一致性率(agreement rate),并發現一致性率有所提高,但在6.9B級別時有所減弱。viH速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

并繪制了AnthropicAI所做的RM校準,發現RM通常校準不足。viH速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

抱抱臉Open了OpenAI的秘密武器,網易參與復現

研究人員將驗證準確率與DPO的隱式RM進行了比較,發現出于某種原因DPO的驗證準確率較低。viH速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

幾個不同點:viH速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

  • RM訓練只在EOS token處應用損失,而DPO在每個完成token處應用損失。
  • DPO還有一個可能影響訓練的$beta參數,RM則沒有。
  • 研究員Michael Noukhovitch提出了個有說服力的觀點:DPO的目標可能更難優化,因為你需要使你的logprobs與基本模型有足夠大的不同才能更改獎勵,而RM可以學習一個線性頭,可以更容易/更快地改變獎勵的值。
抱抱臉Open了OpenAI的秘密武器,網易參與復現

PPO訓練:viH速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

有趣的是,學習值函數的行為與RM截然不同。例如,值函數logits通常更為正,因為在每個時間步長,它都試圖對最終分數進行建模。viH速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

抱抱臉Open了OpenAI的秘密武器,網易參與復現

PPO也使用了EOS技巧。在PPO訓練中,研究人員通常采樣固定數量的token,比如48個。如果完成不以EOS token結束怎么辦?前面已經提到了,非EOS token的logits幾乎總是負的(并且可能無效)。viH速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

EOS技巧基本上用恒定的-1獎勵取代了不以EOS token結尾的完成的獎勵。有幾個目的:viH速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

抱抱臉Open了OpenAI的秘密武器,網易參與復現

研究人員還嘗試了PPO的獎勵白化處理,并發現這樣使得與參考摘要的勝率略有降低,以及完成token的長度略微縮短。viH速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

抱抱臉Open了OpenAI的秘密武器,網易參與復現

長度在這里是一個混雜因素,所以研究人員引導了OpenAI進行的長度控制分析,通過將x軸設置為模型摘要長度與參考摘要長度之比的對數來執行。viH速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

當長度得到控制時,研究人員發現比較獎勵白化的結果更具挑戰性,但盡管如此,在每個摘要長度上,PPO模型幾乎總是優于SFT模型。viH速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

抱抱臉Open了OpenAI的秘密武器,網易參與復現

PPO 的訓練曲線如下所示。值得注意的是,幾個1B型號的KL值爆炸了。從優化的角度來看,這并沒有什么問題,因為RLHF獎勵一直在上升,這些1B模型對應于“獎勵黑客”/過度優化的模型。viH速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

抱抱臉Open了OpenAI的秘密武器,網易參與復現

為了更好地理解模型的行為,研究人員還可視化突出顯示了經過微調的模型在生成文本時總會以一個EOS token結束。為了進一步探索這一點,原論文附錄部分提供了更多類似的可視化效果。viH速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

抱抱臉Open了OpenAI的秘密武器,網易參與復現

論文鏈接:https://arxiv.org/abs/2403.17031viH速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
GitHub鏈接:viH速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
[1]https://github.com/vwxyzjn/summarize_from_feedback_detailsviH速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
[2]https://github.com/vwxyzjn/summarize_from_feedback_details/blob/main/visualize_tokens.pyviH速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
參考鏈接:https://x.com/vwxyzjn/status/1773011925666050313?s=20viH速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

本文鏈接:抱抱臉Open了OpenAI的秘密武器,網易參與復現http://www.sq15.cn/show-2-4630-0.html

聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。

上一篇: 斯坦福團隊新作:喊話就能指導機器人,任務成功率暴增,網友:特斯拉搞快點

下一篇: OpenAI語音模型“炸場” 15秒樣本即可復刻人聲

熱門資訊

推薦資訊

  • 日榜
  • 周榜
  • 月榜
国产原创中文字幕| 国产网站在线| 成人在免费观看视频国产| 日韩免费在线观看视频| 欧美激情在线精品video| 欧美激情一区二区三区在线 | 香蕉视频久久| 国产麻豆精品免费密入口| 日韩专区一区| 精品毛片视频| 91麻豆精品国产自产在线| 黄色短视频网站| 久久成人亚洲| 成人a大片高清在线观看| 精品国产一区二区三区久| 日韩专区在线播放| 国产韩国精品一区二区三区| 欧美1卡一卡二卡三新区| 久久99中文字幕久久| 国产视频一区二区三区四区 | 国产高清在线精品一区二区| 日韩专区亚洲综合久久| 国产国语在线播放视频| 日韩综合| 二级特黄绝大片免费视频大片| 国产亚洲精品aaa大片| 国产高清在线精品一区a| 91麻豆国产级在线| 97视频免费在线| 在线观看成人网| 欧美电影免费看大全| 日本伦理片网站| 天天做人人爱夜夜爽2020 | 国产麻豆精品免费视频| 一本伊大人香蕉高清在线观看| 国产网站免费| 99久久网站| 免费国产在线视频| 日本免费看视频| 一级女性全黄久久生活片| 亚洲 激情| 国产视频久久久| 成人高清视频在线观看| 999精品在线| 日韩免费片| 成人免费一级毛片在线播放视频| 免费毛片播放| 九九热国产视频| 中文字幕97| 97视频免费在线| 成人高清视频免费观看| 日韩在线观看免费| 亚欧视频在线| 欧美激情一区二区三区视频 | 精品久久久久久免费影院| 国产高清在线精品一区二区| 台湾毛片| 国产高清在线精品一区二区| 日韩中文字幕一区二区不卡| 久久国产影院| 日日日夜夜操| 四虎影视久久久| 精品视频一区二区三区免费| 一本伊大人香蕉高清在线观看| 国产精品免费精品自在线观看| 欧美a级片免费看| 国产麻豆精品免费视频| 韩国三级一区| 国产不卡高清在线观看视频| 亚洲天堂在线播放| 日日日夜夜操| 亚久久伊人精品青青草原2020| 色综合久久久久综合体桃花网| 91麻豆精品国产综合久久久| 欧美大片毛片aaa免费看| 国产视频久久久久| 成人高清视频在线观看| 九九久久国产精品| 香蕉视频一级| 国产伦精品一区三区视频| 香蕉视频三级| 一本高清在线| 91麻豆精品国产自产在线观看一区| 欧美激情中文字幕一区二区| 国产91素人搭讪系列天堂| 成人免费一级毛片在线播放视频| 成人在免费观看视频国产| 亚洲第一色在线| 99久久网站| 你懂的在线观看视频| 亚洲 激情| 欧美一级视频高清片| 欧美a级片免费看| 欧美激情一区二区三区在线 | 亚洲精品久久久中文字| 麻豆污视频| 精品视频一区二区三区| 色综合久久天天综合绕观看| 黄色免费网站在线| 午夜在线亚洲| 国产一区免费在线观看| 香蕉视频久久| 日本伦理片网站| 国产精品免费久久| 国产不卡精品一区二区三区| 日韩在线观看免费| 色综合久久久久综合体桃花网| 天天做日日干| 国产a视频精品免费观看| 日韩av成人| 精品国产亚一区二区三区| 日本特黄特色aa大片免费| 久久精品人人做人人爽97| 美女免费精品视频在线观看| 色综合久久天天综合| 青青青草影院| 天天做日日干| 欧美夜夜骑 青草视频在线观看完整版 久久精品99无色码中文字幕 欧美日韩一区二区在线观看视频 欧美中文字幕在线视频 www.99精品 香蕉视频久久 | 亚洲天堂一区二区三区四区| 午夜欧美成人久久久久久| 美女免费精品高清毛片在线视 | 欧美1区| 精品国产亚洲一区二区三区| 日韩av成人| 国产一区二区精品久久| 国产成人女人在线视频观看 | 精品国产三级a| 精品在线视频播放| 成人av在线播放| 国产网站在线| 国产一级强片在线观看| 欧美爱爱网| 在线观看成人网| 欧美大片一区| 在线观看成人网 | 日韩免费片| 999久久66久6只有精品| 国产福利免费视频| 中文字幕Aⅴ资源网| 亚洲天堂免费| 精品国产一区二区三区久久久蜜臀| 国产视频一区二区三区四区 | 国产麻豆精品| 成人在免费观看视频国产| 久久99中文字幕久久| 久草免费在线观看| 韩国毛片 免费| 国产91精品系列在线观看| 国产伦久视频免费观看 视频| 韩国三级视频在线观看| 中文字幕一区二区三区 精品 | 午夜在线影院| 日本在线不卡视频| 成人免费网站视频ww| 欧美18性精品| 国产91视频网| 二级片在线观看| 成人免费福利片在线观看| 好男人天堂网 久久精品国产这里是免费 国产精品成人一区二区 男人天堂网2021 男人的天堂在线观看 丁香六月综合激情 | 成人影视在线观看| 亚洲精品中文字幕久久久久久| 日韩欧美一二三区| 国产一区国产二区国产三区| 日韩免费在线视频| 日本免费看视频| 天天做日日爱夜夜爽| 精品视频在线观看一区二区三区| 国产麻豆精品hdvideoss| 一级女性全黄生活片免费| 麻豆网站在线免费观看| 九九干| 亚欧成人毛片一区二区三区四区| 日韩专区一区| 国产麻豆精品免费视频| 日韩免费片| 日本在线播放一区| 黄视频网站免费看| 欧美爱爱网| 欧美激情一区二区三区视频高清| 免费的黄视频| 欧美大片aaaa一级毛片| 日本久久久久久久 97久久精品一区二区三区 狠狠色噜噜狠狠狠狠97 日日干综合 五月天婷婷在线观看高清 九色福利视频 | 日韩一级黄色| 91麻豆精品国产高清在线| 午夜久久网| 国产一区二区精品| 高清一级做a爱过程不卡视频| 日韩一级黄色| 国产精品1024永久免费视频| 国产视频久久久| 91麻豆精品国产自产在线观看一区| 毛片电影网| 日本久久久久久久 97久久精品一区二区三区 狠狠色噜噜狠狠狠狠97 日日干综合 五月天婷婷在线观看高清 九色福利视频 | 欧美一区二区三区在线观看| 日韩专区在线播放| 国产伦理精品| 超级乱淫伦动漫| 欧美激情一区二区三区在线 | 四虎影视久久久| 香蕉视频久久|