中文字幕亚洲欧美一区二区三区_亚洲精品菠萝久久久久久久_日本成人免费视频_狠狠躁少妇一区二区三区_国产精品中文字幕久久久_国产乱子伦农村叉叉叉_麻豆tv免费在线观看_av在线这里只有精品_色吧亚洲视频_嫩草影院一二三

設置
  • 日夜間
    隨系統
    淺色
    深色
  • 主題色

AI發展:訓練數據即將遭遇瓶頸

2025-01-02 09:51:18 來源: 中國科技網

得益于神經網絡規模的擴大以及海量數據的訓練,人工智能(AI)在過去10年間突飛猛進。“做大做強”的策略,在構建大型語言模型(LLM)上取得了顯著成果,ChatGPT就是一個典型的例子。euC速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

然而,《自然》《麻省理工科技評論》等多家雜志網站指出,AI擴展正逼近極限。一方面,AI“吞噬”著越來越多的能源;另一方面,滋養無數模型成長的傳統數據集,正被LLM開發人員過度開墾。euC速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

訓練數據即將遭遇的瓶頸已悄然浮現。有研究機構預測,到2028年左右,用于訓練AI模型的數據集典型規模將達到公共在線文本總估計量的規模。換句話說,AI可能會在大約4年內耗盡訓練數據。與此同時,數據所有者(如報紙出版商)開始打擊對其內容的濫用行為,進一步收緊了訪問權限,這正在引發“數據共享”規模上的危機。為此,開發人員必須尋找變通之道。euC速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

數據集供需失衡euC速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

過去10年間,LLM的發展顯示出了對數據的巨大需求。自2020年以來,用于訓練LLM的“標記”(或單詞)數量已增長100倍,從數百億增加到數萬億。一個常見的數據集RedPajama,包含數萬億個單詞。這些數據會被一些公司或研究人員抓取和清洗,成為訓練LLM的定制數據集。euC速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

然而,可用互聯網內容的增長速度出乎意料的緩慢。據估計,其年增長率不到10%,而AI訓練數據集的大小每年增長超過一倍。預測顯示,這兩條曲線將在2028年左右交匯。euC速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

與此同時,內容供應商越來越多地加入軟件代碼或修改條款,阻止爬蟲及AI抓取其數據。在這些內容中,被明確標記為限制爬蟲訪問的數量,從2023年的不足3%猛增到了2024年的20%至33%之間。euC速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

當前,圍繞AI訓練中數據使用的合法性,試圖為數據提供商爭取應有賠償的多起訴訟正在進行。2023年12月,《紐約時報》向OpenAI及其合作伙伴微軟提起了訴訟,指控其侵犯了版權;今年4月,紐約市Alden全球資本旗下的8家報紙聯合發起了一起類似的訴訟。對此,OpenAI表示,《紐約時報》的訴訟“毫無根據”。euC速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

若法院最終站在內容提供商一方,支持其獲得經濟賠償,那么對于AI開發人員,尤其是那些資金緊張的學者而言,獲取所需數據無疑將變得更加艱難。euC速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

新方法有待印證euC速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

數據匱乏對AI的傳統擴展策略構成了潛在挑戰。euC速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

尋找更多數據的一個途徑是收集非公開數據,如社交媒體消息或視頻文字記錄。然而,這種做法的合法性尚存爭議。euC速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

一些公司選擇使用自己的數據來訓練AI模型,如Meta利用虛擬現實頭顯收集的音頻和圖像進行訓練。但各公司政策不同,包括Zoom在內的一些公司則明確表示不會使用客戶內容訓練AI。euC速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

另一種選擇可能是專注于快速增長的專業數據集,如天文學或基因組學數據,但其對訓練LLM的可用性和實用性尚不清楚。euC速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

如果AI接受除文本之外的多種類型的數據訓練,可能會為豐富數據的涌入打開閘門。Meta首席AI科學家勒丘恩強調,人類通過觀察物體而“吸收”的數據遠超用于訓練LLM的數據量,機器人形態的AI系統或許能從中獲取經驗。euC速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

此外,制造數據也是解決之道。一些AI公司付費讓人們生成訓練內容,或使用AI生成的合成數據來訓練AI。這已成為一個潛在的巨大數據源。然而,合成數據也存在問題,如遞歸循環可能鞏固錯誤、放大誤解,并降低學習質量。euC速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

小模型更專更精euC速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

另一種策略是摒棄模型“越大越好”的開發觀念。一些開發者已在追求更高效、專注于單一任務的小型語言模型。這些模型需要更精細、更專業的數據以及更好的訓練技術。euC速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

12月5日,OpenAI發布了新的OpenAI o1模型。盡管該公司未透露模型的規模或訓練數據集大小,但o1采用了新方法:在強化學習上投入更多時間,讓模型對每個回答進行更深入的思考。這標志著一種轉變,即從依賴大規模數據集進行預訓練,轉向更注重訓練和推理。euC速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

當前,LLM可能已飽覽互聯網大部分內容,或許無需更多數據即可變得更智能。美國斯坦福大學一項研究表明,模型從多次讀取給定數據集中學到的內容,與從相同數量的唯一數據中學習到的內容一樣豐富。euC速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

合成數據、專門數據集、多次讀取和自我反思等因素的結合,或將共同推動AI的進一步飛躍。euC速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

得益于神經網絡規模的擴大以及海量數據的訓練,人工智能(AI)在過去10年間突飛猛進。“做大做強”的策略,在構建大型語言模型(LLM)上取得了顯著成果,ChatGPT就是一個典型的例子。euC速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

然而,《自然》《麻省理工科技評論》等多家雜志網站指出,AI擴展正逼近極限。一方面,AI“吞噬”著越來越多的能源;另一方面,滋養無數模型成長的傳統數據集,正被LLM開發人員過度開墾。euC速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

訓練數據即將遭遇的瓶頸已悄然浮現。有研究機構預測,到2028年左右,用于訓練AI模型的數據集典型規模將達到公共在線文本總估計量的規模。換句話說,AI可能會在大約4年內耗盡訓練數據。與此同時,數據所有者(如報紙出版商)開始打擊對其內容的濫用行為,進一步收緊了訪問權限,這正在引發“數據共享”規模上的危機。為此,開發人員必須尋找變通之道。euC速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

數據集供需失衡euC速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

過去10年間,LLM的發展顯示出了對數據的巨大需求。自2020年以來,用于訓練LLM的“標記”(或單詞)數量已增長100倍,從數百億增加到數萬億。一個常見的數據集RedPajama,包含數萬億個單詞。這些數據會被一些公司或研究人員抓取和清洗,成為訓練LLM的定制數據集。euC速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

然而,可用互聯網內容的增長速度出乎意料的緩慢。據估計,其年增長率不到10%,而AI訓練數據集的大小每年增長超過一倍。預測顯示,這兩條曲線將在2028年左右交匯。euC速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

與此同時,內容供應商越來越多地加入軟件代碼或修改條款,阻止爬蟲及AI抓取其數據。在這些內容中,被明確標記為限制爬蟲訪問的數量,從2023年的不足3%猛增到了2024年的20%至33%之間。euC速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

當前,圍繞AI訓練中數據使用的合法性,試圖為數據提供商爭取應有賠償的多起訴訟正在進行。2023年12月,《紐約時報》向OpenAI及其合作伙伴微軟提起了訴訟,指控其侵犯了版權;今年4月,紐約市Alden全球資本旗下的8家報紙聯合發起了一起類似的訴訟。對此,OpenAI表示,《紐約時報》的訴訟“毫無根據”。euC速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

若法院最終站在內容提供商一方,支持其獲得經濟賠償,那么對于AI開發人員,尤其是那些資金緊張的學者而言,獲取所需數據無疑將變得更加艱難。euC速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

新方法有待印證euC速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

數據匱乏對AI的傳統擴展策略構成了潛在挑戰。euC速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

尋找更多數據的一個途徑是收集非公開數據,如社交媒體消息或視頻文字記錄。然而,這種做法的合法性尚存爭議。euC速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

一些公司選擇使用自己的數據來訓練AI模型,如Meta利用虛擬現實頭顯收集的音頻和圖像進行訓練。但各公司政策不同,包括Zoom在內的一些公司則明確表示不會使用客戶內容訓練AI。euC速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

另一種選擇可能是專注于快速增長的專業數據集,如天文學或基因組學數據,但其對訓練LLM的可用性和實用性尚不清楚。euC速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

如果AI接受除文本之外的多種類型的數據訓練,可能會為豐富數據的涌入打開閘門。Meta首席AI科學家勒丘恩強調,人類通過觀察物體而“吸收”的數據遠超用于訓練LLM的數據量,機器人形態的AI系統或許能從中獲取經驗。euC速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

此外,制造數據也是解決之道。一些AI公司付費讓人們生成訓練內容,或使用AI生成的合成數據來訓練AI。這已成為一個潛在的巨大數據源。然而,合成數據也存在問題,如遞歸循環可能鞏固錯誤、放大誤解,并降低學習質量。euC速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

小模型更專更精euC速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

另一種策略是摒棄模型“越大越好”的開發觀念。一些開發者已在追求更高效、專注于單一任務的小型語言模型。這些模型需要更精細、更專業的數據以及更好的訓練技術。euC速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

12月5日,OpenAI發布了新的OpenAI o1模型。盡管該公司未透露模型的規模或訓練數據集大小,但o1采用了新方法:在強化學習上投入更多時間,讓模型對每個回答進行更深入的思考。這標志著一種轉變,即從依賴大規模數據集進行預訓練,轉向更注重訓練和推理。euC速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

當前,LLM可能已飽覽互聯網大部分內容,或許無需更多數據即可變得更智能。美國斯坦福大學一項研究表明,模型從多次讀取給定數據集中學到的內容,與從相同數量的唯一數據中學習到的內容一樣豐富。euC速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

合成數據、專門數據集、多次讀取和自我反思等因素的結合,或將共同推動AI的進一步飛躍。euC速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

本文鏈接:AI發展:訓練數據即將遭遇瓶頸http://www.sq15.cn/show-2-9987-0.html

聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。

上一篇: 商業氣象小衛星數據首次獲準進入我國氣象業務系統

下一篇: 帕克探測器創人造物體“觸摸”太陽距離新紀錄

熱門資訊

  • 我國科學家在鐵電隧道結存儲器研究中取得新進展

    記者從中國科學院金屬研究所獲悉,該所沈陽材料科學國家研究中心胡衛進研究員與合作者,提出利用緩沖層定量調控薄膜應變,延遲鐵電薄膜晶格弛豫從而增強

  • 多功能金納米花顆粒 可促進感染性組織修復

    3月17日,記者從海南大學獲悉,該校化學化工學院副教授李萌婷與相關研究團隊合作,合成了多功能復合金納米花顆粒。該顆粒配合溫和光熱、光動力、藥物控

  • 培育一批專利產業化樣板企業

    近日,國家知識產權局等五部門聯合印發了《專利產業化促進中小企業成長計劃實施方案》(以下簡稱《實施方案》)。《實施方案》提出,到2025年底,中小企業知

  • 我國首個制氫加氫一體站團體標準發布

    我國制氫加氫一體站建設有了團體標準。記者從中國石化獲悉,為推動我國氫能交通產業發展,中國石化聯合國內數十家氫能頭部企業發布了國內首個《制氫加

  • 新疆籌建國家級融合算力中心

    記者從近日舉辦的新疆籌建融合算力中心研討會上獲悉,新疆將構建具備國家級算力水平的涵蓋超算、智算的融合算力中心。到2024年底,建成超算算力(FP64)不

  • 科學家提出人類性別決定新理論

    3月18日,記者從中南大學生殖與干細胞研究所獲悉,研究所林戈、盧光琇教授團隊提出的一項新理論稱,原始生殖細胞的性染色體組成在人類性別決定中起關鍵

  • 多層人造皮膚18天內長成

    美國和法國的科學家聯合團隊借助新的3D打印技術,開發出一種多層人造皮膚,只需18天即可長成。這種仿真皮膚可用于提升護膚品測試效率,并催生更好的皮膚

  • Sora帶來的深層次影響值得關注

    2024年2月,OpenAI公司推出了文生視頻人工智能(AI)模型Sora。OpenAI展示了Sora利用少量簡短文字提示即可創建逼真視頻的能力,并提供了包括一位女士在閃

  • 探索土衛二的蛇形機器人問世

    美國加州理工學院噴氣推進實驗室的一個機器人專家團隊,與卡內基梅隆大學機器人研究所科學家合作,開發出一種蛇形機器人,用于調查土星第六大衛星土衛二

  • 潛望長焦缺席三代后 曝xiaomi15 Pro重新擁抱潛望鏡頭

    3月22日消息,數碼閑聊站爆料稱,xiaomi15 Pro將采用5000萬像素的超大底三攝方案,其中一顆是全新的潛望長焦鏡頭。據資料顯示,xiaomi11 Pro配備了潛望長焦鏡

  • 中國科學技術大學發現第六大植物激素的首個運輸蛋白

    在日常生活中,隧道可以幫助人們翻山越嶺。在植物細胞內,當內部物質穿過細胞膜時,往往也會通過類似的“隧道”。記者從中國科學技術大學獲悉,該校孫林峰

  • 吸煙會增加腹部脂肪

    科學雜志《成癮》3月21日發表的一項新研究顯示,剛開始吸煙和終生吸煙都可能增加腹部脂肪,特別是內臟脂肪。內臟脂肪與心臟病、糖尿病、中風和癡呆癥

推薦資訊

  • 日榜
  • 周榜
  • 月榜
国产一区精品| 欧美1区| 香蕉视频久久| 欧美a级片视频| 国产不卡在线播放| 精品在线视频播放| 国产伦精品一区二区三区无广告| 黄色福利| 精品久久久久久影院免费| 午夜激情视频在线播放| 国产成人精品在线| 亚洲天堂免费观看| 国产福利免费视频| 91麻豆精品国产自产在线| 国产欧美精品| 夜夜操天天爽| 日韩一级黄色| 国产亚洲精品aaa大片| 99久久精品国产麻豆| 久久99欧美| 99久久精品国产国产毛片| 久久精品免视看国产明星| 精品久久久久久影院免费| 国产一区二区精品久久| 久久成人亚洲| 日本伦理片网站| 青青青草影院| 久久精品大片| 欧美爱爱动态| 美女免费精品视频在线观看| 四虎影视久久| 日韩中文字幕一区二区不卡| 国产成人啪精品视频免费软件| 韩国毛片免费大片| 精品国产一区二区三区免费| 美女免费精品视频在线观看| 欧美日本免费| 欧美大片aaaa一级毛片| 美女免费黄网站| 青青久久精品国产免费看| 四虎论坛| 国产视频网站在线观看| 91麻豆爱豆果冻天美星空| 色综合久久天天综合观看| 毛片电影网| 国产成+人+综合+亚洲不卡| 精品毛片视频| 久草免费在线视频| 欧美一区二区三区性| 一级毛片视频在线观看| 亚洲天堂免费| 日韩avdvd| 一a一级片| 深夜做爰性大片中文| 天天做日日干| 欧美夜夜骑 青草视频在线观看完整版 久久精品99无色码中文字幕 欧美日韩一区二区在线观看视频 欧美中文字幕在线视频 www.99精品 香蕉视频久久 | 精品国产亚一区二区三区| 可以免费在线看黄的网站| 国产视频久久久| 欧美夜夜骑 青草视频在线观看完整版 久久精品99无色码中文字幕 欧美日韩一区二区在线观看视频 欧美中文字幕在线视频 www.99精品 香蕉视频久久 | 国产一区二区精品久| 香蕉视频三级| 日本久久久久久久 97久久精品一区二区三区 狠狠色噜噜狠狠狠狠97 日日干综合 五月天婷婷在线观看高清 九色福利视频 | 日韩av片免费播放| 色综合久久天天综合绕观看| 成人a级高清视频在线观看| 国产伦久视频免费观看 视频 | 九九久久99综合一区二区| 999久久久免费精品国产牛牛| 日韩专区第一页| 韩国三级香港三级日本三级la| 国产精品12| 国产国产人免费视频成69堂| 麻豆网站在线看| 国产激情视频在线观看| 日韩中文字幕在线观看视频| 亚洲精品永久一区| 四虎影视库| 一a一级片| 高清一级做a爱过程不卡视频| 国产精品1024永久免费视频| 九九久久99综合一区二区| 成人免费网站久久久| 天天做日日干| 天天做日日爱| 日日夜人人澡人人澡人人看免| 日本久久久久久久 97久久精品一区二区三区 狠狠色噜噜狠狠狠狠97 日日干综合 五月天婷婷在线观看高清 九色福利视频 | 精品毛片视频| 成人免费观看视频| 精品毛片视频| 国产视频久久久| 欧美电影免费看大全| 999久久66久6只有精品| 韩国毛片 免费| 精品毛片视频| 青青久久精品| 久久福利影视| 色综合久久手机在线| 精品视频在线观看一区二区| 一级女性全黄久久生活片| 国产不卡在线播放| 九九久久国产精品| 国产a免费观看| 国产麻豆精品视频| 日韩av东京社区男人的天堂| 色综合久久天天综合绕观看| 中文字幕97| 精品国产三级a| 黄视频网站免费| 亚洲精品中文一区不卡| 午夜在线亚洲| 99久久精品国产片| 久久精品欧美一区二区| 精品美女| 日本特黄特色aa大片免费| 香蕉视频一级| 精品国产一区二区三区国产馆| 午夜精品国产自在现线拍| 免费的黄视频| 你懂的在线观看视频| 国产成人啪精品视频免费软件| 美女免费精品视频在线观看| 午夜欧美福利| 亚洲天堂在线播放| 久久福利影视| 欧美1区| 国产伦精品一区二区三区在线观看| 你懂的日韩| 国产视频久久久久| 黄视频网站在线看| 国产一区二区精品久| 欧美日本韩国| 青青久在线视频| 久久国产一区二区| 精品久久久久久中文字幕一区 | 欧美电影免费| 美国一区二区三区| 成人高清视频在线观看| 999久久66久6只有精品| 久久久久久久网| 欧美激情一区二区三区在线| 日本久久久久久久 97久久精品一区二区三区 狠狠色噜噜狠狠狠狠97 日日干综合 五月天婷婷在线观看高清 九色福利视频 | 成人影视在线播放| 日日日夜夜操| 99久久精品国产高清一区二区| 国产91精品系列在线观看| 99色视频在线| 亚洲天堂免费| 成人免费网站久久久| 欧美大片一区| 精品视频在线观看视频免费视频| 日韩av片免费播放| 四虎精品在线观看| 好男人天堂网 久久精品国产这里是免费 国产精品成人一区二区 男人天堂网2021 男人的天堂在线观看 丁香六月综合激情 | 国产福利免费视频| 欧美一级视| 青青久久精品国产免费看| 国产精品自拍在线观看| 久草免费资源| 国产高清在线精品一区二区| 色综合久久天天综线观看| 国产网站免费在线观看| 欧美a级成人淫片免费看| 国产极品白嫩美女在线观看看| 在线观看导航| 国产不卡在线看| 亚久久伊人精品青青草原2020| 美女免费精品视频在线观看| 日韩在线观看视频免费| 日韩专区一区| 国产网站麻豆精品视频| 国产一区二区福利久久| 国产视频一区二区在线观看| 久久99欧美| 日韩中文字幕在线亚洲一区| 一级女性全黄生活片免费| 国产一区国产二区国产三区| 国产成人精品一区二区视频| 国产成人啪精品视频免费软件| 国产高清视频免费| 欧美国产日韩一区二区三区| 尤物视频网站在线观看| 九九免费精品视频| 天天色色色| 99久久精品国产高清一区二区 | 四虎论坛| 国产综合成人观看在线| 尤物视频网站在线| 久久久久久久免费视频| 成人免费高清视频| 精品久久久久久中文字幕2017| 国产成+人+综合+亚洲不卡| 999精品视频在线| 欧美大片毛片aaa免费看| 国产精品123| 欧美激情一区二区三区在线播放| 成人免费网站久久久| 99久久精品国产国产毛片| 国产精品123| 国产不卡在线观看|