21世紀(jì)經(jīng)濟報道記者 董靜怡 上海報道
當(dāng)?shù)貢r間5月16日,Reddit與OpenAI宣布達成一項重要合作,這項合作將使OpenAI能夠利用Reddit的海量用戶生成內(nèi)容來訓(xùn)練其先進的人工智能模型。這一消息一出,立即在科技界引起了廣泛關(guān)注,Reddit的股價在盤后交易中一度上漲15%。
值得注意的是,OpenAI首席執(zhí)行官Sam Altman是該公司的最大股東之一,與Altman有關(guān)聯(lián)的實體持有Reddit 8.7%的流通股。
Reddit與OpenAI發(fā)布的聲明顯示,合作將以多種方式使Reddit和OpenAI用戶社區(qū)受益。一是OpenAI將為ChatGPT和新產(chǎn)品帶來增強的Reddit內(nèi)容,幫助用戶發(fā)現(xiàn)Reddit社區(qū)并與之互動。OpenAI將訪問Reddit的數(shù)據(jù)API,該API提供來自Reddit的實時、結(jié)構(gòu)化和獨特的內(nèi)容。
這將使OpenAI的人工智能工具能夠更好地理解和展示Reddit內(nèi)容,也意味著OpenAI能夠?qū)崟r獲取Reddit上用戶發(fā)表的帖子和評論,以及這些內(nèi)容所獲得的點贊、評論和其他互動數(shù)據(jù)。
Reddit被稱為“美版貼吧”。作為全球最大的社區(qū)論壇之一,其擁有超過5200萬的日活躍用戶,每天產(chǎn)生數(shù)十億次的互動。這些數(shù)據(jù)不僅數(shù)量龐大,而且種類繁多,涵蓋了從日常生活到專業(yè)知識的各個方面。對于致力于開發(fā)更智能、更自然語言處理能力的OpenAI來說,Reddit無疑是一個理想的數(shù)據(jù)源。
有業(yè)內(nèi)人士分析稱,這項合作對于Reddit和OpenAI來說是雙贏的。對于Reddit,它將能夠利用OpenAI的技術(shù)提高用戶體驗,吸引更多的新用戶。對于OpenAI,它將獲得一個寶貴的數(shù)據(jù)源,有助于其大模型的發(fā)展。同時,這也標(biāo)志著人工智能領(lǐng)域的一個重要趨勢:越來越多的公司開始重視并利用社交媒體和在線社區(qū)中產(chǎn)生的大量數(shù)據(jù)。
“Reddit的用戶群體非常廣泛,涵蓋了不同的年齡、文化、職業(yè)和興趣,平臺上內(nèi)容多樣,為AI模型提供了豐富的語言樣本。同時,Reddit上的討論往往是實時的,反映了當(dāng)前的社會事件、流行文化和用戶興趣,這種實時性對于訓(xùn)練能夠理解和生成時效性語言的AI模型非常重要。”有AI從業(yè)者向21世紀(jì)經(jīng)濟報道記者表示。
招股書顯示,Reddit擁有超過10億的帖子和160億的評論。平臺內(nèi)不斷增長的數(shù)據(jù)量和知識產(chǎn)權(quán),或?qū)⒊蔀槲磥泶笮驼Z言模型訓(xùn)練的關(guān)鍵要素。
無獨有偶,谷歌在今年二月份也與Reddit建立了類似的合作伙伴關(guān)系,據(jù)悉該合同每年價值約6000萬美元。通過訪問Reddit的API,谷歌能夠在其搜索引擎中更好地理解和索引Reddit的內(nèi)容。此外,雙方還將在云業(yè)務(wù)和數(shù)據(jù)共享兩大方面擴大合作,如Google Cloud將通過旗下應(yīng)用Vertex AI提供人工智能驅(qū)動,幫助Reddit改進其搜索引擎和平臺內(nèi)其他功能。
由此可見,高質(zhì)量數(shù)據(jù)的重要性在提升。Sam Altman去年就表示,單純增加大型機器學(xué)習(xí)模型的參數(shù)數(shù)量,并不是提高模型性能的最佳途徑,獲取和利用大規(guī)模的、高質(zhì)量的數(shù)據(jù),以及對數(shù)據(jù)進行高效的工程化處理,才是提升模型能力的關(guān)鍵因素。知名AI學(xué)者吳恩達也曾表示,AI發(fā)展正在從“以模型為中心”加速轉(zhuǎn)向“以數(shù)據(jù)為中心”。
尤其隨著垂類大模型的高速發(fā)展,訓(xùn)練大模型需要高質(zhì)量、大規(guī)模、多樣性的數(shù)據(jù)集,企業(yè)和研究機構(gòu)正在投入更多的資源來構(gòu)建、維護和優(yōu)化數(shù)據(jù)集,以支持更智能、更準(zhǔn)確的AI模型的開發(fā)。
而對于Reddit等高質(zhì)量內(nèi)容平臺來說,則是又一可靠的收入來源。Reddit方曾表示:“我們相信,我們不斷增長的平臺數(shù)據(jù)將成為領(lǐng)先大型語言模型訓(xùn)練的關(guān)鍵要素,并成為Reddit的額外盈利渠道。”
Reddit在招股說明書中表示,其已通過與AI公司簽訂數(shù)據(jù)授權(quán)協(xié)議,實現(xiàn)2.03億美元的收入,并預(yù)計該數(shù)字會隨著時間的推移而增加。
過去,Reddit并未對其數(shù)據(jù)進行人工智能培訓(xùn)目的的訪問限制。去年Reddit開始調(diào)整策略,對平臺API接口收費,每1000次API調(diào)用收取0.24美元。
有分析認(rèn)為,這種合作模式也預(yù)示著未來AI發(fā)展的一個重要方向:企業(yè)之間的數(shù)據(jù)共享與合作將成為推動技術(shù)進步的關(guān)鍵。通過結(jié)合不同來源和類型的數(shù)據(jù),AI模型能夠更全面地學(xué)習(xí)和適應(yīng),從而提供更加精準(zhǔn)和個性化的服務(wù)。
本文鏈接:高質(zhì)量數(shù)據(jù)價值凸顯:OpenAI與Reddit宣布合作http://www.sq15.cn/show-2-5983-0.html
聲明:本網(wǎng)站為非營利性網(wǎng)站,本網(wǎng)頁內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻,不代表本站觀點,本站不承擔(dān)任何法律責(zé)任。天上不會到餡餅,請大家謹(jǐn)防詐騙!若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。