中文字幕亚洲欧美一区二区三区_亚洲精品菠萝久久久久久久_日本成人免费视频_狠狠躁少妇一区二区三区_国产精品中文字幕久久久_国产乱子伦农村叉叉叉_麻豆tv免费在线观看_av在线这里只有精品_色吧亚洲视频_嫩草影院一二三

設置
  • 日夜間
    隨系統
    淺色
    深色
  • 主題色

大模型發展提速 中文語料夠“吃”嗎

2024-06-27 17:39:54 來源: 中國科技網

繼去年“百模大戰”之后,今年國內大模型產業應用進入爆發元年。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

然而,大模型產業發展如火如荼的同時,其訓練數據規模的增長速度跟不上、語料質量參差不齊,尤其是高質量中文語料短缺的問題日益凸顯,成為各方關注焦點。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

阿里研究院5月發布的《大模型訓練數據白皮書》(以下簡稱《白皮書》)顯示,互聯網上中文語料和英文語料占比存在顯著差異:在全球網站中,英文占比高達59.8%,而中文僅占 1.3%。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

同樣,語料的質量會顯著影響大模型的性能。在大模型領域,輸入低質量數據,必然會輸出低質量結果。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

在近日舉辦的第六屆北京智源大會上,中國互聯網協會理事長尚冰指出,高質量數據的生成速度遠低于AI大模型訓練數據需求量的增長速度,數據短缺問題已初現端倪。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

如何獲取規模化高質量中文數據?建設高質量中文數據集的難點和堵點是什么?加速數據流通,推動中國特色大模型創新發展與應用的意義何在?對此,科技日報記者進行了采訪。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

高質量中文語料供給嚴重匱乏HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

語料即大模型訓練所需數據,是大模型訓練的基礎,也是決定大模型性能和專業性的關鍵因素。商湯科技大裝置事業群高級總監張行程告訴記者,中文高質量語料相對缺乏是國內外大模型面臨的共同問題。中文語料庫不僅規模較小,且其電子化和網絡化程度明顯不足。此外,受版權、隱私等限制,許多優質中文語料庫也無法公開獲取。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

其中,有一類型的中文語料極為重要,但又非常短缺——中式價值觀類語料。《白皮書》主要編寫成員、阿里研究院數據經濟研究中心副主任王崢解釋說,為了更好理解客觀世界和掌握客觀規律,大模型需要學習大量知識和價值觀層面的數據,這些數據深受人類主觀意志的影響。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

在王崢看來,文言文、古漢語、電子書等反映優秀傳統文化的內容,以及主流媒體發布的反映本土價值觀的內容,都可視為具有中式價值觀的高質量語料。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

“訓練中融入更多這類中式價值觀語料,有助于大模型深入理解和反映中文使用者的文化背景和價值取向,從而在全球化背景下保持中國文化的獨特性。”王崢說,“更重要的是,能更好地服務中國本土用戶,滿足行業發展的需要。”HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

但目前面臨的實際困難是,這類語料開放共享與開發利用的程度遠遠不夠,且無法通過機器翻譯彌補其短缺問題。《白皮書》指出,中文語料量的短缺尚有可解決方案,但中式價值觀類語料的短缺,則會成為制約我國大模型發展的短板。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

高質量中文語料的供給是中國大模型本土化的關鍵。“我們希望行業能加強企業間合作以及產業上下游協同,共同推動高質量中文數據集的共享、開放,鼓勵數據提供方將高質量中文語料庫在一定范圍內公開,為各行各業大模型技術創新和應用奠定堅實的基礎,形成中國特色的AI大模型創新路徑,不斷提高國際競爭力。”張行程說。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

供需雙方合作機制尚待完善HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

一方面,大模型廠商需要高質量數據支撐,以解“巧婦難為無米之炊”的困境;另一方面,高質量中文語料庫的數據擁有者,如擁有各類圖書、文獻的出版商等,也期望在智能化時代實現數據增值。因此,探索數據供需雙方合作模式是關鍵。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

然而,要推動數據供需雙方建立合作并非易事。“攔路虎”到底是什么?HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

當前,大模型數據獲取主要有合理爬取、版權采購等途徑。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

張行程透露,商湯目前的解決方案是聯合各機構盡量挖取、尋找現存的中文高質量語料,比如精心編校過的書本、論文等,以及向供應商購買版權語料。“雖然購買數量有限,但質量很高。”張行程說。這是以前置協商付費方式來獲取版權類語料的傳統商業模式。阿里巴巴“通義千問”大模型也采取了類似做法。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

王錚還提到第二種潛在的方式,即與版權方協商,以訓練后的模型為版權方提供服務的方式進行對價。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

然而,關于版權類語料使用,數據提供者和大模型廠商持有不同見解。王崢認為,大模型對版權類訓練語料的使用屬于轉換性使用,而非復制式拷貝,應構成“合理使用”或“法定許可”。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

上海世紀出版集團數字出版部副主任劉寅春對此持有保留意見。她指出,大模型的深度學習機制與人類學習有相似之處,使用版權類數據進行訓練,類似于人類閱讀文獻后撰寫論文而不標注參考文獻。“從學術規范上來說,這種做法很難說沒有瑕疵。”她說。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

此外,大模型廠商訓練大模型的最終目的是商用,這與“合理使用”的初衷和前提并不相符。“法定許可”需要滿足一定條件,包括說明作品的出處、作者姓名,并支付報酬。如果這些條件無法滿足,那么在顯性法律釋義下,這種行為很難構成“法定許可”。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

在人工智能時代,高質量數據集是出版行業的核心資產。劉寅春認為,在有利于行業健康、可持續發展的前提下,切實保障知識產權,對高質量數據集進行有效開發和高質量轉化,是出版行業的核心。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

“出版行業為大模型提供語料,相應地,大模型的技術進步、功能提升,也應惠及包括出版行業在內的更廣泛群體。”劉寅春提倡以合作共贏的方式與大模型廠商開展數據交易,通過訂立授權協議,明確授權范圍和條件,實現共同發展。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

“如何將出版物進一步加工為數據要素并有效、有序流通,是擺在出版人面前的新問題。”中國出版傳媒股份有限公司副總經理張紀臣說,“但我認為這同樣是新機遇,因為我國出版行業一直強調知識服務這一理念。將出版物作為語料使用,從而提供產品和服務能力,正是出版知識服務的產品化體現。”HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

數據開源分享動力不足HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

目前,我國可供大模型訓練的優質數據資源呈碎片化、分散狀態。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

“特別是語料和科研成果等中文高質量數據集開放程度低,企業在訓練大模型時使用的語料來源不透明、權屬不明確,開源后存在合規風險,這導致企業更傾向于自行采集和使用數據,大模型數據流通機制尚未形成。”王崢說。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

北京理工大學管理學院副研究員尹西明認為,需要構建一個市場化、互利共贏的數據共享機制,以促進高質量中文數據的積累和有效利用。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

“確立清晰的數據要素市場制度對于激發高質量數據集構建至關重要。”在復旦大學教授、上海市數據科學重點實驗室主任肖仰華看來,只有當市場機制能夠確保數據貢獻者獲得合理回報時,才能吸引更多的數據流入市場,充分挖掘并實現數據共享的巨大潛力與價值。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

2023年12月31日,國家數據局等部門印發《“數據要素×”三年行動計劃(2024—2026年)》,強調堅持需求牽引、注重實效,試點先行、重點突破,有效市場、有為政府,開放融合、安全有序4方面基本原則。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

該行動計劃進一步明確,要提升數據供給水平,在科研、文化、交通運輸等領域,推動科研機構、龍頭企業等開展行業共性數據資源庫建設,打造高質量人工智能大模型訓練數據集。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

事實上,作為數據流通領域中最大的“富礦”,公共數據開放的步伐正不斷加快。《全國數據資源調查報告》顯示,2023年,我國公共數據開放量同比增長16%;省一級政府的開放數據量同比增長了18.5%,北京、浙江等15地數據管理部門開始探索公共數據授權運營機制。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

今年初開始實施“數據入表”政策。張紀臣認為,隨著“數據入表”政策的實施,出版企業的數字資源經過確權、評估、標準化后入表,成為出版企業的數據資產。在此基礎上構建大模型訓練使用方與出版企業共贏的商業模式,能發揮中國價值核心數據在人工智能時代的智能服務話語權。“這樣一來,‘數據入表’可能成為加速數據有效流動、共享并實現共贏的關鍵一步。”他說。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

數據流通環節問題突出HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

算法、算力、數據和場景是大模型發展的4個核心要素。當前,我國大模型算力算法能力顯著提升,高質量發展取決于數據和場景,應構建“供得出、流得通、用得好”的高質量數據集。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

尹西明表示,大模型變強用好,前提是建立以場景驅動創新的思維,引領高質量數據持續在各種應用場景中發揮價值。那么,解決數據“供得出”難題后,應重點確保高質量數據“流得通”,真正面向場景釋放數據乘數效應和大模型對新質生產力的引擎價值。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

數據要素在生產中的地位愈發重要,數據要素流動帶來的開放性與動態性問題,為傳統數據理論與相應技術帶來新挑戰和新要求。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

“其中之一便是數據確權。”肖仰華表示,相比其他生產要素,數據要素在流通過程中主體更加多樣,涉及數據生產者、采集者、加工者、使用者、運營者和其他產權人,權屬界定復雜。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

北京智源人工智能研究院理事長、中國互聯網協會人工智能工作委員會主任委員黃鐵軍指出:“當前普遍存在一種誤解,即將數據視為傳統意義上的物理資產。其實,數據并非物理資產,作為數字形態產品,它可以被無限次使用,且不會導致數據損耗。”HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

他提倡在確保使用合規的前提下,大模型訓練階段可以免費獲取數據資源。如果使用數據的過程中并未產生商業利益,則無需支付任何費用;反之,一旦通過數據使用獲得了商業收益,便應按照既定比例支付相應的數據使用費用。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

“雖然這一模式背后還涉及到數據確權、費率設定、監管機制等復雜問題,這些還有待深入探討和解決,但‘先使用后收益’更有利于大模型的健康發展。”黃鐵軍說。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

王崢則認為,確保數據流通需政府與企業、開源或非盈利組織、學界、多類型機構等社會力量協同推進。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

他建議,在政府側,對可用于模型訓練的公共數據鼓勵“應開盡開”,避免在數據開放過程中因為預設特定場景限制了應用范圍;在社會力量側,應堅持“應試盡試”原則,通過不斷迭代,探索數據的有效搭配,尋找發揮最大價值的“配方”。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

標注專業化、規模化提上日程HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

從2022年《關于構建數據基礎制度更好發揮數據要素作用的意見》出臺以來,數據要素建設和市場改革正穩步推進。今年5月,國家數據局提出建設國家級數據標注基地,這一舉措對人工智能發展至關重要。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

中國信息通信研究院人工智能研究所高級工程師、中國人工智能產業發展聯盟數據委員會主任李蓀表示,數據標注是推動人工智能進步的核心環節,它能夠提升數據質量,挖掘數據核心價值,形成高質量數據集,持續為AI提供數據支持。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

也就是說,在一定程度解決數據供給、促進數據共享和打通流通機制后,如何讓大模型學習到高質量數據,是接下來各界面臨的另一個新挑戰。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

數據標注的專業性和規模化也被提上日程。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

李蓀指出,當前國內數據標注產業還比較初級,大部分標注工作以人工為主,勞動密集型特點比較突出。但是,在通用人工智能時代,傳統手工標注或簡單自動化標注方法無法滿足大模型對大規模、高質量、多樣化數據的需求,特別是具備模型訓練知識、行業領域知識的專業化數據標注人才也相對匱乏。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

“大模型訓練數據標注人員的學歷要求比以前更高,很多是本科畢業。”王崢表示,行業大模型數據標注凸顯了專業知識的重要性。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

機器在對語言水平這一抽象概念進行評估時,必須依賴預先設定的人類價值判斷和標準。電子科技大學智能語言學習與測評實驗室與字節跳動合作開發了一款語言水平考試產品。實驗室負責人陳大建說,在研發階段,實驗室負責對自行收集的用戶音頻數據進行標注,其標注內容主要是基于音頻所體現的英語能力水平進行分類和標記。標注人員由學校四五十名大學英語教師組成,且均為應用語言學專業的碩博士。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

“吃”得好、“吃”得香,還要“吃”得夠。只有最終實現了規模化高質量標注,才能切實提升大模型理解中文、傳遞中國傳統文化價值的能力。中國大模型的蓬勃發展也將助力中華優秀傳統文化海外傳播,架起一座連接古今、溝通中外的橋梁。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

中國出版集團中國圖書進出口總公司下屬中圖科信數智技術(北京)有限公司總經理李沄沨認為,從正式出版物如文獻、學術專著等入手,依托先進的提取工具和解析技術,將出版物語料化、碎片化、標準化,加工成高質量的語料數據,有別于一般的數據加工。“我們已經實現了大規模和批量開展數據語料化的技術和工具軟件,能夠更深層次地解析數據,并形成獨立的圖片、表格、公式數據集,為大模型人工智能服務提供價值更高、標準程度更好的語料供給,使出版數據在人工智能時代煥發出新活力。”他說。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

在數字經濟大潮中,數據要素的放大、疊加、倍增作用日益顯著,成為推動相關產業高質量發展的必然要求。張紀臣認為:“我們正站在新一輪產業科技革命的門口。這是一個不進則退的時代。”HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

繼去年“百模大戰”之后,今年國內大模型產業應用進入爆發元年。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

然而,大模型產業發展如火如荼的同時,其訓練數據規模的增長速度跟不上、語料質量參差不齊,尤其是高質量中文語料短缺的問題日益凸顯,成為各方關注焦點。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

阿里研究院5月發布的《大模型訓練數據白皮書》(以下簡稱《白皮書》)顯示,互聯網上中文語料和英文語料占比存在顯著差異:在全球網站中,英文占比高達59.8%,而中文僅占 1.3%。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

同樣,語料的質量會顯著影響大模型的性能。在大模型領域,輸入低質量數據,必然會輸出低質量結果。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

在近日舉辦的第六屆北京智源大會上,中國互聯網協會理事長尚冰指出,高質量數據的生成速度遠低于AI大模型訓練數據需求量的增長速度,數據短缺問題已初現端倪。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

如何獲取規模化高質量中文數據?建設高質量中文數據集的難點和堵點是什么?加速數據流通,推動中國特色大模型創新發展與應用的意義何在?對此,科技日報記者進行了采訪。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

高質量中文語料供給嚴重匱乏HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

語料即大模型訓練所需數據,是大模型訓練的基礎,也是決定大模型性能和專業性的關鍵因素。商湯科技大裝置事業群高級總監張行程告訴記者,中文高質量語料相對缺乏是國內外大模型面臨的共同問題。中文語料庫不僅規模較小,且其電子化和網絡化程度明顯不足。此外,受版權、隱私等限制,許多優質中文語料庫也無法公開獲取。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

其中,有一類型的中文語料極為重要,但又非常短缺——中式價值觀類語料。《白皮書》主要編寫成員、阿里研究院數據經濟研究中心副主任王崢解釋說,為了更好理解客觀世界和掌握客觀規律,大模型需要學習大量知識和價值觀層面的數據,這些數據深受人類主觀意志的影響。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

在王崢看來,文言文、古漢語、電子書等反映優秀傳統文化的內容,以及主流媒體發布的反映本土價值觀的內容,都可視為具有中式價值觀的高質量語料。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

“訓練中融入更多這類中式價值觀語料,有助于大模型深入理解和反映中文使用者的文化背景和價值取向,從而在全球化背景下保持中國文化的獨特性。”王崢說,“更重要的是,能更好地服務中國本土用戶,滿足行業發展的需要。”HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

但目前面臨的實際困難是,這類語料開放共享與開發利用的程度遠遠不夠,且無法通過機器翻譯彌補其短缺問題。《白皮書》指出,中文語料量的短缺尚有可解決方案,但中式價值觀類語料的短缺,則會成為制約我國大模型發展的短板。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

高質量中文語料的供給是中國大模型本土化的關鍵。“我們希望行業能加強企業間合作以及產業上下游協同,共同推動高質量中文數據集的共享、開放,鼓勵數據提供方將高質量中文語料庫在一定范圍內公開,為各行各業大模型技術創新和應用奠定堅實的基礎,形成中國特色的AI大模型創新路徑,不斷提高國際競爭力。”張行程說。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

供需雙方合作機制尚待完善HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

一方面,大模型廠商需要高質量數據支撐,以解“巧婦難為無米之炊”的困境;另一方面,高質量中文語料庫的數據擁有者,如擁有各類圖書、文獻的出版商等,也期望在智能化時代實現數據增值。因此,探索數據供需雙方合作模式是關鍵。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

然而,要推動數據供需雙方建立合作并非易事。“攔路虎”到底是什么?HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

當前,大模型數據獲取主要有合理爬取、版權采購等途徑。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

張行程透露,商湯目前的解決方案是聯合各機構盡量挖取、尋找現存的中文高質量語料,比如精心編校過的書本、論文等,以及向供應商購買版權語料。“雖然購買數量有限,但質量很高。”張行程說。這是以前置協商付費方式來獲取版權類語料的傳統商業模式。阿里巴巴“通義千問”大模型也采取了類似做法。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

王錚還提到第二種潛在的方式,即與版權方協商,以訓練后的模型為版權方提供服務的方式進行對價。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

然而,關于版權類語料使用,數據提供者和大模型廠商持有不同見解。王崢認為,大模型對版權類訓練語料的使用屬于轉換性使用,而非復制式拷貝,應構成“合理使用”或“法定許可”。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

上海世紀出版集團數字出版部副主任劉寅春對此持有保留意見。她指出,大模型的深度學習機制與人類學習有相似之處,使用版權類數據進行訓練,類似于人類閱讀文獻后撰寫論文而不標注參考文獻。“從學術規范上來說,這種做法很難說沒有瑕疵。”她說。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

此外,大模型廠商訓練大模型的最終目的是商用,這與“合理使用”的初衷和前提并不相符。“法定許可”需要滿足一定條件,包括說明作品的出處、作者姓名,并支付報酬。如果這些條件無法滿足,那么在顯性法律釋義下,這種行為很難構成“法定許可”。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

在人工智能時代,高質量數據集是出版行業的核心資產。劉寅春認為,在有利于行業健康、可持續發展的前提下,切實保障知識產權,對高質量數據集進行有效開發和高質量轉化,是出版行業的核心。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

“出版行業為大模型提供語料,相應地,大模型的技術進步、功能提升,也應惠及包括出版行業在內的更廣泛群體。”劉寅春提倡以合作共贏的方式與大模型廠商開展數據交易,通過訂立授權協議,明確授權范圍和條件,實現共同發展。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

“如何將出版物進一步加工為數據要素并有效、有序流通,是擺在出版人面前的新問題。”中國出版傳媒股份有限公司副總經理張紀臣說,“但我認為這同樣是新機遇,因為我國出版行業一直強調知識服務這一理念。將出版物作為語料使用,從而提供產品和服務能力,正是出版知識服務的產品化體現。”HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

數據開源分享動力不足HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

目前,我國可供大模型訓練的優質數據資源呈碎片化、分散狀態。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

“特別是語料和科研成果等中文高質量數據集開放程度低,企業在訓練大模型時使用的語料來源不透明、權屬不明確,開源后存在合規風險,這導致企業更傾向于自行采集和使用數據,大模型數據流通機制尚未形成。”王崢說。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

北京理工大學管理學院副研究員尹西明認為,需要構建一個市場化、互利共贏的數據共享機制,以促進高質量中文數據的積累和有效利用。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

“確立清晰的數據要素市場制度對于激發高質量數據集構建至關重要。”在復旦大學教授、上海市數據科學重點實驗室主任肖仰華看來,只有當市場機制能夠確保數據貢獻者獲得合理回報時,才能吸引更多的數據流入市場,充分挖掘并實現數據共享的巨大潛力與價值。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

2023年12月31日,國家數據局等部門印發《“數據要素×”三年行動計劃(2024—2026年)》,強調堅持需求牽引、注重實效,試點先行、重點突破,有效市場、有為政府,開放融合、安全有序4方面基本原則。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

該行動計劃進一步明確,要提升數據供給水平,在科研、文化、交通運輸等領域,推動科研機構、龍頭企業等開展行業共性數據資源庫建設,打造高質量人工智能大模型訓練數據集。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

事實上,作為數據流通領域中最大的“富礦”,公共數據開放的步伐正不斷加快。《全國數據資源調查報告》顯示,2023年,我國公共數據開放量同比增長16%;省一級政府的開放數據量同比增長了18.5%,北京、浙江等15地數據管理部門開始探索公共數據授權運營機制。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

今年初開始實施“數據入表”政策。張紀臣認為,隨著“數據入表”政策的實施,出版企業的數字資源經過確權、評估、標準化后入表,成為出版企業的數據資產。在此基礎上構建大模型訓練使用方與出版企業共贏的商業模式,能發揮中國價值核心數據在人工智能時代的智能服務話語權。“這樣一來,‘數據入表’可能成為加速數據有效流動、共享并實現共贏的關鍵一步。”他說。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

數據流通環節問題突出HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

算法、算力、數據和場景是大模型發展的4個核心要素。當前,我國大模型算力算法能力顯著提升,高質量發展取決于數據和場景,應構建“供得出、流得通、用得好”的高質量數據集。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

尹西明表示,大模型變強用好,前提是建立以場景驅動創新的思維,引領高質量數據持續在各種應用場景中發揮價值。那么,解決數據“供得出”難題后,應重點確保高質量數據“流得通”,真正面向場景釋放數據乘數效應和大模型對新質生產力的引擎價值。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

數據要素在生產中的地位愈發重要,數據要素流動帶來的開放性與動態性問題,為傳統數據理論與相應技術帶來新挑戰和新要求。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

“其中之一便是數據確權。”肖仰華表示,相比其他生產要素,數據要素在流通過程中主體更加多樣,涉及數據生產者、采集者、加工者、使用者、運營者和其他產權人,權屬界定復雜。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

北京智源人工智能研究院理事長、中國互聯網協會人工智能工作委員會主任委員黃鐵軍指出:“當前普遍存在一種誤解,即將數據視為傳統意義上的物理資產。其實,數據并非物理資產,作為數字形態產品,它可以被無限次使用,且不會導致數據損耗。”HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

他提倡在確保使用合規的前提下,大模型訓練階段可以免費獲取數據資源。如果使用數據的過程中并未產生商業利益,則無需支付任何費用;反之,一旦通過數據使用獲得了商業收益,便應按照既定比例支付相應的數據使用費用。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

“雖然這一模式背后還涉及到數據確權、費率設定、監管機制等復雜問題,這些還有待深入探討和解決,但‘先使用后收益’更有利于大模型的健康發展。”黃鐵軍說。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

王崢則認為,確保數據流通需政府與企業、開源或非盈利組織、學界、多類型機構等社會力量協同推進。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

他建議,在政府側,對可用于模型訓練的公共數據鼓勵“應開盡開”,避免在數據開放過程中因為預設特定場景限制了應用范圍;在社會力量側,應堅持“應試盡試”原則,通過不斷迭代,探索數據的有效搭配,尋找發揮最大價值的“配方”。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

標注專業化、規模化提上日程HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

從2022年《關于構建數據基礎制度更好發揮數據要素作用的意見》出臺以來,數據要素建設和市場改革正穩步推進。今年5月,國家數據局提出建設國家級數據標注基地,這一舉措對人工智能發展至關重要。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

中國信息通信研究院人工智能研究所高級工程師、中國人工智能產業發展聯盟數據委員會主任李蓀表示,數據標注是推動人工智能進步的核心環節,它能夠提升數據質量,挖掘數據核心價值,形成高質量數據集,持續為AI提供數據支持。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

也就是說,在一定程度解決數據供給、促進數據共享和打通流通機制后,如何讓大模型學習到高質量數據,是接下來各界面臨的另一個新挑戰。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

數據標注的專業性和規模化也被提上日程。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

李蓀指出,當前國內數據標注產業還比較初級,大部分標注工作以人工為主,勞動密集型特點比較突出。但是,在通用人工智能時代,傳統手工標注或簡單自動化標注方法無法滿足大模型對大規模、高質量、多樣化數據的需求,特別是具備模型訓練知識、行業領域知識的專業化數據標注人才也相對匱乏。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

“大模型訓練數據標注人員的學歷要求比以前更高,很多是本科畢業。”王崢表示,行業大模型數據標注凸顯了專業知識的重要性。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

機器在對語言水平這一抽象概念進行評估時,必須依賴預先設定的人類價值判斷和標準。電子科技大學智能語言學習與測評實驗室與字節跳動合作開發了一款語言水平考試產品。實驗室負責人陳大建說,在研發階段,實驗室負責對自行收集的用戶音頻數據進行標注,其標注內容主要是基于音頻所體現的英語能力水平進行分類和標記。標注人員由學校四五十名大學英語教師組成,且均為應用語言學專業的碩博士。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

“吃”得好、“吃”得香,還要“吃”得夠。只有最終實現了規模化高質量標注,才能切實提升大模型理解中文、傳遞中國傳統文化價值的能力。中國大模型的蓬勃發展也將助力中華優秀傳統文化海外傳播,架起一座連接古今、溝通中外的橋梁。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

中國出版集團中國圖書進出口總公司下屬中圖科信數智技術(北京)有限公司總經理李沄沨認為,從正式出版物如文獻、學術專著等入手,依托先進的提取工具和解析技術,將出版物語料化、碎片化、標準化,加工成高質量的語料數據,有別于一般的數據加工。“我們已經實現了大規模和批量開展數據語料化的技術和工具軟件,能夠更深層次地解析數據,并形成獨立的圖片、表格、公式數據集,為大模型人工智能服務提供價值更高、標準程度更好的語料供給,使出版數據在人工智能時代煥發出新活力。”他說。HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

在數字經濟大潮中,數據要素的放大、疊加、倍增作用日益顯著,成為推動相關產業高質量發展的必然要求。張紀臣認為:“我們正站在新一輪產業科技革命的門口。這是一個不進則退的時代。”HeZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

本文鏈接:大模型發展提速 中文語料夠“吃”嗎http://www.sq15.cn/show-2-7246-0.html

聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。

上一篇: 弘揚科學家精神丨鄭萬鈞:當黨和人民需要的真專家

下一篇: 廣東版“數據二十條”:強化數據要素賦能實體經濟,打造數據要素市場“灣區模式”

熱門資訊

  • 我國科研團隊揭示非洲豬瘟病毒感染致病機制

    記者3月18日從蘭州大學獲悉,該校動物醫學與生物安全學院鄭海學教授團隊解析了非洲豬瘟病毒(ASFV)在豬體內感染的靶細胞,以及在靶細胞內延長感染的機制

  • 打造平臺級AI 引領行業創新

    3月18日,榮耀在國內市場發布全新AI使能的全場景戰略,推出平臺級AI賦能、以人為中心的跨操作系統體驗,以及與全球產業鏈共振創新的一系列智能設備。榮

  • 數字化管理已在故宮廣泛應用

    在今天的故宮,工作人員使用的數字化辦公平臺名叫“內務輔”,這款應用的開發者,是與故宮博物院合作的釘釘(中國)信息技術有限公司(以下簡稱“釘釘”)。3月1

  • “喚醒”4.6萬件高校存量專利!浙江上線專利轉化資源庫推送至6780家企業

    21世紀經濟報道見習記者 顧婷婷 杭州報道如何讓沉睡在實驗室里的專利真正應用到車間,真正面向市場,轉化為真正的新質生產力?3月19日,由國家知

  • 日學者提出“深海激勵化學”新概念

    日本《朝日新聞》近日發表題為《深海之光——極端環境是創意寶庫》的文章,作者是櫻井林太郎,編譯如下:在被稱為最后未開墾地的深海,有著低溫

  • 銀鯧高質量染色體水平 參考基因組發布

    3月19日,記者從中國科學院海洋研究所了解到,該所研究團隊在國際上首次發布了銀鯧的高質量染色體水平參考基因組。相關研究論文近日在線發表于《自然

  • 30臺發動機助進階版“鵲橋”升空

      30臺發動機助進階版“鵲橋”升空  中新社西安3月20日電 (記者 張一辰)3月20日8時31分,長征八號遙三運載火箭在中國文昌航天發射場順利升空,成功將“鵲橋二號”衛星送入

  • 為什么有人以為安卓拍照可以打iPhone 答案就這么直接

    聊到安卓電話的拍照,大部分用戶還是比較認可的,而在與iPhone電話的對比中,用戶也普遍以為安卓電話的拍照水平要比iPhone更好,當然這一說法也并非空穴來風,其

  • 首款驍龍8 Gen3折疊屏!vivo X Fold3圖賞

    3月23日消息,vivo X Fold3系列將于3月26日正式發布,成為全球首款驍龍8 Gen3折疊屏電話。現在這款新機外觀已經解禁,下面為大家帶來圖賞。vivo X Fold3提供

  • 英國2026年試飛電動“飛的”

    據英國《每日電訊報》網站3月18日報道,根據英國政府的新航空計劃,首批電動飛行出租車將于2026年試飛。周一發布的《“飛行未來”行動計劃》為飛行出

  • 科研團隊首次揭示全國范圍內蚊蟲病毒組特征

    記者3月22日獲悉,中山大學、深圳華大生命科學研究院與復旦大學的研究團隊合作,揭示了多種蚊蟲在不同生境下病毒的多樣性、傳播分布的影響因素及地理

  • 諾基亞手機“掉隊”帶來的啟示

    作為功能機時代的霸主,諾基亞手機曾經創造了巨大的輝煌,但也因錯失智能手機發展機遇而“掉隊”。近期,外媒Visual Capitalist統計了有史以來最暢銷的1

推薦資訊

  • 日榜
  • 周榜
  • 月榜
国产伦精品一区二区三区无广告 | 欧美激情一区二区三区视频| 99热精品一区| 国产一级生活片| a级黄色毛片免费播放视频| 日本久久久久久久 97久久精品一区二区三区 狠狠色噜噜狠狠狠狠97 日日干综合 五月天婷婷在线观看高清 九色福利视频 | 成人免费福利片在线观看| 欧美激情一区二区三区视频| 免费国产一级特黄aa大片在线| 日日夜人人澡人人澡人人看免| 久草免费在线视频| 久草免费在线色站| 九九热国产视频| 日韩免费在线观看视频| 毛片高清| 欧美α片无限看在线观看免费| 可以在线看黄的网站| 韩国三级视频网站| 四虎论坛| 日韩中文字幕在线亚洲一区 | 欧美夜夜骑 青草视频在线观看完整版 久久精品99无色码中文字幕 欧美日韩一区二区在线观看视频 欧美中文字幕在线视频 www.99精品 香蕉视频久久 | 成人a级高清视频在线观看| 欧美大片一区| 国产成人精品综合久久久| 国产网站免费观看| 日韩av片免费播放| 四虎久久影院| 国产视频一区在线| 国产综合91天堂亚洲国产| 四虎久久精品国产| 国产一区精品| 99色视频在线观看| 免费国产在线观看| 一 级 黄 中国色 片| 夜夜操网| 深夜做爰性大片中文| 国产一区二区精品久久91| 国产伦久视频免费观看视频| 国产一区精品| 国产网站免费观看| 黄视频网站免费观看| 天天做人人爱夜夜爽2020毛片| 国产亚洲男人的天堂在线观看| 日韩欧美一及在线播放| 精品视频一区二区三区免费| 韩国三级视频网站| 99色视频| 韩国妈妈的朋友在线播放 | 亚洲天堂在线播放| 欧美激情伊人| 天堂网中文在线| 午夜激情视频在线播放| 精品国产一区二区三区久久久蜜臀| 亚洲 男人 天堂| 日本在线不卡免费视频一区| 国产成+人+综合+亚洲不卡| 国产极品白嫩美女在线观看看| 香蕉视频三级| 亚欧成人毛片一区二区三区四区 | 色综合久久天天综合| 久久国产影院| 国产韩国精品一区二区三区| 亚洲 激情| 午夜激情视频在线观看| 日韩在线观看视频黄| 亚洲 男人 天堂| 国产麻豆精品视频| 国产网站在线| 精品视频在线观看一区二区三区| 尤物视频网站在线| 欧美1区| 国产极品白嫩美女在线观看看| 亚欧视频在线| 欧美大片毛片aaa免费看| 黄色短视频网站| 日本免费看视频| 国产视频一区二区在线播放| 国产伦精品一区二区三区在线观看| 欧美电影免费看大全| 成人高清免费| 色综合久久天天综合观看| 九九精品久久| 999久久66久6只有精品| 国产极品白嫩美女在线观看看| 精品久久久久久中文| 欧美激情一区二区三区在线 | 免费的黄视频| 日韩中文字幕在线亚洲一区 | 久久久成人影院| 天堂网中文在线| 久久成人综合网| 欧美大片aaaa一级毛片| 精品视频在线看| 欧美一级视频高清片| 青青青草视频在线观看| 精品国产亚一区二区三区| 国产一区二区精品| 欧美夜夜骑 青草视频在线观看完整版 久久精品99无色码中文字幕 欧美日韩一区二区在线观看视频 欧美中文字幕在线视频 www.99精品 香蕉视频久久 | 成人免费一级毛片在线播放视频| 国产网站免费| 精品在线观看一区| 成人av在线播放| 一级毛片视频免费| 国产不卡在线看| 国产伦精品一区二区三区无广告 | 亚洲第一页色| 国产一区国产二区国产三区| 日韩一级黄色| 久久国产影院| 成人av在线播放| 九九免费精品视频| 精品国产三级a∨在线观看| 一级女性全黄生活片免费| 日韩在线观看免费| 成人免费网站视频ww| 国产视频一区在线| 国产不卡精品一区二区三区| 午夜在线影院| 国产成人啪精品| 一级毛片视频播放| 九九免费精品视频| 美女被草网站| 日韩专区在线播放| 久久国产精品只做精品| 国产视频一区二区在线播放| 久久国产精品自由自在| 一级女性大黄生活片免费| 日本特黄特色aa大片免费| 日本久久久久久久 97久久精品一区二区三区 狠狠色噜噜狠狠狠狠97 日日干综合 五月天婷婷在线观看高清 九色福利视频 | 999久久66久6只有精品| 国产视频久久久| 人人干人人草| 久久99中文字幕| 亚洲天堂免费| 日韩在线观看视频网站| 天天色成人| 国产成人欧美一区二区三区的| 日韩av片免费播放| 国产亚洲免费观看| 韩国毛片基地| 四虎久久精品国产| 韩国三级一区| 香蕉视频三级| 精品国产三级a∨在线观看| 国产极品白嫩美女在线观看看| 99久久精品国产国产毛片| 国产成人精品综合在线| 亚洲精品永久一区| 午夜家庭影院| 深夜做爰性大片中文| 国产国语在线播放视频| 久久久久久久久综合影视网| 亚洲 激情| 日本在线播放一区| 九九久久99综合一区二区| 一本高清在线| 国产一级生活片| 国产麻豆精品免费密入口| 亚洲天堂免费| 九九精品久久| 精品久久久久久中文| 深夜做爰性大片中文| 欧美国产日韩精品| 天天做日日干| 久久国产精品只做精品| 四虎影视库国产精品一区| 色综合久久天天综合绕观看| 久久成人亚洲| 国产精品自拍亚洲| 日本在线不卡免费视频一区| 成人免费高清视频| 国产91精品露脸国语对白| 国产一区国产二区国产三区| 欧美18性精品| 国产原创中文字幕| 青青青草影院 | 午夜在线亚洲| 国产精品自拍一区| 精品国产一区二区三区国产馆| 青青青草影院 | 九九久久国产精品| 尤物视频网站在线| 日本久久久久久久 97久久精品一区二区三区 狠狠色噜噜狠狠狠狠97 日日干综合 五月天婷婷在线观看高清 九色福利视频 | 一级女人毛片人一女人| 日韩专区亚洲综合久久| 四虎影视库| 欧美日本免费| 精品毛片视频| 韩国三级视频网站| 可以在线看黄的网站| 青青久久精品| 黄视频网站免费观看| 久草免费在线视频| 久久国产一久久高清| 欧美日本免费| 国产伦久视频免费观看 视频| 999久久狠狠免费精品| 成人免费观看的视频黄页| 一本高清在线| 欧美激情一区二区三区视频 |