每年9月到次年5月,數(shù)以千計的育種專家都會如候鳥般飛往北緯18度的海南三亞。他們來這里的使命,是希望讓各地都能用上在南繁基地加速培育的良種。據(jù)統(tǒng)計,中國超過80%的新品種,都經(jīng)過在南繁的選育。
然而,隨著智能時代的來臨,一個看不見的難題正制約著南繁的未來:強大的人工智能(AI)給育種科學家?guī)砹司薮蟮南胂罂臻g,但農(nóng)業(yè)數(shù)據(jù)分散、質(zhì)量參差不齊、標準不一,無法形成高質(zhì)量的數(shù)據(jù)集,AI育種難以落地。
“我們迫切需要一個統(tǒng)一的平臺,將所有數(shù)據(jù)匯集在一起,并自動生成高質(zhì)量的數(shù)據(jù)用于智能分析。”對于數(shù)據(jù)問題給AI育種帶來的制約,在近日于三亞召開的2025年植物表型組學國際研討會上,崖州灣國家實驗室高級科學家袁曉輝一語道破。
這正是崖州灣國家實驗室聯(lián)手華為發(fā)布“繁-未來農(nóng)業(yè)智能樞紐”的初衷。為了推動AI賦能育種加快落地,他們圍繞“建立高質(zhì)量種業(yè)數(shù)據(jù)集”做起了文章。
“繁-未來農(nóng)業(yè)智能樞紐”發(fā)布儀式。 本文圖片均由2025年植物表型組學國際研討會提供
吹響AI育種數(shù)據(jù)集結(jié)號
種子是農(nóng)業(yè)的芯片。當前我國雖然育種品種數(shù)量世界第一,但同質(zhì)化嚴重,不少品種僅是針對主流品種的微小改良,缺乏革命性突破。更嚴峻的是,中國的主流育種方式仍停留于“經(jīng)驗育種”,這種方式往往周期長達8~10年,成功率和有效普及率卻不足1%。
作為中國農(nóng)業(yè)領(lǐng)域唯一的國家級實驗室,崖州灣國家實驗室的使命是創(chuàng)制重大戰(zhàn)略性品種,彌補缺口。袁曉輝表示,實驗室未來將充分運用人工智能、大數(shù)據(jù)等技術(shù)手段,搭建精準設(shè)計與智能育種平臺,提高育種效率和成功率。而實現(xiàn)這一目標的當務之急,就是要構(gòu)建一個全國性的農(nóng)業(yè)數(shù)據(jù)網(wǎng)絡(luò)樞紐。
“兵馬未到糧草先行”,數(shù)據(jù)是AI育種的“糧草”,也是首要須解決的問題。
“(AI育種)最大的挑戰(zhàn)就是數(shù)據(jù),”崖州灣國家實驗室副主任陳凡說,農(nóng)業(yè)數(shù)據(jù)有不同的形式——農(nóng)業(yè)地理類型不同、環(huán)境各異,每個區(qū)域都有不同的結(jié)構(gòu),數(shù)據(jù)結(jié)構(gòu)、質(zhì)量以及數(shù)據(jù)可訪問性上都存在差異。基于這些客觀因素,“我們希望通過一個智能樞紐來實現(xiàn)海量數(shù)據(jù)的統(tǒng)一化,實現(xiàn)農(nóng)業(yè)數(shù)據(jù)‘可用’的目標。”
換言之,在崖州灣國家實驗室和華為共同推進的“AI+育種”行動計劃中,AI-Ready是核心目標。只有實現(xiàn)了這個目標后,才能繼續(xù)將AI-Ready的數(shù)據(jù)用于精準設(shè)計和智能選育中。
不僅崖州灣國家實驗室,國內(nèi)諸多團隊都對這一問題洞若觀火。目前,吉林農(nóng)業(yè)大學、武漢理工大學、中國農(nóng)業(yè)科學院、中國農(nóng)業(yè)大學、之江實驗室、華中農(nóng)業(yè)大學等都已經(jīng)加入到構(gòu)建農(nóng)業(yè)數(shù)據(jù)網(wǎng)絡(luò)樞紐的隊伍之中。
“幾天前,我們成功地從崖州灣國家實驗室和吉林農(nóng)業(yè)大學的數(shù)據(jù)中心收集了數(shù)據(jù)。這是我國第一次實現(xiàn)跨區(qū)域農(nóng)業(yè)數(shù)據(jù)的統(tǒng)一視圖。”袁曉輝說:“隨著越來越多院校的加入,我們期待逐步構(gòu)建農(nóng)業(yè)數(shù)據(jù)的‘星鏈網(wǎng)絡(luò)’。”
袁曉輝。
育種數(shù)據(jù)AI-Ready的幕后
吹響AI育種數(shù)據(jù)的集結(jié)號,崖州灣國家實驗室的底氣來自于“繁-未來農(nóng)業(yè)智能樞紐”。
時間撥回到2025年植物表型組學國際研討會召開的400多天前。以陳凡、袁曉輝等為代表的10多位科學家,就聯(lián)手華為數(shù)據(jù)存儲產(chǎn)品線副總裁袁遠帶領(lǐng)的100多名工程師,圍繞“繁-未來農(nóng)業(yè)智能樞紐”開啟了聯(lián)合攻關(guān)。
這400多個日夜,這支跨領(lǐng)域團隊重點做了什么?
“首先是數(shù)據(jù)工程。”袁遠告訴《中國科學報》:“即便你收集了所有數(shù)據(jù),但如何把數(shù)據(jù)轉(zhuǎn)化成語料庫,這并不容易。需要清理數(shù)據(jù)、標記數(shù)據(jù),還將數(shù)據(jù)轉(zhuǎn)換為不同的格式。”
在這一環(huán)節(jié),他們提出了數(shù)據(jù)工程的“FAIR原則”:數(shù)據(jù)可視(Findable)、可訪問(Accessible)、可互操作(Interoperable)、可重復使用(Repeatable)。遵循這一原則,所有采集的數(shù)據(jù)都可變成符合文件規(guī)范的數(shù)據(jù)。
接下來是模型工程。袁遠對記者說,精準設(shè)計和智能育種這類應用,無法直接使用DeepSeek、Gemini等成熟的基礎(chǔ)大模型,需要開發(fā)行業(yè)專用模型。如何實現(xiàn)?這就要用專業(yè)行業(yè)數(shù)據(jù)來優(yōu)化、“調(diào)教”模型,同時要兼顧數(shù)據(jù)權(quán)重平衡模型的計算。
這還沒完。袁遠說,對于不同行業(yè)的人來說,還面臨著將行業(yè)模型轉(zhuǎn)化為實際應用這一道關(guān)。“這需要相應的工具來幫助實現(xiàn)模型應用,比如需要做一些數(shù)據(jù)精煉等。”
在應對上述挑戰(zhàn)的過程中,華為提供了一個三層架構(gòu)的“AI數(shù)據(jù)湖”解決方案。
袁遠介紹說,三層架構(gòu)中,底層是數(shù)據(jù)存儲層,提供一個低成本、高性能、高擴展性的數(shù)據(jù)存儲動態(tài)基座,每TB數(shù)據(jù)的功耗只有0.25瓦;中間層是基于華為DME(Omni-Dataverse)技術(shù)的AI數(shù)據(jù)管理平臺,可實現(xiàn)跨地域、跨設(shè)備的數(shù)據(jù)調(diào)度、流動與管理;上層則提供一站式的AI工具鏈,這些工具將幫助人們把數(shù)據(jù)轉(zhuǎn)化為語料庫,實現(xiàn)模型的開發(fā),將模型轉(zhuǎn)化成智能應用。
袁遠。
“現(xiàn)在剛剛開始”
陳凡介紹說,在AI數(shù)據(jù)湖解決方案的基礎(chǔ)上,崖州灣國家實驗室聯(lián)合“各路諸侯”,已展開了實質(zhì)性工作。
首先是多地多中心的AI數(shù)據(jù)平臺的搭建。其目標是實現(xiàn)跨地域、跨設(shè)備的數(shù)據(jù)調(diào)度、流動與管理。目前,袁曉輝團隊聯(lián)手華為團隊已匯聚了多組學數(shù)據(jù)、文獻數(shù)據(jù)等公共數(shù)據(jù),崖州灣六大科研基地采集的數(shù)據(jù)以及第三方企業(yè)或科研機構(gòu)數(shù)據(jù)等多模態(tài)數(shù)據(jù),真正實現(xiàn)了全國近EB級育種數(shù)據(jù)的互聯(lián)、互通、共享。袁曉輝說,該平臺現(xiàn)已實現(xiàn)三亞、長春、武漢三地的數(shù)據(jù)共享。
為了讓數(shù)據(jù)更可及,聯(lián)合團隊還建立了一個全局統(tǒng)一的“數(shù)據(jù)目錄”。
“這可不是簡單的內(nèi)容索引,”袁遠解釋說,它通過建立增強的“元數(shù)據(jù)表征”將整合的數(shù)據(jù)形成知識圖譜。在知識圖譜中,數(shù)據(jù)的“血緣關(guān)系”一目了然,如數(shù)據(jù)指征的物種是什么、它由什么儀器測量、測量深度多少、有哪些特征以及歷史版本信息等等。并且,通過數(shù)據(jù)目錄來溯源或篩選數(shù)據(jù),“就像通過簡歷篩選人一樣”。未來還可進一步實現(xiàn)自然語言的數(shù)據(jù)篩選,最終形成高質(zhì)量AI語料庫。
袁曉輝告訴記者,在各個團隊的努力下,目前“繁-未來農(nóng)業(yè)智能樞紐”可根據(jù)科學家提出的需求進行任務分解,再從高質(zhì)量的種業(yè)數(shù)據(jù)集中自動尋找關(guān)聯(lián)的育種知識,并自動化編排分析流程,助力選擇優(yōu)秀的親本和育種路線。
“借助這一技術(shù)底座,育種科學家可以將過去‘親本選種—試驗育種—大田種植’的反復流程從20代(8~10年周期)縮短至5代(3~4年周期),減少50%育種周期,效率提高30%。”陳凡說,這正是他對“繁-未來農(nóng)業(yè)智能樞紐”的期望:打破數(shù)據(jù)孤島,實現(xiàn)數(shù)據(jù)的統(tǒng)一化、可用化,將AI-Ready的數(shù)據(jù)投向未來的AI+生物育種之中。
崖州灣國家實驗室。
要指出的是,“繁-未來農(nóng)業(yè)智能樞紐”并不是封閉系統(tǒng),它有許多對外的“開口”。袁遠舉例說,比如方案中的AI工具鏈完全開源開放,使用者可以下載工具服務集成到現(xiàn)有數(shù)據(jù)工具平臺上,去利用不同的模型和知識庫來構(gòu)建智能應用;也可以參與進來、共同開發(fā),輸出更好用的工具鏈。
“現(xiàn)在剛剛開始,希望更多伙伴加入我們,共同打造智能育種新范式。”袁遠說。
本文鏈接:國家隊出手,破解AI育種“看不見的難題”http://www.sq15.cn/show-11-28661-0.html
聲明:本網(wǎng)站為非營利性網(wǎng)站,本網(wǎng)頁內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。