當今世界上的主流大模型,主要支持英語、中文等常用自然語言,以及法語、德語、西班牙語、意大利語、葡萄牙語、俄語、日語、韓語等有豐富語料的高資源語言;那些數字化語料稀缺的“低資料”語言往往所獲支持甚少,甚至無法直接使用。換言之,盡管大模型的“世界舞臺”分外熱鬧,許多小語種國家卻面臨著被AI邊緣化的風險。
在日前在上海舉辦的2025世界人工智能大會(WAIC)上,一場會議專門就此展開研討。作為WAIC技術方向的重要議題,這場“科大訊飛高級別高水平多語言基座大模型國際學術研討會”(以下簡稱“研討會”)上,匯聚了來自亞洲、歐洲近20個國家和地區約30位人工智能領域的產學研各界代表。
科大訊飛高級別多水平多語言基座大模型國際學術研討會部分與會嘉賓合影。 科大訊飛供圖
“語言模型不能只服務‘大語種’,每種語言都應擁有體現其文化身份的大模型。”研討會上,塞爾維亞諾維薩德大學技術科學學院教授弗拉多?德利奇(Vlado Deli?)的觀點說出了與會者的心聲。他說,為避免在醫療、法律等關鍵領域出現誤譯等風險,小語種國家也必須構建符合本國語言特點和文化語境的國家級大模型。
每個人都該擁有“數字巴別魚”
在英國作家道格拉斯?亞當斯的科幻小說《銀河系漫游指南》中,有一種可以理解并自動翻譯所有語言的神奇生物——“巴別魚”。巴別魚以接收腦電波能量為生,人們只需將它塞入耳中,就能聽懂各類外星種族的語言。
現實中當然沒有巴別魚,但大模型技術有進化出“數字巴別魚”的潛力。
例如,研討會上,科大訊飛研究院院長劉聰就介紹了星火大模型X1在多語言技術方面的最新升級:它可以支持130+語種,在阿拉伯語、德語、法語、韓語、日語等語種都有出色表現;同時,通過混合語種路由等技術創新,星火語音大模型支持100個語種的語音識別、支持55個語種的語音合成。這意味著,世界上大部分人群都可以直接跟星火“對話”。
“我們希望構建全方位的多語言大模型和它的應用,給世界提供第二種選擇。”劉聰說。
“多語言AI就是現實版的‘巴別魚’。”英國薩里大學“以人為本的人工智能研究中心”聯合主任、教授宋一晢認為,人工智能的終極目標是服務人類價值、賦能每一個個體,不能只屬于少數人。所以,要將AI從“云端”帶到“用戶端”。
就此話題,宋一晢談到了“以人為本的人工智能研究中心”命名的初衷。
“我們3年前成立‘以人為本的人工智能研究中心’,就是希望致力于讓AI不再只是‘一項技術’,而是一種可以跟社會、企業結合,可量化、可體驗的事物,它將以人為本作出貢獻。”他說,像AI這樣的技術,會延伸到人類活動中、理解人的不同需求,這同時也意味著,所有人都應該“同樣被理解”。
他提到,研討會上要探討的議題與“以人為本”的目標相近,尤其是多語言大模型:“人們對它的關注還不夠,科大訊飛能做出來,是非常堅實的第一步。”
“小語種”語言大模型的尷尬
此次研討會上的嘉賓,不少來自“小語種”國家。
“如果語言被技術遺忘,這個群體也會被時代遺忘。”柬埔寨金邊皇家大學計算機科學系教授亨?索萬納利特(Heng Sovannarith)的發言既是警示,也是訴求。而要回應這一訴求,就要像以色列人類語言技術協會創始人兼董事阿夫納?阿爾戈姆(Avner Algom)提到的那樣:“語言服務不能只為大語種設計,小語種也應擁有技術平權”。
反映在大模型的訓練上,語種的大小(或語言數字資源的多寡)反差很明顯。一個典型的例子——在GPT-3 的訓練數據中,英語占比超過90%,而斯瓦希里語、藏語等語言的數字化文本量可能不及英語的百萬分之一。這種數據鴻溝直接導致低資源語言的模型性能顯著落后。斯坦福大學一項研究顯示,ChatGPT 等模型在越南語(約9700萬使用者)中的表現比英語差30%,在納瓦特爾語(僅約150萬使用者)上的準確率甚至不足50%。
對此,馬來西亞拉曼理工大學企業孵化與創業中心副主任余永波(Yu Yong Poh音譯)提出:“文化理解力比參數規模更重要。”
與會嘉賓認為,面對“小語種”在大模型時代的挑戰,開展國際合作將是重要解決路徑。
弗拉多?德利奇表示,希望通過與中國的科大訊飛等機構的合作,將塞爾維亞的語言技術納入全球AI生態。他說,目前雙方已啟動合作規劃,計劃將塞爾維亞語及相關南斯拉夫語言接入訊飛的翻譯設備與智能應用系統,并以2027年貝爾格萊德世博會為階段目標,打造本地化大模型。
阿夫納?阿爾戈姆也分享了希伯來語AI技術發展經驗。他說,希伯來語雖是世界上唯一被成功復興為現代口語的古老語言,但在自然語言處理領域仍屬低資源語言。為此,以色列人類語言技術協會基于開源模型,已訓練出“希伯來語+英語”雙語大模型,并嘗試將其部署于教育、客服、醫療等場景。但這些工作仍需通過財政激勵等機制,并聯合產業界解決數據獲取合法性、訓練成本和落地門檻問題。
用“中國智慧”彌合智能鴻溝
在回答“本國如何構建大語言模型”問題時,匈牙利語言學研究中心高級顧問塔馬斯?瓦拉迪(Tamás Váradi)談道,一國構建大語言模型需要考慮很多因素——不只是需要決心和想法,更需要基礎設施,尤其數據基礎設施“至為關鍵”。
“有自己獨立語言的各個國家有責任提供的,不僅是簡單堆積的原始數據,更要提供經過專業標注的數據集。”他說,如此方能使大模型開發者在混合體系中實現對該語言的均衡優化和表征。
“比如匈牙利語——一種不屬于印歐語系的小語種,就像一個‘語言孤島’,因此我們有責任提供高質量的語言數據。”瓦拉迪說。
此外,瓦拉迪認為,通過評估體系促進多語言公平呈現,是各國“另一個能真正作出貢獻的領域”。
“我們不能期望全球合作伙伴對其用于數據訓練的龐大語言混合體系中的每一種語言都具備相關知識,并能精準理解所有語言的細節特征。”瓦拉迪說,因此,(小語種國家)要致力于持續產出更豐富的評估數據集,以對多語言模型進行評估,并通過開放平臺供各方測試這些模型在小語種上的表現。
話說回來,大模型技術如何兼顧“小語種”的議題,在國內早已有之。據中國政府網數據,中國作為一個多民族國家,有130余種語言、十大方言,各方言區內又有數不清的“次方言”和許多種“土語”——這些語言如何“上車”大模型,與小語種國家面對的情況相似。
劉聰告訴《中國科學報》,早在2017年,科大訊飛就啟動了一項名為“方言保護計劃”的公益項目,致力于用AI技術保護瀕危語言。近年來,基于訊飛星火大模型的底座能力,科大訊飛在多語種、多方言能力方面也在持續突破。其中,訊飛多語種技術已為華為、比亞迪、海爾等中國企業的1.2億臺套設備提供語音交互支持,涵蓋23種語言,在非洲、東南亞等國家落地。
與此同時,訊飛還通過開放平臺將相關的語音識別、合成等能力開放出來,讓全球合作者開發多語種的智能產品。劉聰說,目前科大訊飛已開放813項AI能力接口,其中272項AI能力專門面向多語種需求。
“多語言AI是國際交流不可或缺的技術橋梁。”劉聰表示,科大訊飛將以“技術賦能+生態共建”雙輪驅動,攜手全球伙伴共建開放平臺,共享技術成果和應用場景,用“中國智慧”助力不同文化背景的國家彌合智能鴻溝,共同構建更包容、普惠的全球人工智能生態。
本文鏈接:“小語種”如何擁抱人工智能“大未來”http://www.sq15.cn/show-11-24524-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。
上一篇: 無錫用一張“施工圖”回應科技成果轉化難題
下一篇: 哥廷根:不僅是起點,更是反思之地