熱度不減的大模型是實現人工智能的唯一解決方法嗎?每個行業都要有自己的大模型嗎?對于大模型,我們現在還是跟隨,那么自主的發展路徑是什么?當預訓練大模型攪動起巨大的研發、應用熱潮時,這些問題隨之產生。
中國計算機學會以“智啟新局”為主題,5月16-18日在浙江寧波舉辦了2024青年精英大會(YEF2024),1200多名來自全國各高校、科研院所、企業的青年學者、專家,集中討論了大模型、人工智能安全、國產算力、開源芯片、腦機接口等多個前沿領域發展。
不依賴“一兩個模型打天下”
大模型為什么不是萬能的?面對現在的大模型熱,南京大學計算機系主任、人工智能學院院長周志華教授從兩個方面進行了分析,一方面大模型確實非常有用,所以業界特別是企業應該努力“壓榨”這個大模型路線的技術紅利,盡可能讓它發揮更大的作用;另一方面也需要認識到大模型不是所有任務的最佳解決方案,“很多企業現在都在做自己的大模型,甚至覺得不做大模型不正確,但是機器學習里有一個基本定律‘沒有免費的午餐’。希望一個算法模型能夠包打天下是不可能,一定有弱點,大模型有一些‘煩惱’。”
長期從事人工智能核心技術機器學習研究的周志華教授,有一系列原創性成果,他列舉了大模型的多個“煩惱”。
首先,大模型要先規劃任務、收集數據,然后訓練出模型,也就是說必須先考慮到要解決某一類任務,然后為它去收集數據做模型,這時如果有一個新任務,原來沒有考慮規劃過,這時就沒有模型可用的。
其次,大模型訓練和使用能耗、碳耗、數據耗都很大,一般人用不起。有人作過預測,按照現在的趨勢下去,2025年一個大模型訓練產生的碳排放相當于全紐約一個月的碳排放。
周志華教授提到,現在人們都希望先訓練一個模型,并希望在使用的過程中不斷去更新它,但是目前的大模型路線,有一個問題叫“災難性遺忘”。他以自動汽車駕駛為例,若機器學習模型在對新環境獲取的數據進行學習時,會“沖掉”舊環境中得到的寶貴信息,會出現重大安全隱患。
由于前面列舉的各種問題,人們都希望大模型能夠持續學習和終身學習,希望模型學了一堆任務之后,隨著應用的不斷發展,能夠不斷地“學”下去。周志華判斷:“這件事情在今天基于神經網絡,或者從基本的數學工具上還看不到解決方案。”
“訓練大模型要有大量的訓練數據,但是在大數據時代,這仍然是問題。”周志華解釋,有的應用樣本總量就是小,比如我們要做油田定位,這個數據要通過人工誘發地震才能獲得,那就不可能有大量數據。再比如銀行信用卡欺詐交易檢測,樣本很小。現在有人基于大模型在做軟件缺陷檢測,馬上就會碰到這個問題,雖然互聯網上這樣的開源代碼很多,但是真正由程序員標注出缺陷的很少,所以數據總量仍舊是問題。
此外,數據隱私和所有權問題還無法解決。比如做醫療診斷,大醫院有很好的數據,能做很好的模型,社區醫院數據不多,做不了很好的模型,大醫院能不能把這個數據進行分享?一旦分享,患者隱私就沒辦法得到保障。
“所以大模型的成功,更多是在很多日常能夠接觸到的,比如互聯網語料文本、視頻,容易收集到的語音數據,都是一些公開、開源、高頻的任務數據,而真正和生產行業和日常生活,特別是涉及隱私相關的任務里面其實很難做。”他提出:“所以要有一個認識,大模型很成功,但是它更適用于資源富集,就是大數據、大算力、大資金、大能耗。而且模型可以離線訓練,不需要在線更新,更重要的它是高頻任務。但如果是小資源,模型不能夠離線訓練,必須要求在線更新時,就不合適。”
“所以大模型的用處更應該是因地制宜,或者因任務制宜,很多的任務可能不太適用于像今天的大模型。我們有必要去嘗試其他的研究路線。我們這幾年在研究這么一件事,叫作‘學件’(learnware),這個詞也是我們造出來的。”周志華介紹,學件=模型+規約,基本思想是不依賴“一兩個英雄模型打天下”,可以發揮多個模型的集成作用,以適應不同任務需求。在未經過專門訓練的新任務上提供解決方案,同時強調保護用戶和開發者的數據安全,實現模型之間的協同工作,以推動創新和提升問題解決能力。
AI應用市場繁榮,但這是一座“危樓”
中國科學院院士、清華大學教授胡事民在報告中提及,本輪人工智能發展有四駕馬車:算力、框架、算法、數據,匯聚并促進了人類智慧的交融。他認為,應該更全面看待人工智能發展,不要只看應用端,要從硬件、框架、模型算法和應用四個層面來看,這四者都對人工智能的生態產生重要影響。
胡事民院士分析了目前人工智能發展,我國面臨的幾個不利條件。首先,從硬件來看,兩種國外AI芯片占了99%的市場份額。國產芯片要融入既有生態非常難,迭代更新慢。
其次,從框架來看,國外深度學習框架占據主導的地位,國產框架面臨生態屏障。從模型與算法方面來看,比前兩者要好,但需加強原始創新。
在應用層面,我國市場大、應用場景多、落地快、市場繁榮,有許多創業公司,“但它是一棟危樓,底下的硬件和軟件有問題。這是我們的現狀。”
“需要以深度學習框架為牽引,夯實我國AI生態。”胡事民院士提出,因為框架承上啟下,它可以在芯片算力水平不高的情況下盡量挖掘潛力,同時把應用層支撐好。清華大學在2020年3月20日推出“計圖”深度學習框架,具備兩個優點:第一個好處是快; 第二個好處是對硬件的支持廣泛,可以快速適配任何一款國產硬件。“希望以‘計圖’框架為核心,基于國產硬件促進人工智能算法應用的創新,來推動開源開放,構建中國人工智能的生態。”
人工智能自主發展需要匯聚青年力量
中國工程院院士、清華大學教授鄭緯民告訴中青報·中青網記者,從學術角度來看,現在有四類人在關注大模型,一是真正做大模型的;二是大模型+,做應用的;三是進行政策規范治理的研究學者;四是如何讓大模型用起來,進行基礎設施建設的科研人員。
作為大會程序委員會主席,清華大學副教授崔鵬說,我們現在整體人工智能的發展路徑還是以跟隨為主,其中一個很明顯的現象是,OpenAI發布一個新的產品,我們趕緊奮起直追,那么中國人工智能自主發展路徑在何方,希望匯聚青年精英的力量,共同去探討和商議。
清華大學公共管理學院教授,人工智能治理研究中心主任梁正在專題報告中指出,發展人工智能,我國在基礎理論、核心軟硬件和生態方面還與國際先進水平有一定差距,要平衡創新與治理、踐行價值對齊的倫理思路,并吸收國際經驗,探索理念開放、主體多元、對象分層、工具靈活的敏捷治理新思路,以推動我國人工智能治理的進一步發展。
相較于大語言模型,近期以Open AI的SORA、GPT-4o,以及谷歌的Geimini為代表的世界模型,成為學術界和工業界的研究熱點,被認為是通向強人工智能的關鍵技術路徑。但是以多模態學習為基礎的世界模型的路線還不清晰,未來發展有很多爭議,復旦大學教授邱錫鵬教授發起的“世界模型之路在何方”的論壇,吸引了更多學者探討世界模型的發展路線,以及在國內算力不足的條件下如何輕量化發展,如何跨模態相互理解等研究方向。
熱度不減的大模型是實現人工智能的唯一解決方法嗎?每個行業都要有自己的大模型嗎?對于大模型,我們現在還是跟隨,那么自主的發展路徑是什么?當預訓練大模型攪動起巨大的研發、應用熱潮時,這些問題隨之產生。
中國計算機學會以“智啟新局”為主題,5月16-18日在浙江寧波舉辦了2024青年精英大會(YEF2024),1200多名來自全國各高校、科研院所、企業的青年學者、專家,集中討論了大模型、人工智能安全、國產算力、開源芯片、腦機接口等多個前沿領域發展。
不依賴“一兩個模型打天下”
大模型為什么不是萬能的?面對現在的大模型熱,南京大學計算機系主任、人工智能學院院長周志華教授從兩個方面進行了分析,一方面大模型確實非常有用,所以業界特別是企業應該努力“壓榨”這個大模型路線的技術紅利,盡可能讓它發揮更大的作用;另一方面也需要認識到大模型不是所有任務的最佳解決方案,“很多企業現在都在做自己的大模型,甚至覺得不做大模型不正確,但是機器學習里有一個基本定律‘沒有免費的午餐’。希望一個算法模型能夠包打天下是不可能,一定有弱點,大模型有一些‘煩惱’。”
長期從事人工智能核心技術機器學習研究的周志華教授,有一系列原創性成果,他列舉了大模型的多個“煩惱”。
首先,大模型要先規劃任務、收集數據,然后訓練出模型,也就是說必須先考慮到要解決某一類任務,然后為它去收集數據做模型,這時如果有一個新任務,原來沒有考慮規劃過,這時就沒有模型可用的。
其次,大模型訓練和使用能耗、碳耗、數據耗都很大,一般人用不起。有人作過預測,按照現在的趨勢下去,2025年一個大模型訓練產生的碳排放相當于全紐約一個月的碳排放。
周志華教授提到,現在人們都希望先訓練一個模型,并希望在使用的過程中不斷去更新它,但是目前的大模型路線,有一個問題叫“災難性遺忘”。他以自動汽車駕駛為例,若機器學習模型在對新環境獲取的數據進行學習時,會“沖掉”舊環境中得到的寶貴信息,會出現重大安全隱患。
由于前面列舉的各種問題,人們都希望大模型能夠持續學習和終身學習,希望模型學了一堆任務之后,隨著應用的不斷發展,能夠不斷地“學”下去。周志華判斷:“這件事情在今天基于神經網絡,或者從基本的數學工具上還看不到解決方案。”
“訓練大模型要有大量的訓練數據,但是在大數據時代,這仍然是問題。”周志華解釋,有的應用樣本總量就是小,比如我們要做油田定位,這個數據要通過人工誘發地震才能獲得,那就不可能有大量數據。再比如銀行信用卡欺詐交易檢測,樣本很小。現在有人基于大模型在做軟件缺陷檢測,馬上就會碰到這個問題,雖然互聯網上這樣的開源代碼很多,但是真正由程序員標注出缺陷的很少,所以數據總量仍舊是問題。
此外,數據隱私和所有權問題還無法解決。比如做醫療診斷,大醫院有很好的數據,能做很好的模型,社區醫院數據不多,做不了很好的模型,大醫院能不能把這個數據進行分享?一旦分享,患者隱私就沒辦法得到保障。
“所以大模型的成功,更多是在很多日常能夠接觸到的,比如互聯網語料文本、視頻,容易收集到的語音數據,都是一些公開、開源、高頻的任務數據,而真正和生產行業和日常生活,特別是涉及隱私相關的任務里面其實很難做。”他提出:“所以要有一個認識,大模型很成功,但是它更適用于資源富集,就是大數據、大算力、大資金、大能耗。而且模型可以離線訓練,不需要在線更新,更重要的它是高頻任務。但如果是小資源,模型不能夠離線訓練,必須要求在線更新時,就不合適。”
“所以大模型的用處更應該是因地制宜,或者因任務制宜,很多的任務可能不太適用于像今天的大模型。我們有必要去嘗試其他的研究路線。我們這幾年在研究這么一件事,叫作‘學件’(learnware),這個詞也是我們造出來的。”周志華介紹,學件=模型+規約,基本思想是不依賴“一兩個英雄模型打天下”,可以發揮多個模型的集成作用,以適應不同任務需求。在未經過專門訓練的新任務上提供解決方案,同時強調保護用戶和開發者的數據安全,實現模型之間的協同工作,以推動創新和提升問題解決能力。
AI應用市場繁榮,但這是一座“危樓”
中國科學院院士、清華大學教授胡事民在報告中提及,本輪人工智能發展有四駕馬車:算力、框架、算法、數據,匯聚并促進了人類智慧的交融。他認為,應該更全面看待人工智能發展,不要只看應用端,要從硬件、框架、模型算法和應用四個層面來看,這四者都對人工智能的生態產生重要影響。
胡事民院士分析了目前人工智能發展,我國面臨的幾個不利條件。首先,從硬件來看,兩種國外AI芯片占了99%的市場份額。國產芯片要融入既有生態非常難,迭代更新慢。
其次,從框架來看,國外深度學習框架占據主導的地位,國產框架面臨生態屏障。從模型與算法方面來看,比前兩者要好,但需加強原始創新。
在應用層面,我國市場大、應用場景多、落地快、市場繁榮,有許多創業公司,“但它是一棟危樓,底下的硬件和軟件有問題。這是我們的現狀。”
“需要以深度學習框架為牽引,夯實我國AI生態。”胡事民院士提出,因為框架承上啟下,它可以在芯片算力水平不高的情況下盡量挖掘潛力,同時把應用層支撐好。清華大學在2020年3月20日推出“計圖”深度學習框架,具備兩個優點:第一個好處是快; 第二個好處是對硬件的支持廣泛,可以快速適配任何一款國產硬件。“希望以‘計圖’框架為核心,基于國產硬件促進人工智能算法應用的創新,來推動開源開放,構建中國人工智能的生態。”
人工智能自主發展需要匯聚青年力量
中國工程院院士、清華大學教授鄭緯民告訴中青報·中青網記者,從學術角度來看,現在有四類人在關注大模型,一是真正做大模型的;二是大模型+,做應用的;三是進行政策規范治理的研究學者;四是如何讓大模型用起來,進行基礎設施建設的科研人員。
作為大會程序委員會主席,清華大學副教授崔鵬說,我們現在整體人工智能的發展路徑還是以跟隨為主,其中一個很明顯的現象是,OpenAI發布一個新的產品,我們趕緊奮起直追,那么中國人工智能自主發展路徑在何方,希望匯聚青年精英的力量,共同去探討和商議。
清華大學公共管理學院教授,人工智能治理研究中心主任梁正在專題報告中指出,發展人工智能,我國在基礎理論、核心軟硬件和生態方面還與國際先進水平有一定差距,要平衡創新與治理、踐行價值對齊的倫理思路,并吸收國際經驗,探索理念開放、主體多元、對象分層、工具靈活的敏捷治理新思路,以推動我國人工智能治理的進一步發展。
相較于大語言模型,近期以Open AI的SORA、GPT-4o,以及谷歌的Geimini為代表的世界模型,成為學術界和工業界的研究熱點,被認為是通向強人工智能的關鍵技術路徑。但是以多模態學習為基礎的世界模型的路線還不清晰,未來發展有很多爭議,復旦大學教授邱錫鵬教授發起的“世界模型之路在何方”的論壇,吸引了更多學者探討世界模型的發展路線,以及在國內算力不足的條件下如何輕量化發展,如何跨模態相互理解等研究方向。
本文鏈接:構建中國人自己的智能生態 解決大模型的“煩惱”http://www.sq15.cn/show-2-6061-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。