記者5月25日獲悉,騰訊近日宣布旗下混元文生圖大模型全面升級,并對外開源。
這是業內首個中文原生的DiT架構文生圖開源模型,具備原生中文理解能力和雙語編碼能力,參數量15億。此次開源的模型包含模型權重、推理代碼、模型算法等完整模型,供企業與個人開發者免費商用,目前已在專注于自然語言處理的開源機器學習平臺Hugging Face及面向軟件開發者的代碼托管平臺Github上發布。
騰訊混元文生圖技術負責人蘆清林介紹,升級后的混元文生圖大模型采用了與Sora一致的DiT架構,不僅可支持文生圖,也可作為文生視頻等多模態視覺生成的基礎。
過去,視覺生成擴散模型主要基于U-Net架構。隨著模型參數量增加,DiT架構展現出更好的擴展性,有助于提升模型生成質量和效率。
記者了解到,混元文生圖大模型是業界最早探索并將大語言模型結合DiT架構的文生圖模型之一。2023年7月,騰訊混元文生圖團隊明確了基于DiT架構的模型方向,并啟動了新一代模型研發。今年初,混元文生圖大模型全面升級為DiT架構。
評測數據顯示,最新騰訊混元文生圖模型效果相比前代提升超20%,遠超開源的Stable Diffusion模型。
目前,主流文生圖開源生態基本圍繞英文建設,Stable Diffusion等主流開源模型雖一定程度支持中文輸入,但其核心數據集仍以英文為主。建設中文原生大模型以及相應的開源生態對國內大模型產業有重要意義。
混元文生圖大模型以中文原生為基礎,支持中英文雙語輸入及理解。其文生圖能力已被廣泛用于素材創作、商品合成、游戲出圖等業務場景。
“騰訊混元文生圖大模型的研發思路就是實用,堅持從實踐中來,到實踐中去。此次把最新一代模型完整開源,是希望與行業共享實踐經驗和研究成果,加速大模型行業發展。”蘆清林表示,目前開源的混元文生圖大模型版本,也是騰訊內部正在使用的版本。基于該模型,開發者和企業無需從頭訓練,可直接將其用于推理,并可打造專屬的AI繪畫應用及服務。
此外,目前文生圖開源社區主要還是以Stable Diffusion等為主的英文開源社區。混元文生圖大模型的開源,將豐富以中文為主的文生圖開源生態,推動中文文生圖技術研發和應用。
記者5月25日獲悉,騰訊近日宣布旗下混元文生圖大模型全面升級,并對外開源。
這是業內首個中文原生的DiT架構文生圖開源模型,具備原生中文理解能力和雙語編碼能力,參數量15億。此次開源的模型包含模型權重、推理代碼、模型算法等完整模型,供企業與個人開發者免費商用,目前已在專注于自然語言處理的開源機器學習平臺Hugging Face及面向軟件開發者的代碼托管平臺Github上發布。
騰訊混元文生圖技術負責人蘆清林介紹,升級后的混元文生圖大模型采用了與Sora一致的DiT架構,不僅可支持文生圖,也可作為文生視頻等多模態視覺生成的基礎。
過去,視覺生成擴散模型主要基于U-Net架構。隨著模型參數量增加,DiT架構展現出更好的擴展性,有助于提升模型生成質量和效率。
記者了解到,混元文生圖大模型是業界最早探索并將大語言模型結合DiT架構的文生圖模型之一。2023年7月,騰訊混元文生圖團隊明確了基于DiT架構的模型方向,并啟動了新一代模型研發。今年初,混元文生圖大模型全面升級為DiT架構。
評測數據顯示,最新騰訊混元文生圖模型效果相比前代提升超20%,遠超開源的Stable Diffusion模型。
目前,主流文生圖開源生態基本圍繞英文建設,Stable Diffusion等主流開源模型雖一定程度支持中文輸入,但其核心數據集仍以英文為主。建設中文原生大模型以及相應的開源生態對國內大模型產業有重要意義。
混元文生圖大模型以中文原生為基礎,支持中英文雙語輸入及理解。其文生圖能力已被廣泛用于素材創作、商品合成、游戲出圖等業務場景。
“騰訊混元文生圖大模型的研發思路就是實用,堅持從實踐中來,到實踐中去。此次把最新一代模型完整開源,是希望與行業共享實踐經驗和研究成果,加速大模型行業發展。”蘆清林表示,目前開源的混元文生圖大模型版本,也是騰訊內部正在使用的版本。基于該模型,開發者和企業無需從頭訓練,可直接將其用于推理,并可打造專屬的AI繪畫應用及服務。
此外,目前文生圖開源社區主要還是以Stable Diffusion等為主的英文開源社區。混元文生圖大模型的開源,將豐富以中文為主的文生圖開源生態,推動中文文生圖技術研發和應用。
本文鏈接:騰訊混元文生圖大模型全面開源http://www.sq15.cn/show-2-6308-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。
下一篇: 具身智能:步入AI舞臺中央?