近日,夸克AI技術團隊與浙江大學強強聯手,共同開源了一項創新成果——OmniAvata,這是一款領先的音頻驅動全身視頻生成模型,將為視頻生成領域帶來了革命性的變化。
傳統上,音頻驅動人體運動的技術多集中于面部運動,缺乏全身驅動能力,且難以進行精確控制。而OmniAvatar的出現,徹底改變了這一現狀。只需要輸入一張圖片和一段音頻,OmniAvatar即可生成相應視頻,且顯著提升了畫面中人物的唇形同步細節和全身動作的流暢性。不僅如此,該模型還可通過提示詞進一步精準控制人物姿勢、情緒、場景等要素。
此外,長視頻連續生成是音頻驅動視頻生成的難點,也是一項關鍵挑戰。為此,OmniAvatar通過參考圖像嵌入策略和幀重疊技術,確保了視頻的連貫性和人物身份的一致性。
本次突破不僅體現在產品層面,OmniAvatar的技術革新同樣值得關注。團隊提出了一種基于像素的音頻嵌入策略,使音頻特征可以直接在模型的潛在空間中以像素級的方式融入,從而生成更協調、更自然的身體動作來匹配音頻。同時,采用多層級音頻嵌入策略,將音頻信息嵌入到DiT模塊的不同階段中,確保模型在不同層次上保持獨立的學習路徑。
為了解決完整訓練和僅微調特定層所帶來的問題,團隊還提出了一種基于LoRA的平衡微調策略。該策略使用LoRA策略高效地適應模型,使模型能夠在不改變底層模型容量的情況下學習音頻特征,從而兼顧了視頻質量與細節。
OmniAvatar是團隊在多模態視頻生成上的初步嘗試,并在實驗數據集上得到了初步驗證,但尚未達到產品級應用水平。未來,團隊還將在復雜指令處理能力、多角色交互等方面進一步探索,擴大模型在更多場景中的應用。
本文系觀察者網獨家稿件,未經授權,不得轉載。
本文鏈接:夸克AI實驗室與浙大聯合開源OmniAvatar:音頻驅動全身視頻生成新突破http://www.sq15.cn/show-3-150244-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。