夸克AI實驗室與浙大聯合開源OmniAvatar：音頻驅動全身視頻生成新突破

2025-07-25 13:45:54 來源：觀察者網

觀看：50

近日，夸克AI技術團隊與浙江大學強強聯手，共同開源了一項創新成果——OmniAvata，這是一款領先的音頻驅動全身視頻生成模型，將為視頻生成領域帶來了革命性的變化。

傳統上，音頻驅動人體運動的技術多集中于面部運動，缺乏全身驅動能力，且難以進行精確控制。而OmniAvatar的出現，徹底改變了這一現狀。只需要輸入一張圖片和一段音頻，OmniAvatar即可生成相應視頻，且顯著提升了畫面中人物的唇形同步細節和全身動作的流暢性。不僅如此，該模型還可通過提示詞進一步精準控制人物姿勢、情緒、場景等要素。

此外，長視頻連續生成是音頻驅動視頻生成的難點，也是一項關鍵挑戰。為此，OmniAvatar通過參考圖像嵌入策略和幀重疊技術，確保了視頻的連貫性和人物身份的一致性。

本次突破不僅體現在產品層面，OmniAvatar的技術革新同樣值得關注。團隊提出了一種基于像素的音頻嵌入策略，使音頻特征可以直接在模型的潛在空間中以像素級的方式融入，從而生成更協調、更自然的身體動作來匹配音頻。同時，采用多層級音頻嵌入策略，將音頻信息嵌入到DiT模塊的不同階段中，確保模型在不同層次上保持獨立的學習路徑。

為了解決完整訓練和僅微調特定層所帶來的問題，團隊還提出了一種基于LoRA的平衡微調策略。該策略使用LoRA策略高效地適應模型，使模型能夠在不改變底層模型容量的情況下學習音頻特征，從而兼顧了視頻質量與細節。

OmniAvatar是團隊在多模態視頻生成上的初步嘗試，并在實驗數據集上得到了初步驗證，但尚未達到產品級應用水平。未來，團隊還將在復雜指令處理能力、多角色交互等方面進一步探索，擴大模型在更多場景中的應用。

本文系觀察者網獨家稿件，未經授權，不得轉載。

本文鏈接：夸克AI實驗室與浙大聯合開源OmniAvatar：音頻驅動全身視頻生成新突破http://www.sq15.cn/show-3-150244-0.html

聲明：本網站為非營利性網站，本網頁內容由互聯網博主自發貢獻，不代表本站觀點，本站不承擔任何法律責任。天上不會到餡餅，請大家謹防詐騙！若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。

上一篇：員工因反對穿超短裙發獎品被解雇？猿輔導回應

下一篇：外交部回應美國AI行動計劃；英特爾宣布正裁員15%；美團召開外賣行業懇談會

中文字幕亚洲欧美一区二区三区_亚洲精品菠萝久久久久久久_日本成人免费视频_狠狠躁少妇一区二区三区_国产精品中文字幕久久久_国产乱子伦农村叉叉叉_麻豆tv免费在线观看_av在线这里只有精品_色吧亚洲视频_嫩草影院一二三

夸克AI實驗室與浙大聯合開源OmniAvatar：音頻驅動全身視頻生成新突破

熱門資訊

推薦資訊

財經最熱文章