近日,字節跳動旗下火山引擎在深圳舉辦AI創新巡展,發布了豆包視頻生成-PixelDance、豆包視頻生成-Seaweed兩款大模型。此前視頻生成模型大多只能完成簡單指令,豆包視頻生成模型則能實現自然連貫的多拍動作與多主體復雜交互。例如,后者可以讓不同人物完成多個動作指令的互動,使人物樣貌、服裝細節甚至頭飾在不同運鏡下也保持一致,接近實拍效果。
據火山引擎介紹,豆包視頻生成模型基于DiT架構,通過高效的DiT融合計算單元,讓視頻在大動態與運鏡中自由切換,擁有變焦、環繞、平搖、縮放、目標跟隨等多鏡頭語言能力。全新設計的擴散模型訓練方法攻克了多鏡頭切換的一致性難題,在鏡頭切換時可同時保持主體、風格、氛圍的一致性,這也是豆包視頻生成模型獨樹一幟的創新點。
經過剪映、即夢AI等業務場景打磨和持續迭代,豆包視頻生成模型已具備專業級光影布局和色彩調和,畫面視覺極具美感和真實感。深度優化的Transformer結構,則大幅提升了豆包視頻生成的泛化能力,支持3D動畫、2D動畫、國畫、黑白、厚涂等多種風格。
“視頻生成有很多難關亟待突破。豆包兩款模型會持續演進,在解決關鍵問題上探索更多可能性,加速拓展AI視頻的創作空間和應用落地。”火山引擎總裁譚待說。
近日,字節跳動旗下火山引擎在深圳舉辦AI創新巡展,發布了豆包視頻生成-PixelDance、豆包視頻生成-Seaweed兩款大模型。此前視頻生成模型大多只能完成簡單指令,豆包視頻生成模型則能實現自然連貫的多拍動作與多主體復雜交互。例如,后者可以讓不同人物完成多個動作指令的互動,使人物樣貌、服裝細節甚至頭飾在不同運鏡下也保持一致,接近實拍效果。
據火山引擎介紹,豆包視頻生成模型基于DiT架構,通過高效的DiT融合計算單元,讓視頻在大動態與運鏡中自由切換,擁有變焦、環繞、平搖、縮放、目標跟隨等多鏡頭語言能力。全新設計的擴散模型訓練方法攻克了多鏡頭切換的一致性難題,在鏡頭切換時可同時保持主體、風格、氛圍的一致性,這也是豆包視頻生成模型獨樹一幟的創新點。
經過剪映、即夢AI等業務場景打磨和持續迭代,豆包視頻生成模型已具備專業級光影布局和色彩調和,畫面視覺極具美感和真實感。深度優化的Transformer結構,則大幅提升了豆包視頻生成的泛化能力,支持3D動畫、2D動畫、國畫、黑白、厚涂等多種風格。
“視頻生成有很多難關亟待突破。豆包兩款模型會持續演進,在解決關鍵問題上探索更多可能性,加速拓展AI視頻的創作空間和應用落地。”火山引擎總裁譚待說。
本文鏈接:豆包視頻生成模型實現多主體復雜交互http://www.sq15.cn/show-2-8756-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。
上一篇: 量子糾纏可提升光學原子鐘精度