Stability AI開(kāi)源上新：3D生成引入視頻擴(kuò)散模型，質(zhì)量一致性u(píng)p，4090可玩

2024-03-26 17:06:18 來(lái)源：量子位

觀(guān)看：218

網(wǎng)友：夢(mèng)一個(gè)手辦自由

Stable Diffusion背后公司Stability AI又上新了。

這次帶來(lái)的是圖生3D方面的新進(jìn)展：

基于Stable Video Diffusion的Stable Video 3D（SV3D），只用一張圖片就能生成高質(zhì)量3D網(wǎng)格。

Stability AI開(kāi)源上新：3D生成引入視頻擴(kuò)散模型，質(zhì)量一致性u(píng)p，4090可玩

Stable Video Diffusion（SVD）是Stability AI此前推出的高分辨率視頻生成模型。也就是說(shuō)，此番登場(chǎng)的SV3D首次將視頻擴(kuò)散模型應(yīng)用到了3D生成領(lǐng)域。

官方表示，基于此，SV3D大大提高了3D生成的質(zhì)量和視圖一致性。

模型權(quán)重依然開(kāi)源，不過(guò)僅可用于非商業(yè)用途，想要商用的話(huà)還得買(mǎi)個(gè)Stability AI會(huì)員~

話(huà)不多說(shuō)，還是來(lái)扒一扒論文細(xì)節(jié)。

將視頻擴(kuò)散模型用于3D生成

引入潛在視頻擴(kuò)散模型，SV3D的核心目的是利用視頻模型的時(shí)間一致性來(lái)提高3D生成的一致性。

并且視頻數(shù)據(jù)本身也比3D數(shù)據(jù)更容易獲得。

Stability AI這次提供兩個(gè)版本的SV3D：

SV3D_u：基于單張圖像生成軌道視頻。

SV3D_p：擴(kuò)展了SV3D_u的功能，可以根據(jù)指定的相機(jī)路徑創(chuàng)建3D模型視頻。

研究人員還改進(jìn)了3D優(yōu)化技術(shù)：采用由粗到細(xì)的訓(xùn)練策略，優(yōu)化NeRF和DMTet網(wǎng)格來(lái)生成3D對(duì)象。

他們還設(shè)計(jì)了一種名為掩碼得分蒸餾采樣（SDS）的特殊損失函數(shù)，通過(guò)優(yōu)化在訓(xùn)練數(shù)據(jù)中不直接可見(jiàn)的區(qū)域，來(lái)提高生成3D模型的質(zhì)量和一致性。

同時(shí)，SV3D引入了一個(gè)基于球面高斯的照明模型，用于分離光照效果和紋理，在保持紋理清晰度的同時(shí)有效減少了內(nèi)置照明問(wèn)題。

具體到架構(gòu)方面，SV3D包含以下關(guān)鍵組成部分：

UNet：SV3D是在SVD的基礎(chǔ)上構(gòu)建的，包含一個(gè)多層UNet，其中每一層都有一系列殘差塊（包括3D卷積層）和兩個(gè)分別處理空間和時(shí)間信息的Transformer模塊。
條件輸入：輸入圖像通過(guò)VAE編碼器嵌入到潛在空間中，會(huì)和噪聲潛在狀態(tài)合并，一起輸入到UNet中；輸入圖像的CLIP嵌入矩陣則被用作每個(gè)Transformer模塊交叉注意力層的鍵值對(duì)。
相機(jī)軌跡編碼：SV3D設(shè)計(jì)了靜態(tài)和動(dòng)態(tài)兩種類(lèi)型的軌道來(lái)研究相機(jī)姿態(tài)條件的影響。靜態(tài)軌道中，相機(jī)以規(guī)律間隔的方位角圍繞對(duì)象；動(dòng)態(tài)軌道則允許不規(guī)則間隔的方位角和不同的仰角。

相機(jī)的運(yùn)動(dòng)軌跡信息和擴(kuò)散噪聲的時(shí)間信息會(huì)一起輸入到殘差模塊中，轉(zhuǎn)換為正弦位置嵌入，然后這些嵌入信息會(huì)被整合并進(jìn)行線(xiàn)性變換，加入到噪聲時(shí)間步長(zhǎng)嵌入中。

這樣的設(shè)計(jì)旨在通過(guò)精細(xì)控制相機(jī)軌跡和噪聲輸入，提升模型處理圖像的能力。

此外，SV3D在生成過(guò)程中采用CFG（無(wú)分類(lèi)器引導(dǎo)）來(lái)控制生成的清晰度，特別是在生成軌道的最后幾幀時(shí)，采用三角形CFG縮放來(lái)避免過(guò)度銳化。

研究人員在Objaverse數(shù)據(jù)集上訓(xùn)練SV3D，圖像分辨率為575×576，視場(chǎng)角為33.8度。論文透露，所有三種模型（SV3D_u，SV3D_c，SV3D_p）在4個(gè)節(jié)點(diǎn)上訓(xùn)練了6天左右，每個(gè)節(jié)點(diǎn)配備8個(gè)80GB的A100 GPU。

實(shí)驗(yàn)結(jié)果

在新視角合成（NVS）和3D重建方面，SV3D超過(guò)了現(xiàn)有其他方法，達(dá)到SOTA。

從定性比較的結(jié)果來(lái)看，SV3D生成的多視角試圖，細(xì)節(jié)更豐富，更接近與原始輸入圖像。也就是說(shuō)，SV3D在理解和重構(gòu)物體的3D結(jié)構(gòu)方面，能夠更準(zhǔn)確地捕捉到細(xì)節(jié)，并保持視角變換時(shí)的一致性。

這樣的成果，引發(fā)了不少網(wǎng)友的感慨：

評(píng)論區(qū)也總少不了一些大膽的想法……

并且項(xiàng)目開(kāi)源嘛，已經(jīng)有第一波小伙伴玩上了，在4090上就能跑起來(lái)。

如果你也有第一手實(shí)測(cè)體會(huì)，歡迎在評(píng)論區(qū)分享~

參考鏈接：
[1]https://twitter.com/StabilityAI/status/1769817136799855098
[2]https://stability.ai/news/introducing-stable-video-3d
[3]https://sv3d.github.io/index.html

— 完 —

本文鏈接：Stability AI開(kāi)源上新：3D生成引入視頻擴(kuò)散模型，質(zhì)量一致性u(píng)p，4090可玩http://www.sq15.cn/show-2-4214-0.html

聲明：本網(wǎng)站為非營(yíng)利性網(wǎng)站，本網(wǎng)頁(yè)內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻(xiàn)，不代表本站觀(guān)點(diǎn)，本站不承擔(dān)任何法律責(zé)任。天上不會(huì)到餡餅，請(qǐng)大家謹(jǐn)防詐騙！若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系，我們將在第一時(shí)間刪除處理。

上一篇：驍龍最強(qiáng)AI芯能力下放：小旗艦8s發(fā)布，端側(cè)跑10B模型，小米首發(fā)

下一篇：榮耀AI PC開(kāi)價(jià)5999！AI搜索/文檔總結(jié)/實(shí)時(shí)翻譯全實(shí)現(xiàn)

中文字幕亚洲欧美一区二区三区_亚洲精品菠萝久久久久久久_日本成人免费视频_狠狠躁少妇一区二区三区_国产精品中文字幕久久久_国产乱子伦农村叉叉叉_麻豆tv免费在线观看_av在线这里只有精品_色吧亚洲视频_嫩草影院一二三

Stability AI開(kāi)源上新：3D生成引入視頻擴(kuò)散模型，質(zhì)量一致性u(píng)p，4090可玩

將視頻擴(kuò)散模型用于3D生成

實(shí)驗(yàn)結(jié)果

熱門(mén)資訊

推薦資訊

科技最熱文章