馬斯克奧特曼也都來參加“時裝秀”
西風 發自 凹非寺
量子位 | 公眾號 QbitAI
笑不活,最新虛擬試穿神器被網友們玩壞了。
黃院士、馬斯克、奧特曼、史密斯等一眾大佬衣服集體被扒。
前有老黃卸下皮衣套上糖果包裝袋:

后有奧特曼大秀花臂穿CUCCI:

再有老馬變成了蛛蛛俠:

好萊塢巨星史密斯也風格大變:

但說回研究本身,確實正兒八經的研究。

名為IDM–VTON,由來自韓國科學技術院和OMNIOUS.AI公司的研究團隊基于擴散模型打造。

目前官方放出了demo,大伙兒可以試玩,推理代碼已開源。
除了開頭所展示的,抱抱臉研究員也玩的不亦樂乎,給老黃換上了專屬戰袍。其CEO連忙轉發打趣:
我被替代了,沒法和他爭CEO。

看熱鬧的網友也是感慨,經過這么多年,終于不用再擔心自己“手殘”了(AI幫你搞定)。

來玩啊~
我們也趕緊上手體驗了一把。demo整個頁面是這樣嬸兒的:

操作起來也是非常簡單。
首先上傳人物圖,可以手動或者自動選擇要修改的區域。然后,上傳要換的衣服。

直接點擊Try-on,會自動生成掩模圖和換裝后的圖:

上面這張自動生成的掩模把手也選進去了,所以最后生成的左手效果不好。
我們手動選取涂抹一下,同時人和衣服全部都用我們自己的圖。


這次效果大伙兒覺得如何?
再來展示一波網友的試玩成品圖。
DeepMind聯合創始人蘇萊曼穿上了微笑面具修格斯聯名款T恤:

甚至不少網友真想要這件衣服。

奧特曼再次被網友當成模特:

當然也有翻車的時候,比如馬斯克穿的就是山寨CUCCI。

看完效果后,接著來看IDM–VTON在技術上是如何實現的。
基于擴散模型
技術方面,IDM–VTON基于擴散模型,通過設計精細的注意力模塊來提高服裝圖像的一致性,并生成真實的虛擬試穿圖像。
模型架構大概包含三部分:
- TryonNet:主UNet,處理人物圖像。
- IP-Adapter:圖像提示適配器,編碼服裝圖像的高級語義。
- GarmentNet:并行UNet,提取服裝的低級特征。

在為UNet提供輸入時,研究人員將人物圖片的含噪聲潛在特征、分割掩模、帶掩蔽的圖片和Densepose數據整合在一起。
他們還會為服裝添加詳細描述,例如[V]表示“短袖圓領T恤”。這個描述隨后用作GarmentNet(例如,“一張[V]的照片”)和TryonNet(例如,“模特正在穿[V]”)的輸入提示。
TryonNet和GarmentNet產生的中間特征進行了合并,隨后傳遞至自我注意力層。研究人員只使用了來自TryonNet的輸出的前半部分。這些輸出與文本編碼器和IP-Adapter的特征一起,通過交叉注意力層進行融合。
最終,研究人員對TryonNet和IP-Adapter模塊進行了精細調整,并鎖定了模型的其它部分。
實驗階段,他們使用VITON-HD數據集訓練模型,并在VITON-HD、DressCode和內部收集的In-the-Wild數據集上進行評估。
IDM–VTON在定性和定量上都優于先前的方法。






IDM-VTON可以生成真實的圖像并保留服裝的細粒度細節。
更多細節,感興趣的家人們可以查看原論文。
項目鏈接:
[1]https://idm-vton.github.io/?continueFlag=589fb545dbbb123446456b65a635d849
[2]https://arxiv.org/abs/2403.05139
[3]https://huggingface.co/spaces/yisol/IDM-VTON?continueFlag=589fb545dbbb123446456b65a635d849
參考鏈接:
[1]https://twitter.com/multimodalart/status/1782508538213933192
[2]https://twitter.com/fffiloni/status/1783158082849108434
[3]https://twitter.com/ClementDelangue/status/1783179067803533577
本文鏈接:一鍵換裝神器爆火,老黃換上抱抱臉T恤,CEO本人:我被替代了,和他爭CEO職位爭不過http://www.sq15.cn/show-2-5481-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。
下一篇: 英特爾發布大型神經擬態系統