Sora后第二火的AI視頻技術(shù)
衡宇 夢晨 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
等了7分多鐘,剛從北京閃現(xiàn)閃離的馬斯克,他終于夸我是個人才:
好了,別罵詐騙,我全都招!
現(xiàn)在登錄通義App(原通義千問),選擇全民演唱功能,只需上傳任意一張人物正面大頭照,你也能玩兒了。
這個功能開放不到一周時間,但經(jīng)量子位觀察,還挺火。
熱度一直沒掉下去,關(guān)鍵是生成時間也跟熱度一起高居不下,順利的話幾分鐘生成的小視頻,擠的時候排隊能排出好幾個小時開外,虧得是阿里云服務(wù)器沒被擠爆(不是)。
從國內(nèi)外的網(wǎng)友分享反饋來看,大家還挺喜歡文藝復興,最受歡迎的片段是讓個路人馬輪番演唱《野狼Disco》。

除了唱歌,還能把朋友放進(非)著名表情包念臺詞。
玩兒梗的人太多,以至于馬斯克都給搞EMO了:
而這背后的“始作俑者”,就是來自阿里通義實驗室的EMO,繼Sora之后熱度第二高的AI視頻項目。
如今一個月過去,星標數(shù)已經(jīng)直奔7k而去。

趁此熱度,我們也得到了一個與EMO背后大佬,阿里通義實驗室XR實驗室負責人薄列峰當面催更的機會。
他表示在放心把技術(shù)開源之前,首先還是要解決安全問題。
負責人講解背后技術(shù)
距項目公開僅2個月,通義實驗室團隊就直接將這一技術(shù)免費開放,但所有人都可以在通義APP(原通義千問)體驗全新的AIGC玩法。
如果你想親自上手試試,打開對話輸入“EMO”直達或進入“頻道”選擇“全民舞臺”即可。

選擇喜歡的音頻片段,并上傳一張大頭照。
如果在熱門時段,需要等待40分鐘到幾個小時不等,但其實主要是在排隊。薄列峰透露,單純生成10秒視頻,只需要10-15分鐘。

對于上傳的照片,系統(tǒng)首先會進行人臉檢測,不過有些長得太像人的動物也能順利蒙混過關(guān)!
比如撞臉莫言的小狗,就成功地騙過了系統(tǒng)。
但是撞臉余華的小狗就沒那么幸運了,系統(tǒng)一下子就把它給識破了(沒有任何對余華老師不敬的意思)。

為什么只需要上傳一張圖就能立即做到逼真效果?
薄列峰介紹,EMO的核心思路是“弱控制設(shè)計”,無需對整個面部建模,這一點甚至體現(xiàn)在了論文標題上。

在生成過程中,面部定位器(Face Locator)用來編碼面部的邊界框區(qū)域。
速度編碼器(Speed Encoder)確保頭部運動的速度與音頻的節(jié)奏和強度相匹配。
這些控制機制被稱為“弱控制”是因為它們提供的控制不是強制性的或硬性的,而是允許一定程度的自然變化和表現(xiàn)力。
例如,面部區(qū)域控制器并不嚴格限定面部的具體位置,而是給出了一個允許面部運動的較大區(qū)域。同樣,速度控制器并不精確控制每一幀的速度,而是提供一個速度范圍,讓生成的頭部運動接近但不一定完全符合指定的速度水平。
通過使用這些弱條件,EMO框架能夠在保持角色身份一致性的同時,生成具有豐富表情和自然頭部運動的視頻,從而在表達性和逼真度方面取得更好的效果。
比起傳統(tǒng)的分別針對眼睛鼻子嘴等部位的建模方案,EMO更著重考慮整個面部的聯(lián)合運動,最終效果也就可以做到自然流暢了。

另外薄列峰還透露,選擇這個技術(shù)路線也是出于實用性、普及性的考慮。
一張圖、一段音頻,每個人都非常容易獲取,門檻低一些,讓大家都能玩起來。
關(guān)于EMO的技術(shù)選擇,薄列峰還透露了一個消息。
雖然EMO使用傳統(tǒng)基于U-net的擴散模型架構(gòu),但Pipeline是解耦的,如果后續(xù)嘗試Sora同款DiT架構(gòu)做到更好效果的話,也可以輕松切換過去。
對于未來發(fā)展方向,EMO目前只做了人頭,將來還會擴展到半身、全身。到時候,能實現(xiàn)一張照片讓人物同時唱跳RAP籃球也說不定。
高于平均水平的AIGC內(nèi)容才會被消費
在此之前,EMO背后通義實驗室所推項目中,最火的是與EMO一脈相承的Animate Anyone模型。
代表杰作:奶牛貓?zhí)?/strong>。

算法原理上,EMO和Animate Anyone都采用了Backbone + ReferenceNet的結(jié)構(gòu),實現(xiàn)有參考圖像引導的去噪生成過程。
其中,Animate Anyone在實現(xiàn)了保留特定對象ID的生成式模型的基礎(chǔ)上,進一步證明可以通過一些輸入控制信號控制生成內(nèi)容,特別是人物的動作。
所以其實背后團隊是專注數(shù)字人的團隊,沒想到在通義App上包裝成“全民舞王”后,大家對動物玩法更感興趣。

一個多月前,團隊還在全民舞王針對小貓小狗等動物主體檢測做了一半優(yōu)化,使上傳動物照片的通過率大幅度提升。
即使檢測出來用戶上傳的是動物,只要通過了骨骼檢測,啥小動物都可以起來嗨。
“現(xiàn)在技術(shù)確實可以生成很多的圖片、視頻,但如果他們都是平均甚至低于平均水平,大家不見得有興趣去消費。”薄列峰笑道,奶牛貓?zhí)璐_實很妖嬈,“這給我們把鏈路打通帶來更多的思考——把簡單高質(zhì)量的內(nèi)容,通過新技術(shù)去實現(xiàn)可能。”
聊天最后,薄列峰還給大家推薦了一個EMO的私房玩法:
可以試試拿自己5歲、10歲、15歲……的照片,自己對話,自己合唱。
值得一試喲~
本文鏈接:《嬛嬛朕emo啦》但馬斯克!阿里這項技術(shù)開放試玩http://www.sq15.cn/show-2-5685-0.html
聲明:本網(wǎng)站為非營利性網(wǎng)站,本網(wǎng)頁內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。