不做大而全,專注垂直場景
編輯部 整理自 AIGC峰會
量子位 | 公眾號 QbitAI
全球AIGC應用浪潮下,怎樣將大模型產品以一種更貼近消費者的形式融入生產力工具?
這,或許是AI在生產力場景延伸過程中,入場玩家們所要思考的一個重要問題。
中國AIGC產業峰會上,美圖公司創始人、董事長兼CEO吳欣鴻從美圖視頻大模型的探索之路出發,講述了美圖在圖像、視頻和設計領域深耕16年而獲得的經驗與感悟以及對未來的預判。

為了完整體現吳欣鴻的思考,在不改變原意的基礎上,量子位對演講內容進行了編輯整理,希望能給你帶來更多啟發。
中國AIGC產業峰會是由量子位主辦的行業峰會,20位產業代表與會討論。線下參會觀眾近千人,線上直播觀眾300萬,獲得了主流媒體的廣泛關注與報道。
話題要點
- AI加持,只用半天,就能做出時長60秒的驚艷短片
- 面對越來越激烈的競爭,創意超越現實、工作流的整合、垂直場景能力這三點非常關鍵
- 垂直模型的創新,有兩年左右的窗口期
- 美圖不做大而全的模型和場景,更關注垂直的圖像和視頻模型及場景
以下為吳欣鴻演講全文:
美圖視頻大模型的探索之路
一眨眼,美圖已成立16年。最早,我們做影像工具,像美圖秀秀。此外很長一段時間,美圖也探索了不同業務,踩了很多坑。
從2021年開始,我們基于訂閱的商業模式,取得了非常好的經營狀態,并重新聚焦于影像和設計產品。現在,我們已經從過去的工具自卑轉變成越來越有信心。
我們正逐步往生產力場景延伸,從最初的拍攝、修圖、修視頻、社交分享到現在新增的視覺創作、專業攝影、專業視頻編輯、商業設計等等。
美圖現在擁有了影像與設計產品全家桶。產品主要分為AI圖像、視頻和設計三個大類。
同時,在生態層,美圖今年初收購了站酷,為我們提供了優秀的設計師共創、商用版權銷售和專業課程設計等服務。
在模型層,去年6月發布的美圖奇想大模型為我們以上產品提供了強大的模型能力支撐。

前兩天,我們使用美圖生產力全家桶制作了一部短片。我想邀請大家觀看這個一分鐘的短片。
謝謝大家觀看。
我想重點介紹這個60秒的短片是怎么制作出來的。
其實只用半天時間,就能做出同樣驚艷的效果。

在前期制作中,我們使用了開拍AI腳本以及美圖WHEE進行風格和角色的一次性約束,確保短片中人物形象和畫面風格的一致性。同時,我們還使用WHEE的文生圖進行了關鍵的分鏡設計。
在中期制作階段,同樣是美圖WHEE,我們將這些分鏡制作成視頻化,相當于圖生視頻。
同時,我們還使用美圖開拍的AI數字人進行了輸入對話、唇形同步。
在后期制作環節,我們使用了美圖的Wink進行視頻編輯,并制作了自動字幕和添加音效。
所有這些產品都是由美圖奇想大模型驅動的,與AI緊密相關。這展示了AI原生工作流的有益探索,與傳統動畫工作流相比,效率得到了很大提升,且門檻大幅降低。
朝著Diffusion Transformer架構進化
去年12月,我們發布了MiracleVision 4.0版本,其中重點是AI視頻和AI設計能力。剛才的視頻就是使用去年12月的視頻大模型生成的。
不過,這和最近我們正在訓練的美圖視頻大模型2.0在能力上還有很大區別,我簡要介紹一下進化的方向。
最早,我們采用了U-Net結構,在編碼部分也只能進行空間域壓縮。Sora發布后,我們發現在架構上有很多可以參考學習的地方,因此我們升級了視頻大模型的架構,采用了Transformer結構,另外還實現了時空域同步壓縮。

美圖視頻大模型目前正在從1.0向2.0的跨越,實現全方位的技術升級,模型參數量顯著增大,同時將擁有更加強大的語義理解能力,大幅提升視頻生成時長、穩定性與內容一致性。
上述的視頻大模型2.0將于今年6月美圖影像節正式亮相。
垂直模型創新有兩年左右窗口期
我們對未來也有一些預判。現在大家都在追趕Sora,預計今年下半年將會有很多國產Sora扎堆上市。美圖的MiracleVision也是其中一家。
我們認為,面對越來越激烈的競爭,有三個點非常關鍵。
第一,創意超越現實。
眾所周知,Sora擁有許多充滿創意、奇思妙想的畫面,這是實拍很難做到的。同時,如果將這些畫面采用傳統的視頻特效方式制作,成本將非常高昂。
我們認為,視頻大模型應與實拍相輔相成,生成一些超越現實的創意畫面,成為一種全新的特效制作方式。以前的特效,比如前期做綠幕、后期要做動捕等等,時間長、成本高,而現在AI特效可以做到低成本、低門檻。
第二,工作流的整合。
如果只是單純拼生成能力,比如文生視頻,其實它的應用場景是相對有限的。我們正將美圖現有的生產力工具能力進行整合,無論是AI能力還是傳統視頻技術相結合,形成類似剛才60秒短片的動畫制作工作流。
第三,垂直場景的能力。
我們也在探索視頻大模型未來能否在電商、廣告、游戲、動漫、影視等場景進行深度應用和變現。因此,垂直場景的可用性同樣是競爭的關鍵。
基于垂直創新模型的創新,我們認為有兩年左右的窗口期。
在這里,我們對自己業務的要求是,不去做大而全的模型和場景,更關注垂直的圖像和視頻模型,以及電商、廣告等垂直場景。同時,我們也將不斷探索AI原生工作流,我們認為它是一種更能降本增效的實現方式。
剛才提到,文生視頻將是視頻大模型的標配,同時還有更多的視頻生成方式,如圖生視頻、視頻生視頻、音頻生視頻等。

我們可以看到,無論是哪種視頻生成方式,都將有廣闊的應用場景。例如,圖生視頻,因為美圖是從圖片工具發展起來的,我們每天會產生兩億多張圖片,如何讓圖片動起來?例如,美顏相機的AI寫真就在探索AI視頻寫真,我認為這是一種更貼近消費者的形式。
視頻生視頻,我們可以理解為一種全新的視頻渲染方式,視頻風格化方式。音頻生視頻,我們現在在探索MV的生成,同樣也是一個有趣的領域。同時,開拍的AI主播也可以用音頻生成,我們錄一段音就可以生成AI主播完整的口播視頻。
在這塊,我們也對未來進行了預判。

去年,當然是視頻大模型的早期階段,我們去年12月發布的模型,基本上只能生成3-5秒的視頻片段,世界、動作一致性和穩定性都較差。
今年2月,Sora的橫空出世,我們看到確實有些對物理世界的理解,包括在創意、特效上有一定涌現的現象,視頻的時長也顯著提升。
我們也期待在明年,甚至更遠的未來,視頻大模型能夠實現更深度的物理理解,擁有劇情設計、分鏡、轉場等更專業的能力,能夠與視頻制作工作流緊密結合。
也希望大家關注6月的美圖影像節。除了全新的視頻大模型,我們還將有一系列生產力工具全家桶陸續亮相。
今天我就分享到這,謝謝大家!
本文鏈接:美圖吳欣鴻:國產Sora競爭關鍵,在創意、工作流和垂直場景 | 中國AIGC產業峰會http://www.sq15.cn/show-2-5646-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。