21世紀經濟報道記者孔海麗、實習生張奕丹 北京報道
2024年,Sora為AI視頻賽道打響了“發令槍”。
珠玉在前,國內誰能最先做出“國產版Sora”,又或者另辟蹊徑,走出AI視頻的新路子?到底是會被全盤碾壓,還是各自找到合適的生態位?Sora的陰影之下,國內大廠同類產品還會有生存余地嗎?
縱觀國內大廠,尚未出現產品能與Sora匹敵的跡象。但應用并非軌道,而是曠野。
近日,阿里巴巴集團智能計算研究所推出了EMO(Emote Portrait Alive)——一款由音頻驅動的肖像-視頻生成框架。在這個應用中,奧黛麗·赫本開始“唱歌”,蒙娜麗莎會“說話”了。
而在Sora發布以前,字節跳動曾低調推出了視頻模型Boximator,但堅決否認這是“中文版Sora”;再往前看,百度也曾推出過“度加”創作工具,以AI輔助人工進行視頻制作。
另一方面,Sora也托起了國內相關概念股,如萬興科技、因賽集團等,在Sora發布后,相關股票迎來了明顯上漲,這些公司的著力點落在泛娛樂、泛營銷等領域。
國內針對Sora評論最為活躍的企業家是360創始人周鴻祎,他認為,Sora的誕生意味著AGI(通用人工智能)實現可能從十年縮短至一兩年,國內相似AI產品的差距還在繼續拉大。
一位深度跟蹤AI產業的投資人看法,或許帶來了新的思考方向。他認為:“其他公司不要跟巨頭在同一條道上競速,肯定是跑不過的,要尋找更多可能性。”
從“動起來”到“會說話”
Sora問世之后,公眾試圖從國內大廠的產品中尋找“宛宛類卿”的身影。字節跳動發布的一款視頻模型技術,就曾被冠上“中文版Sora”的名頭。
但字節跳動隨后就做出了回應,稱Boximator是視頻生成領域控制對象運動的技術方法研究項目,目前還無法作為完善的產品落地,“而且距離國外領先的視頻生成模型,在畫面質量、保真率、視頻時長等方面還有很大差距?!?span style="display:none">x66速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
具體來看,Boximator可以通過文本控制生成視頻中人物或物體的動作,但并非直接根據輸入的文本生成視頻,而是按照文字提示將靜態圖片動態化。
Boximator主要用于解決視頻合成中的“運動控制”問題。用戶使用硬框在條件幀中選擇對象,然后使用任一類型的框來粗略或嚴格地定義對象在將來的幀中的位置、形狀或運動路徑。例如分別勾畫出紅球和小狗的運動軌跡,使“小狗追逐紅球”這一動作得以實現。
Boximator的研發團隊利用WebVid-10M數據集進行深度訓練,從中篩選出110萬段動態明顯的視頻片段,并為其注釋了220萬個對象的邊界框。論文顯示,Boximator 生成的動畫在完整性、準確性和物理效果上比Pika 1.0和Gen-2更勝一籌。盡管目前仍處于研發階段,但預計將在未來2-3個月內發布測試網站,供公眾體驗。
(Boximator論文部分截圖)
Boximator的基礎之一是此前字節團隊發布的MagicAnimate(人體動作方面)的研究成果。今年1月,字節跳動研究人員在arXiv上發表了MagicVideo-V2的論文,這也是一款文本生成視頻的模型,通過集成多個模塊,包括文本到圖像模型、視頻運動生成器、參考圖像嵌入模塊和插值模塊,實現從文字到視頻的自動化生成。MagicVideo-V2想要解決的是Runway、Pika等模型在生成視頻中所表現出來的保真度不高、運動不自然、分辨率不高、風格不多樣等問題。
(圖源:https://www.magicanimate.org)
如果說字節的Boximator使目標主題的“運動”更加合理流暢,那么阿里的EMO就是讓圖片學會“說話”。
在arXiv的官網上可以看到,距離Sora推出后兩周不到,阿里團隊即發布了肖像-視頻大模型EMO的論文。研究所表示,此項研究解決了人物說話時頭部視頻生成的真實感和表現力不足的問題。EMO重點關注音頻線索和面部運動之間的動態和細微關系,利用直接的音頻到視頻的合成方法,繞過中間的3D模型或面部地標的需要,可以確保無縫的幀轉換,使該人物形象能在整個視頻中完整一致,從而產生極具表現力和逼真的動畫。
(EMO論文部分截圖)
阿里團隊在論文中介紹了EMO的運行技術。EMO框架主要由兩個階段構成,在初始階段(幀編碼)中從參考對象和運動幀中提取特征,在隨后的擴散階段中運用預訓練的音頻編碼器處理音頻嵌入。阿里將人臉區域掩模與多幀噪聲相結合,實現了人臉圖像的生成,并采用了骨干網絡以方便進行去噪操作。此外,還利用了時間模塊來處理時間維度,并調整運動速度。
(EMO運行技術 圖源:https://arxiv.org/abs/2402.17485)
與Wav2Lip、SadTalker、GT等其它模型方法相比,EMO在單幀質量和面部表情生動度的表現上比較突出。但作者也在論文中表示,與不依賴于擴散模型的方法相比,EMO耗時更多。且由于模擬訓練過程中沒有使用任何明確的控制信號來控制角色的運動,可能會導致偽影的出現。
據不完全統計,截至目前,國內已有超15家企業推出了視頻生成工具,以字節、阿里為代表的大廠和以愛詩科技、生數科技為代表的創企們,推出的視頻生成工具在語義理解、運動流暢度、成像質量等方面各有千秋。
Sora的推出可謂是“一石激起千層浪”,從“更好地動起來”到“會說話唱歌”,國內大廠和各家創企后續 “應戰”難度無疑被大幅拉升。
大廠的“危機”
擁有抖音的字節跳動,在文生視頻大模型訓練上有天然的數據優勢。但與此同,Sora的出現,正在給字節跳動帶來巨大的“未知”,無論是抖音還是剪映,在短視頻領域都無法忽視Sora所帶來的顛覆性影響。
驚艷的官宣之后,Sora新視頻還在TikTok上持續推出,且TikTok是獨家放送渠道。逼真的動畫效果,讓網友驚呼“根本想象不到剛剛滑過去的視頻是AI生成的?!?span style="display:none">x66速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
不可否認,Sora對短視頻行業產生的沖擊,不只包括為短視頻平臺提供更加豐富的供給,也包括增加短視頻平臺治理難度,識別深度偽造、版權糾紛的難度將被加大。
而在視頻AI輔助工具方面,Sora將拉低普通人創作視頻的門檻。當更多人傾向于選擇門檻更低,但效果更好的平臺時,目前市面上的AI視頻工具可能會被淘汰,比如,剪映、快影的用戶,將可能被搶走。
字節對AI事業是有焦慮的。今年1月30日,字節跳動CEO梁汝波在公司年度全員會直言,公司直到2023年才開始討論GPT,而業內做得比較好的大模型創業公司都是在 2018 年至 2021 年創立的,并多次強調“危機感”。
字節跳動從去年開始布局 AI,2023年11月成立專注于AI創新業務的新部門Flow。據悉,Flow部門技術負責人為字節跳動技術副總裁洪定坤。而字節跳動創始人張一鳴親自牽頭,將去年一年的時間幾乎全都花在了AI 上,從其精力分配上也可以看到字節跳動對AI業務的重視程度。
巧合的是,在Sora問世一周前,字節跳動宣布了一項人事變動:原抖音集團CEO張楠辭去集團CEO一職,未來將把精力聚焦在剪映的發展上。從抖音轉到剪映,字節不愿錯過AI視頻的關鍵風口。據悉,張楠正親自帶隊尋求在AI輔助創作上有所突破,并計劃推出一個AI生成和視頻的產品,但字節對此未做更多披露。
張一鳴在2023年公開信中提到,字節跳動無法錯過AGI(通用人工智能),并表示AGI可以解決字節跳動的第二曲線增長困境。字節在GPT的賽道上已經稍顯落后,這次在AI文生視頻領域能否抓住機遇、“釜底抽薪”實現自身短視頻業務的創新和再次增長,仍需觀望。
阿里近期也是動作不斷,短短4個月內連發6個新項目,持續探索AI視頻領域。2023年11月,開源了依據圖像和文字生成高質量視頻的I2VGen-XL,同月發布了能讓圖中角色跳舞的AnimateAnyone;2023年12月9日發布了能夠讓圖中角色在任意地點跳舞的DreaMoving,同月與清華大學、華中科技大學等聯合發布了生成富有表現力頭像的DreamTalk,此外還發布了使用無文本視頻學習的TF-T2V;今年1月,阿里發布了使用3D模型替換視頻角色的Motionshop。其中,DreamTalk可以被視為EMO的前身。
阿里的模型和Sora相比,更加注重視頻生成模型在具體行業的應用,其重點關注人物神態、跳舞等運動的細節,在影視、游戲等領域有廣泛的應用前景。但正因此,涉及肖像侵權、被使用在不法路徑的風險也會加大。
除字節和阿里外,百度在AI視頻領域也有自己的規劃部署。去年百度推出過文生視頻工具“度加剪輯”,主要功能包括AI文案、AI提詞、智能字幕,快速剪輯、AI數字人等,主要是以AI輔助視頻剪輯,為創作者提供便利,在導入素材后提高視頻剪輯效率和觀賞度,并不能直接根據文本生成視頻。
和度加剪輯相搭配,百度還推出了“度加創作工具”,和剪映的“圖文成片”類似,可以自己直接通過AI生成文案,或者自己撰寫文章,度加提供“AI潤色”和“AI擴寫”功能,語言較流暢,多采用“三段論”結構。之后平臺會直接識別文字、提供可選擇的視頻素材,以靜態圖片變換為主。在百度搜索引擎的加持下,AI匹配的素材較豐富。但據部分使用者體驗,度加在素材和文案的貼合度上還需提高。
(度加創作界面)
點擊“一鍵成片”之后會自動生成視頻。在視頻編輯頁面,度加會智能推薦新的素材,同時素材庫有視頻片段可以替換,比較便捷。視頻生成之后,只能發布于百家號。
(度加創作界面)
對于Sora此次的“來勢洶洶”,類似于其他大廠,百度未公開發聲。
不過,百度聯合創始人兼首席執行官李彥宏近日在財報電話會上曾對AI領域話題有過回應,他表示,包括文本、音頻和視頻類的多模態大模型,是未來基礎模型開發的重要方向,也是AGI的必經之路,百度已經在這一領域進行了投資,并將在未來持續投入。
“大語言模型的市場是巨大的,而且現在還處于非常早期的階段,即便是最強大的語言模型,對許多應用程序來說,依然不夠好,還有很大的創新空間。”李彥宏說,百度致力于讓更多企業更容易地獲得大模型服務,以解決各種場景中的現實問題。
他還特別強調了自動駕駛是視覺大模型重要的應用領域,百度一直在訓練自動駕駛系統的視頻生成模型,從而產生更智能、適應性更強、更安全的自動駕駛技術。
21世紀經濟報道記者注意到,百度在AI領域的業務動作,更注重AI工具與實際應用的結合,關注AI工具的實際落地,“希望AI技術是人人可用的”。
Sora的發布,無疑給國內大廠造成了不小的壓力,但換個角度想,或許也為各公司提供了一個行之有效的解題方向。
“我們可能也高估了Sora的泛化能力,到底怎么落到應用中去,還不明確。”一位AI視頻創業人士認為,國內大廠在AI工具的應用上,還有作業空間。
概念股“乘風而起”
隨“Sora風”而動的,還有搭上了Sora概念的A股上市公司。
近來,包括萬興科技、博匯科技、易點天下、數碼視訊、漢王科技、當虹科技、東方國信等10 余家A 股上市公司,都曾披露過公司涉足視頻生成模型領域的業務情況。
華策影視透露,公司的技術儲備已可實現4秒時長的文生視頻,自研的編劇助手、劇本評估、視頻檢索、AI劇照等功能已在內部應用或內測。與Sora目前60s的文生視頻時長相比,華策影視現有技術還存在差距。
連拉三個漲停板的因賽集團向投資者給出了“公司對于Sora的看法”等問題的答復。因賽集團表示,公司自研的Insight GPT屬于營銷行業應用層垂類模型,與Sora這類底層通用大模型并不屬于直接競爭關系,反而可以結合Sora等通用大模型豐富自身視頻素材庫以及提升視頻生成效率和品質,對于Sora的出現持樂觀態度。
(因賽集團答復頁面部分截圖)
但也有多家上市公司公告澄清,并無Sora相關業務布局。睿能科技、國脈文化、華揚聯眾、維海德等多家公司均發布股票交易異常波動公告。其中,睿能科技稱,公司核心技術和產品不涉及SRAM芯片、Sora等熱點概念;國脈文化、華揚聯眾表示,公司主營業務中暫未涉及Sora業務;維海德稱,公司不涉及文生視頻技術和產品,近期也沒有從事AI大模型業務的布局。
另有上市公司因涉嫌蹭“Sora概念”被交易所問詢。中科金財借與微軟的合作,聲稱“可率先申請并獲得Sora API訂閱資格”,并由此收獲了漲停板。對此,深交所要求該公司說明是否存在蹭熱點概念股炒作股價的情況。中科金財回復稱,公司與微軟中國的合作系非獨家合作,未來能否快速發展并取得預期的收入存在較大不確定性。
截至3月8日,涉及Sora概念的公司,多在Sora發布的一周內收獲了不錯的股價漲幅,并在后續有所回調。值得注意的是,今年的“Sora概念股”所涉上市公司,部分也在去年因ChatGPT有過一輪股價上漲,并在去年年中回落。
今年開年,“大模型技術提振二級市場表現”的場景重現,不知后續是否會重演相關概念股股價下跌情形。有從業人士感慨,如果相關公司在技術上沒有實質性突破,股價漲跌也只是一陣“風”。
IDC中國研究總監盧言霞認為,Sora在文生視頻領域真正邁出了第一步,真正做到生成式AI驅動生成短視頻。接下來也將刺激其他科技巨頭加快在該領域的技術攻關力度以及產品發布速度。要全面打開生成式AI的想象力,還是要依托多模態大模型。Sora的發布,以及后續科技巨頭的跟進,有望對AI產業帶來再一輪爆發式的增長。
AI視頻賽道是極具未來意義的,AI對行業的顛覆性意義正在時間推進中被驗證。
不過,產業鏈足夠長,上下游的機會也依然廣。
前述投資人士表示:“AI視頻領域還有很多產業機會,視頻的后處理也有一番天地。比如剪映,隨著前面生產的AI內容產生量變,剪輯工具的作用也會變得重要起來?!?span style="display:none">x66速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
如周鴻祎所言,Sora的成功證明了技術方向的正確性,OpenAI走對了方向,一旦方向感確定,國內公司會快速迎頭趕上。
“但是做AI大模型,極其燒錢?!绷碛蠥I創業者向21世紀經濟報道記者感慨:“資金和算力,在制約著國內公司的腳步?!?span style="display:none">x66速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
本文鏈接:深度丨風起大模型:國內大廠“應戰”Sorahttp://www.sq15.cn/show-2-3539-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。
上一篇: 透視二奢丨抖音直播助“二奢”出圈:有商家交易年增超30%,標準與鑒定仍是痛點
下一篇: 阿里騰訊雙向“破冰”:基于商業,限于巨頭