21世紀經濟報道見習記者肖瀟 北京報道
OpenAI在AI生成視頻領域扔出一枚“王炸”。當地時間2月15日,OpenAI發布了第一個文生視頻大模型Sora。這一模型可以根據用戶輸入的提示詞生成長達一分鐘的高清視頻,雖然還沒公開使用,但已經引發了熱議。
在官方分享的演示視頻中,Sora可以直接輸出有多個角色、多種場景和運鏡的畫面。比如一段提示詞為:鏡頭穿過熙熙攘攘的東京街道,跟隨幾個人享受雪天并逛街。在Sora生成的視頻中,鏡頭從天空的雪花中俯沖,跟著一對牽手的情侶,走過日本風格的街道。
OpenAI官方演示視頻
AI視頻的運用可以追溯到2022年。初創公司Runway被認為是這一技術領域的“鼻祖”,熱門科幻電影《瞬息全宇宙》就用到了其視頻編輯技術。從那時起,AI視頻技術開始快速迭代,以Runway、Pika、Meta(Emu Video)為代表的公司進入競爭賽道。不過,這些AI視頻大多只能維持幾秒鐘的長度,存在場景不逼真、元素閃現、運動不連貫等“一眼AI”的問題。
而在OpenAI目前公開的48個演示視頻里,無論是貓踩醒被窩里的主人,模仿手機拍攝的尼日利亞街道,還是中國的春節舞龍活動......幾乎看不出AI生成的痕跡。OpenAI解釋,Sora不僅能滿足提示詞的要求,還理解各種物體在物理世界的存在方式。實現的最關鍵的一處技術突破是,“畫面主體即使暫時離開鏡頭,也能保持不變。”因此生成視頻的逼真度和連貫性有了肉眼可見的進步。
一位硅谷AI公司的從業者告訴21記者,根據她的使用體驗,Sora在演示視頻中展現的能力遠遠超Pika和Runway,“Pika只能生成3-15秒的視頻,Sora能直接生成一分鐘的視頻。從畫面效果和時長來看,Sora肯定是一個重要突破。”
業內普遍認為,Sora能力的提升,主要來自高質量的數據集,以及準確的語言理解能力。OpenAI 沒有透露訓練視頻的大小、來源,只聲稱訓練的是公開有版權的視頻。前述從業者認為,Sora無疑有巨大的數據量,因此能夠支持多大的調用量,視頻加載和渲染有多少延遲,都將是后續挑戰。“真正投入使用會是什么樣?能不能達到官方演示的效果?”還是一個未知數。
OpenAI已經公開承認了一些Sora存在的缺陷:它可能難以呈現復雜的物理變化規律,無法理解因果關系,混淆空間細節。例如在演示視頻中,一位壽星向生日蛋糕上的蠟燭吹氣,但蠟燭沒有任何變化;或者籃球直接穿透了籃筐,而不是從籃筐中進球。
值得注意的是,Sora目前定性為初期研究成果,不面向公眾使用,因為公司擔心深度偽造視頻的濫用問題。現在只有一部分視覺藝術家、設計師和電影制作人有內部試用機會。此外,OpenAI 還在與第三方安全測試人員共享該模型,進行紅隊測試。
在安全問題上,Sora 已經包含了一個過濾器,阻止暴力、色情、仇恨,以及特定人物的視頻輸出。公司還將借鑒去年在DALL-E 3 上實驗的圖像探測器,把C2PA技術標準——一種內容追溯方式,也可以理解為內容水印——嵌入到Sora的輸出視頻中,以鑒別視頻是否為AI深度偽造視頻。
本文鏈接:OpenAI發布首個視頻大模型Sora,一句話生成一分鐘視頻http://www.sq15.cn/show-2-2903-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。