21世紀經濟報道記者 董靜怡 上海報道
像年初的Sora一樣,這次AI的顛覆性影響傳入了音樂圈。
近日,AI音樂生成軟件Suno發布V3版本,僅需要簡單的描述,就可以生成2min長度、廣播質量級別的音樂。正如Suno官網所顯示:“無論您是歌手還是排行榜藝術家,我們都會打破您與您夢想創作的歌曲之間的障礙。不需要任何工具,只需要想象力。”
這為普通人打開了音樂制作的大門。在社交媒體上,眾多網友參與討論,并曬出通過Suno制作的曲目,這些可以稱得上完整且好聽的音樂作品令音樂圈內外人感到頗為震撼,當然,更震撼的還是AI生成能力的迭代速度。
在文生文模型的熱度逐漸平息之時,文生圖、音頻、視頻等多模態大模型開始了一輪又一輪的進化。華泰證券的一份研報顯示,海外大模型迭代重視多模態能力拓展,相較于早期圖像、音頻、視頻模型,基礎模型能力顯著提升。
“大語言模型為AI產業帶來新的生機,然而語言模型的應用場景有限。要全面打開生成式AI的想象力,還是要依托多模態大模型。”IDC中國研究總監盧言霞向21世紀經濟報道記者表示。
她曾預測,未來5年,生成式AI生成的文本類文件、圖像類文件、視頻類文件、軟件代碼類文件數量將會越來越平均。而這其中,與圖像文件相關的數據量可能是文本文件的100倍,視頻文件是圖像文件的10倍。
當見識過這些模型的能力后,生成式AI的想象空間已經被全面打開。盡管目前很多應用尚未正式對外開放使用,也無法了解到更多技術細節,但可以確定的是,這一波技術迭代將為AI行業參與者帶來可觀的機遇。
音樂圈的ChatGPT時刻
曾有業內專家認為,考慮到成品的復雜性,可能需要數年時間才能出現一種通過簡單的文本描述制作歌曲的工具。但位于馬薩諸塞州劍橋市的一家成立兩年的初創公司Suno已經成功實現了這一目標。
近日,Suno V3音樂生成模型發布,面向所有用戶開放。Suno通過其先進的AI算法,能夠理解和分析用戶的輸入,然后生成與之相匹配的音樂。這意味著用戶只需要提供一些簡短的歌詞或者描述,Suno就能根據這些信息創作出一首歌曲。
隨著新版本的推出,Suno還引入了AI音樂水印系統,每段由平臺生成的音樂都添加了人聲無法識別的水印,旨在保護用戶的創作,防止抄襲和濫用。
“相比起之前的版本,或是此前其他AI生成音樂的工具,V3生成的曲目是令人驚艷的。”有音樂博主在社交媒體上發出贊嘆,“它已經不再是一小段不成熟的東西,而是有歌詞、前奏、間奏、副歌的完整歌曲。”
在V3版本中,音質、咬字和節奏編排上都有了顯著提升,是Suno AI首次能夠生產出廣播質量的音樂的模型,它能夠在幾秒鐘內創作出完整的兩分鐘歌曲,就在半年前,這個時長還僅有30秒。
為了激發人們的創作靈感,Suno V3還增加了更多音樂風格和流派的選項,包括古典音樂、爵士樂、Hiphop、電子等新潮曲風。同時,V3版本對于用戶輸入的提示詞,理解和響應更加準確,減少了“幻覺”現象,使得歌曲的結尾更加自然和高質量。
“我認為完成度很高,在樂器編排、風格把控、歌詞與旋律的匹配度等等方面都做得不錯,甚至還有樂器solo。”某獨立樂隊成員向21世紀經濟報道記者表示,“尤其對沒有專業制作班底的獨立樂隊而言,提供了很好的編曲靈感。”
官方宣稱,不少知名的藝術家已經在使用Suno,但其核心用戶群依然還是沒有任何音樂制作經驗的普通人。在互聯網上,越來越多的網友曬出了自己通過Suno生成的作品,其中不乏中文歌曲,如基于古詩詞的古韻歌曲《水調歌頭(明月幾時有)》、中文硬搖滾《We Go!》,甚至還有以菜譜作為歌詞的《宮保雞丁》等。
“這與AI繪畫給人的感覺是類似的,”有使用者向記者表示,“做不到特別好,但可以達到平均水平,甚至要更高。”
針對于其應用場景,業內普遍認為,作為廣告、短視頻等背景音樂的“功能性音樂”,Suno生成的音頻有著很大的應用前景,再往前發展,個性化定制音樂也會成為一種普遍的現象。
不過,談AI替代人力還是為時過早。上述獨立樂隊樂手向記者表示,作品雖然有完成度,但結構呆板,編排還是粗糙的、模塊化的,對于主流的音樂產業還構不成威脅,“它確實降低了音樂制作的門檻,但還遠沒有突破其天花板。”
Suno官方則表示,目前Suno模型仍處于早期階段,未來還將沿著質量、可控和速度方向進行改進,并透露V4已經在開發中。
多模態仍在發展初期
事實上,去年下半年以來,由各類多模態大模型生成的作品已經一次又一次帶來令人驚艷的效果,AI生成語音、圖片、視頻的進程似乎比預想中走得更快。
去年年底,谷歌上線了文生圖模型Imagen 2,在圖像的真實性和語言理解的深度上取得了前所未有的成就,能夠生成高度逼真且與文本提示一致的高分辨率圖像,尤其在處理復雜細節如皮膚質感和頭發方面表現出色,被稱為DALL?E 3和Midjourney的最強競品。
年初,OpenAI的Sora模型帶來更大的震撼,它能夠根據文本描述生成長達60秒的視頻,在此之前,同類產品生成的時長只有幾秒鐘。同時,它還具有精細復雜的場景、生動的角色表情以及復雜的鏡頭運動,使得Sora生成的視頻在視覺效果上更為連貫和逼真,與之前AI視頻生成模型產生的抖動和失真的視頻效果形成了鮮明對比。
再加上近期Suno的火爆,各個領域都在迎來自己的ChatGPT時刻。業內人士認為,這類多模態大模型將最先應用于短視頻、廣告、互娛、影視、媒體等領域。在這些領域采用多模態大模型能力,既可以提高生產速度又可以提高生產數量,還可以創造全新的視聽感受,能夠幫助企業真正實現降本增效、提升用戶體驗。
從更長遠的角度來看,多模態最接近于人對自然界的感知,智譜AI CEO張鵬在此前接受21世紀經濟報道記者采訪時表示,多模態是走向通用人工智能(AGI)的起點。
“人大腦一定是各種感官融合到一起的,所以人的智力一定是多模態的。”張鵬向記者表示,“多模態不僅是文到圖、圖到文這么一件事情,它更多的是探究人的認知能力和各種感官之間的相互作用。”
東方證券的一份研報指出,多模態大模型一方面有利于形成圖片、視頻等更加生動活潑、更具交互性的應用,從而有助于C端爆款的誕生;另一方面,多模態大模型能真正打通物理世界和數字世界的障壁,實現與物理世界最自然的交互,從而對自動駕駛、人形機器人等具身智能領域的突破提供有力支撐。
但從技術角度來看,多模態大模型仍面臨著多重挑戰。
多模態模型的技術難度主要在于如何有效地整合和處理不同類型的數據,圖像、視覺和音頻等領域的數據具有更高的維度和更復雜的結構。“與NLP相比,圖像、視覺、音頻的數據量更大,對算力的要求也更高,計算的速度、性能要求都會更高。”盧言霞向21世紀經濟報道記者表示。
她認為,盡管在NLP領域取得了一定的進展,但在圖像、視覺和音頻等其他模態上,大模型的發展仍然處于起步階段。
“很多應用表面上看上去驚艷,但是如果我們按需按場景去使用,能滿足需求的時候仍是少數。”盧言霞向記者表示,真正的成熟需要至少多個場景都能有效使用,目前很明顯達不到這一點。
而人們對于多模態大模型的期望顯然不只限于單一的非文本模態。未來的多模態模型可能會朝著更加集成和協同的方向發展,不僅能夠處理單一模態的數據,還能夠在多個模態之間進行有效的信息融合和轉換。
但當前一體化多模態大模型仍存在局限。復旦大學計算機科學技術學院教授邱錫鵬向21世紀經濟報道記者表示,目前的多模態大模型通常以語言模型為中心,通過將其他模態的數據映射到語言模型的語義空間中來實現多模態理解,生成時則需要調用外部的插件或系統。這限制了模型的應用場景和靈活性。
他認為,新一代大模型的交互將實現任意模態到任意模態的內生轉化,這將與更多實際生活場景相結合,賦能應用場景和生產力變革。
目前來看,多模態整體的研究框架仍是非常開放的,它并沒有一個非常清晰的、收斂的路線,這對于開發者而言是巨大的挑戰,但與此同時,也意味著很多的可能性。
本文鏈接:從Sora到Suno,解鎖多模態大模型的可能性http://www.sq15.cn/show-2-4266-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。