21世紀(jì)經(jīng)濟(jì)報(bào)道記者董靜怡 上海報(bào)道 在AI 2.0時(shí)代,模型與應(yīng)用已密不可分。應(yīng)用場景推動(dòng)模型發(fā)展,而大模型通過差異化創(chuàng)新來突破各種垂直領(lǐng)域的需求。
多模態(tài)被看作是一個(gè)必然的趨勢(shì),也是商湯大模型的“關(guān)鍵詞”。近日,商湯技術(shù)交流日上發(fā)布的“日日新SenseNova V6”,就是一個(gè)涵蓋通用模型、推理模型、視頻理解模型及全模態(tài)交互模型的體系。
“從我們的角度來講,商湯從視覺能力延伸到原生多模態(tài)模型是一個(gè)非常自然的延伸。”日前,商湯科技董事長兼CEO徐立在商湯技術(shù)交流日的演講中表示,“從行業(yè)的發(fā)展趨勢(shì)來看,我們也看到一些潛在的提示點(diǎn)。”
目前,業(yè)界對(duì)推理能力的關(guān)注主要在數(shù)理求解等純文本推理任務(wù)上,但要實(shí)現(xiàn)推理能力在更廣泛場景的落地,就需要多模態(tài)和推理的緊密結(jié)合。
國際科技巨頭正加速布局多模態(tài)大模型領(lǐng)域,這一趨勢(shì)在近期密集發(fā)布的新品中體現(xiàn)得尤為明顯——無論是谷歌推出的Gemini 2.0、OpenAI發(fā)布的GPT-4.5,還是Meta最新開源的Llama 4,都在顯著提升原生多模態(tài)能力。這些突破性進(jìn)展表明,通過實(shí)現(xiàn)更廣泛、更深度的信息交互與整合,多模態(tài)大模型正在為用戶創(chuàng)造更完整、更豐富的場景價(jià)值。
未來,AI大模型的競爭焦點(diǎn)將從技術(shù)參數(shù)轉(zhuǎn)向應(yīng)用深度,其核心競爭力將體現(xiàn)在它能否理解人類情感、記憶交互上下文,并在教育、醫(yī)療、工業(yè)等場景中提供“好用”而非“能用”的解決方案。
多模態(tài)成AI共識(shí)
據(jù)Epoch AI預(yù)測(cè),到2028年,互聯(lián)網(wǎng)上所有高質(zhì)量的文本數(shù)據(jù)都將被使用完畢,機(jī)器學(xué)習(xí)數(shù)據(jù)集可能會(huì)在2026年前耗盡所有“高質(zhì)量語言數(shù)據(jù)”。這意味著,如果以當(dāng)前趨勢(shì)繼續(xù)下去,數(shù)據(jù)將成為大型語言模型(LLM)的重大瓶頸。
不過,在徐立看來,這并不意味著整個(gè)知識(shí)體系都被消耗完。他認(rèn)為,有很多的知識(shí)都蘊(yùn)藏在大量的圖像、視頻,甚至3D等其他模態(tài)中。但到目前為止,還沒有完全地把這些知識(shí)真正用來提升原來的文本,甚至是智力的能力,“因?yàn)槟B(tài)的融合沒有做到那么好。”
“關(guān)于多模態(tài)模型的訓(xùn)練,其計(jì)算架構(gòu)比純文本模型更為復(fù)雜。”商湯科技聯(lián)合創(chuàng)始人兼大模型首席科學(xué)家林達(dá)華向21世紀(jì)經(jīng)濟(jì)報(bào)道記者表示。
具體來說,文本處理通常包含編碼和解碼兩個(gè)階段,而多模態(tài)訓(xùn)練還需要額外處理視頻和圖像數(shù)據(jù)的編碼階段。此外,多模態(tài)模型還涉及不同模態(tài)之間編碼方式的協(xié)調(diào)與選擇問題,這進(jìn)一步增加了模型設(shè)計(jì)和訓(xùn)練的復(fù)雜度。
沙利文大中華區(qū)執(zhí)行總監(jiān)崔楠也向記者表示,多模態(tài)大模型的訓(xùn)練不僅需要大量計(jì)算資源,而且訓(xùn)練時(shí)間長、效率低。
因此,多模態(tài)大模型的持續(xù)進(jìn)化和迭代,也成為了人工智能領(lǐng)域最引人注目的發(fā)展趨勢(shì)之一,國際科技巨頭都在不約而同地加強(qiáng)大模型的多模態(tài)能力建設(shè)。
例如,谷歌的Gemini 2.0憑借原生支持文本、圖像、音頻和視頻的多模態(tài)輸入輸出,結(jié)合強(qiáng)大的推理能力和智能體(Agent)架構(gòu),顯著提升了復(fù)雜任務(wù)的交互體驗(yàn)。
OpenAI的GPT-4.5則進(jìn)一步優(yōu)化了多模態(tài)融合,在長上下文理解、跨模態(tài)推理等方面取得突破,增強(qiáng)了模型在科研、創(chuàng)作等領(lǐng)域的實(shí)用性。
而Meta最新發(fā)布的Llama 4采用專家混合架構(gòu)(MoE)和早期融合技術(shù),在視覺-語言聯(lián)合訓(xùn)練上取得進(jìn)展,使其在多模態(tài)開源模型中占據(jù)領(lǐng)先地位。這些清晰的技術(shù)演進(jìn)路徑標(biāo)志著AI發(fā)展正在進(jìn)入一個(gè)全新的階段。
“大家都在越來越多的強(qiáng)調(diào)多模態(tài)的能力,這個(gè)是一個(gè)自然的市場趨勢(shì)。”商湯科技聯(lián)合創(chuàng)始人、大裝置事業(yè)群總裁楊帆表示。
多模態(tài)大模型突破了傳統(tǒng)單模態(tài)模型的局限性,通過整合文本、圖像、音頻、視頻等多種信息模態(tài),實(shí)現(xiàn)了更接近人類認(rèn)知方式的復(fù)雜信息處理能力。這種跨模態(tài)的深度融合不僅大幅提升了模型的理解深度,更創(chuàng)造了前所未有的應(yīng)用可能性。
“語言是一種編碼過程,這一過程存在信息損失。人類在進(jìn)行思考和判斷時(shí),往往借助多模態(tài)方式。因此,多模態(tài)正逐漸成為行業(yè)模型發(fā)展的趨勢(shì),它為諸多全新的應(yīng)用、場景乃至硬件形態(tài)的出現(xiàn)提供了可能。”楊帆表示。
打開落地應(yīng)用的新可能
2023年起,商湯啟動(dòng)業(yè)務(wù)重組,將重心轉(zhuǎn)向生成式AI。商湯2024年全年業(yè)績財(cái)報(bào)顯示,生成式AI收入突破24.0億元人民幣,同比增長103.1%,占集團(tuán)收入的比例由2023年的34.8%進(jìn)一步提升至63.7%,已成為集團(tuán)最大業(yè)務(wù)。
此次“日日新SenseNova V6”的發(fā)布,可視為其技術(shù)轉(zhuǎn)型的階段性成果——通過多模態(tài)融合,將視覺能力與模型結(jié)合,延續(xù)其在圖像、視頻理解上的積累。
而多模態(tài)也是多樣行業(yè)落地的必備因素。因?yàn)锳I最終會(huì)走回線下,走回物理現(xiàn)實(shí),在這個(gè)過程中多模態(tài)的處理和思考能力就成為一種必然的趨勢(shì)性需求。
“未來的交互,就是一個(gè)多模態(tài)全模態(tài)的交互,”林達(dá)華向記者表示,“我們就是要打通未來交互入口的核心技術(shù)。”
徐立強(qiáng)調(diào):“AI之道,在于百姓之日用。”這句話既點(diǎn)明了商湯的技術(shù)愿景,也揭示了當(dāng)前大模型發(fā)展的核心挑戰(zhàn)——如何讓AI真正融入產(chǎn)業(yè)與生活,而非停留在實(shí)驗(yàn)室或技術(shù)演示階段。
此前,商湯科技確立了“大裝置-大模型-應(yīng)用”三位一體核心戰(zhàn)略,以日日新(SenseNova)多模態(tài)大模型為基石,以生產(chǎn)力工具和交互工具為兩大落地方向。
商湯科技認(rèn)為,大模型在商業(yè)應(yīng)用上有兩個(gè)方面的關(guān)鍵價(jià)值:一是融入真實(shí)的業(yè)務(wù)應(yīng)用,具備處理復(fù)雜信息和解決復(fù)雜問題的能力;二是以更有親和力的方式與人交互,讓人感受到和模型交流的良好體驗(yàn),愿意和模型持續(xù)交流。
要實(shí)現(xiàn)上述目標(biāo),模型需要具備強(qiáng)大的推理能力,以支撐對(duì)人類意圖的深度理解、對(duì)復(fù)雜信息的分析判斷以及解決真實(shí)環(huán)境中的復(fù)雜問題;能理解情感,與人共情,并且可以和人實(shí)時(shí)互動(dòng);能記住過去一段時(shí)間發(fā)生的事情,并且捕捉其中的關(guān)鍵信息并融入推理。
反映在落地應(yīng)用上,則在具身智能、教學(xué)等場景上有所突破。林達(dá)華向記者表示,會(huì)從這些特定行業(yè)出發(fā)進(jìn)行初步迭代,之后眾多下游企業(yè)、合作伙伴以及愛好者會(huì)衍生出更多應(yīng)用創(chuàng)意。
“靠單純的技術(shù)很難形成長久的壁壘,現(xiàn)在一個(gè)新的模型發(fā)布后很快就會(huì)有一系列模型追趕上來,開源也會(huì)進(jìn)一步縮小大家在技術(shù)上的差距。技術(shù)和行業(yè)的深度結(jié)合才能形成持久壁壘。”林達(dá)華表示。
放眼行業(yè),阿里巴巴宣布推動(dòng)大模型技術(shù)對(duì)公司業(yè)務(wù)的深度改造,百川智能宣布減少多余動(dòng)作,專注醫(yī)學(xué)方向,這都說明大模型企業(yè)開始專注于技術(shù)落地和應(yīng)用的爆發(fā)。
不過,大模型最終要解決的是“好用”而非“能用”的問題,數(shù)據(jù)隱私、模型偏見、算力成本等問題仍需行業(yè)共同應(yīng)對(duì)。零一萬物創(chuàng)始人李開復(fù)預(yù)測(cè),2025年是“AI應(yīng)用大規(guī)模落地元年”,但廠商需回歸商業(yè)本質(zhì),真正為客戶創(chuàng)造價(jià)值,而非僅追求技術(shù)指標(biāo)。
行業(yè)的下半場,勝負(fù)將取決于誰能更深入產(chǎn)業(yè),構(gòu)建“數(shù)據(jù)飛輪”和場景黏性。商湯的戰(zhàn)略提供了某種參考答案,但最終能否在激烈的競爭中脫穎而出,仍需時(shí)間檢驗(yàn)。無論如何,多模態(tài)AI的深入發(fā)展,正讓智能技術(shù)前所未有地貼近普通人的生活,而這或許才是此次技術(shù)浪潮最值得期待的方向。
本文鏈接:當(dāng)科技巨頭押注“多模態(tài)”,誰能為AI落地找到終極答案?http://www.sq15.cn/show-2-11860-0.html
聲明:本網(wǎng)站為非營利性網(wǎng)站,本網(wǎng)頁內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻(xiàn),不代表本站觀點(diǎn),本站不承擔(dān)任何法律責(zé)任。天上不會(huì)到餡餅,請(qǐng)大家謹(jǐn)防詐騙!若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。
上一篇: 中無人機(jī)董事長張曉軍:重點(diǎn)客戶采購延后拖累業(yè)績,預(yù)計(jì)2025年市場將迎轉(zhuǎn)機(jī)