當(dāng)科技巨頭押注“多模態(tài)”，誰能為AI落地找到終極答案？

2025-04-17 06:42:06 來源：

觀看：105

21世紀(jì)經(jīng)濟(jì)報(bào)道記者董靜怡上海報(bào)道 在AI 2.0時(shí)代，模型與應(yīng)用已密不可分。應(yīng)用場景推動(dòng)模型發(fā)展，而大模型通過差異化創(chuàng)新來突破各種垂直領(lǐng)域的需求。

多模態(tài)被看作是一個(gè)必然的趨勢(shì)，也是商湯大模型的“關(guān)鍵詞”。近日，商湯技術(shù)交流日上發(fā)布的“日日新SenseNova V6”，就是一個(gè)涵蓋通用模型、推理模型、視頻理解模型及全模態(tài)交互模型的體系。

“從我們的角度來講，商湯從視覺能力延伸到原生多模態(tài)模型是一個(gè)非常自然的延伸。”日前，商湯科技董事長兼CEO徐立在商湯技術(shù)交流日的演講中表示，“從行業(yè)的發(fā)展趨勢(shì)來看，我們也看到一些潛在的提示點(diǎn)。”

目前，業(yè)界對(duì)推理能力的關(guān)注主要在數(shù)理求解等純文本推理任務(wù)上，但要實(shí)現(xiàn)推理能力在更廣泛場景的落地，就需要多模態(tài)和推理的緊密結(jié)合。

國際科技巨頭正加速布局多模態(tài)大模型領(lǐng)域，這一趨勢(shì)在近期密集發(fā)布的新品中體現(xiàn)得尤為明顯——無論是谷歌推出的Gemini 2.0、OpenAI發(fā)布的GPT-4.5，還是Meta最新開源的Llama 4，都在顯著提升原生多模態(tài)能力。這些突破性進(jìn)展表明，通過實(shí)現(xiàn)更廣泛、更深度的信息交互與整合，多模態(tài)大模型正在為用戶創(chuàng)造更完整、更豐富的場景價(jià)值。

未來，AI大模型的競爭焦點(diǎn)將從技術(shù)參數(shù)轉(zhuǎn)向應(yīng)用深度，其核心競爭力將體現(xiàn)在它能否理解人類情感、記憶交互上下文，并在教育、醫(yī)療、工業(yè)等場景中提供“好用”而非“能用”的解決方案。

多模態(tài)成AI共識(shí)

據(jù)Epoch AI預(yù)測(cè)，到2028年，互聯(lián)網(wǎng)上所有高質(zhì)量的文本數(shù)據(jù)都將被使用完畢，機(jī)器學(xué)習(xí)數(shù)據(jù)集可能會(huì)在2026年前耗盡所有“高質(zhì)量語言數(shù)據(jù)”。這意味著，如果以當(dāng)前趨勢(shì)繼續(xù)下去，數(shù)據(jù)將成為大型語言模型（LLM）的重大瓶頸。

不過，在徐立看來，這并不意味著整個(gè)知識(shí)體系都被消耗完。他認(rèn)為，有很多的知識(shí)都蘊(yùn)藏在大量的圖像、視頻，甚至3D等其他模態(tài)中。但到目前為止，還沒有完全地把這些知識(shí)真正用來提升原來的文本，甚至是智力的能力，“因?yàn)槟B(tài)的融合沒有做到那么好。”

“關(guān)于多模態(tài)模型的訓(xùn)練，其計(jì)算架構(gòu)比純文本模型更為復(fù)雜。”商湯科技聯(lián)合創(chuàng)始人兼大模型首席科學(xué)家林達(dá)華向21世紀(jì)經(jīng)濟(jì)報(bào)道記者表示。

具體來說，文本處理通常包含編碼和解碼兩個(gè)階段，而多模態(tài)訓(xùn)練還需要額外處理視頻和圖像數(shù)據(jù)的編碼階段。此外，多模態(tài)模型還涉及不同模態(tài)之間編碼方式的協(xié)調(diào)與選擇問題，這進(jìn)一步增加了模型設(shè)計(jì)和訓(xùn)練的復(fù)雜度。

沙利文大中華區(qū)執(zhí)行總監(jiān)崔楠也向記者表示，多模態(tài)大模型的訓(xùn)練不僅需要大量計(jì)算資源，而且訓(xùn)練時(shí)間長、效率低。

因此，多模態(tài)大模型的持續(xù)進(jìn)化和迭代，也成為了人工智能領(lǐng)域最引人注目的發(fā)展趨勢(shì)之一，國際科技巨頭都在不約而同地加強(qiáng)大模型的多模態(tài)能力建設(shè)。

例如，谷歌的Gemini 2.0憑借原生支持文本、圖像、音頻和視頻的多模態(tài)輸入輸出，結(jié)合強(qiáng)大的推理能力和智能體（Agent）架構(gòu)，顯著提升了復(fù)雜任務(wù)的交互體驗(yàn)。

OpenAI的GPT-4.5則進(jìn)一步優(yōu)化了多模態(tài)融合，在長上下文理解、跨模態(tài)推理等方面取得突破，增強(qiáng)了模型在科研、創(chuàng)作等領(lǐng)域的實(shí)用性。

而Meta最新發(fā)布的Llama 4采用專家混合架構(gòu)（MoE）和早期融合技術(shù)，在視覺-語言聯(lián)合訓(xùn)練上取得進(jìn)展，使其在多模態(tài)開源模型中占據(jù)領(lǐng)先地位。這些清晰的技術(shù)演進(jìn)路徑標(biāo)志著AI發(fā)展正在進(jìn)入一個(gè)全新的階段。

“大家都在越來越多的強(qiáng)調(diào)多模態(tài)的能力，這個(gè)是一個(gè)自然的市場趨勢(shì)。”商湯科技聯(lián)合創(chuàng)始人、大裝置事業(yè)群總裁楊帆表示。

多模態(tài)大模型突破了傳統(tǒng)單模態(tài)模型的局限性，通過整合文本、圖像、音頻、視頻等多種信息模態(tài)，實(shí)現(xiàn)了更接近人類認(rèn)知方式的復(fù)雜信息處理能力。這種跨模態(tài)的深度融合不僅大幅提升了模型的理解深度，更創(chuàng)造了前所未有的應(yīng)用可能性。

“語言是一種編碼過程，這一過程存在信息損失。人類在進(jìn)行思考和判斷時(shí)，往往借助多模態(tài)方式。因此，多模態(tài)正逐漸成為行業(yè)模型發(fā)展的趨勢(shì)，它為諸多全新的應(yīng)用、場景乃至硬件形態(tài)的出現(xiàn)提供了可能。”楊帆表示。

打開落地應(yīng)用的新可能

2023年起，商湯啟動(dòng)業(yè)務(wù)重組，將重心轉(zhuǎn)向生成式AI。商湯2024年全年業(yè)績財(cái)報(bào)顯示，生成式AI收入突破24.0億元人民幣，同比增長103.1%，占集團(tuán)收入的比例由2023年的34.8%進(jìn)一步提升至63.7%，已成為集團(tuán)最大業(yè)務(wù)。

此次“日日新SenseNova V6”的發(fā)布，可視為其技術(shù)轉(zhuǎn)型的階段性成果——通過多模態(tài)融合，將視覺能力與模型結(jié)合，延續(xù)其在圖像、視頻理解上的積累。

而多模態(tài)也是多樣行業(yè)落地的必備因素。因?yàn)锳I最終會(huì)走回線下，走回物理現(xiàn)實(shí)，在這個(gè)過程中多模態(tài)的處理和思考能力就成為一種必然的趨勢(shì)性需求。

“未來的交互，就是一個(gè)多模態(tài)全模態(tài)的交互，”林達(dá)華向記者表示，“我們就是要打通未來交互入口的核心技術(shù)。”

徐立強(qiáng)調(diào)：“AI之道，在于百姓之日用。”這句話既點(diǎn)明了商湯的技術(shù)愿景，也揭示了當(dāng)前大模型發(fā)展的核心挑戰(zhàn)——如何讓AI真正融入產(chǎn)業(yè)與生活，而非停留在實(shí)驗(yàn)室或技術(shù)演示階段。

此前，商湯科技確立了“大裝置-大模型-應(yīng)用”三位一體核心戰(zhàn)略，以日日新（SenseNova）多模態(tài)大模型為基石，以生產(chǎn)力工具和交互工具為兩大落地方向。

商湯科技認(rèn)為，大模型在商業(yè)應(yīng)用上有兩個(gè)方面的關(guān)鍵價(jià)值：一是融入真實(shí)的業(yè)務(wù)應(yīng)用，具備處理復(fù)雜信息和解決復(fù)雜問題的能力；二是以更有親和力的方式與人交互，讓人感受到和模型交流的良好體驗(yàn)，愿意和模型持續(xù)交流。

要實(shí)現(xiàn)上述目標(biāo)，模型需要具備強(qiáng)大的推理能力，以支撐對(duì)人類意圖的深度理解、對(duì)復(fù)雜信息的分析判斷以及解決真實(shí)環(huán)境中的復(fù)雜問題；能理解情感，與人共情，并且可以和人實(shí)時(shí)互動(dòng)；能記住過去一段時(shí)間發(fā)生的事情，并且捕捉其中的關(guān)鍵信息并融入推理。

反映在落地應(yīng)用上，則在具身智能、教學(xué)等場景上有所突破。林達(dá)華向記者表示，會(huì)從這些特定行業(yè)出發(fā)進(jìn)行初步迭代，之后眾多下游企業(yè)、合作伙伴以及愛好者會(huì)衍生出更多應(yīng)用創(chuàng)意。

“靠單純的技術(shù)很難形成長久的壁壘，現(xiàn)在一個(gè)新的模型發(fā)布后很快就會(huì)有一系列模型追趕上來，開源也會(huì)進(jìn)一步縮小大家在技術(shù)上的差距。技術(shù)和行業(yè)的深度結(jié)合才能形成持久壁壘。”林達(dá)華表示。

放眼行業(yè)，阿里巴巴宣布推動(dòng)大模型技術(shù)對(duì)公司業(yè)務(wù)的深度改造，百川智能宣布減少多余動(dòng)作，專注醫(yī)學(xué)方向，這都說明大模型企業(yè)開始專注于技術(shù)落地和應(yīng)用的爆發(fā)。

不過，大模型最終要解決的是“好用”而非“能用”的問題，數(shù)據(jù)隱私、模型偏見、算力成本等問題仍需行業(yè)共同應(yīng)對(duì)。零一萬物創(chuàng)始人李開復(fù)預(yù)測(cè)，2025年是“AI應(yīng)用大規(guī)模落地元年”，但廠商需回歸商業(yè)本質(zhì)，真正為客戶創(chuàng)造價(jià)值，而非僅追求技術(shù)指標(biāo)。

行業(yè)的下半場，勝負(fù)將取決于誰能更深入產(chǎn)業(yè)，構(gòu)建“數(shù)據(jù)飛輪”和場景黏性。商湯的戰(zhàn)略提供了某種參考答案，但最終能否在激烈的競爭中脫穎而出，仍需時(shí)間檢驗(yàn)。無論如何，多模態(tài)AI的深入發(fā)展，正讓智能技術(shù)前所未有地貼近普通人的生活，而這或許才是此次技術(shù)浪潮最值得期待的方向。

本文鏈接：當(dāng)科技巨頭押注“多模態(tài)”，誰能為AI落地找到終極答案？http://www.sq15.cn/show-2-11860-0.html

聲明：本網(wǎng)站為非營利性網(wǎng)站，本網(wǎng)頁內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻(xiàn)，不代表本站觀點(diǎn)，本站不承擔(dān)任何法律責(zé)任。天上不會(huì)到餡餅，請(qǐng)大家謹(jǐn)防詐騙！若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系，我們將在第一時(shí)間刪除處理。

上一篇：中無人機(jī)董事長張曉軍：重點(diǎn)客戶采購延后拖累業(yè)績，預(yù)計(jì)2025年市場將迎轉(zhuǎn)機(jī)

下一篇：兩個(gè)AI，說著說著就“加密”了......

中文字幕亚洲欧美一区二区三区_亚洲精品菠萝久久久久久久_日本成人免费视频_狠狠躁少妇一区二区三区_国产精品中文字幕久久久_国产乱子伦农村叉叉叉_麻豆tv免费在线观看_av在线这里只有精品_色吧亚洲视频_嫩草影院一二三

當(dāng)科技巨頭押注“多模態(tài)”，誰能為AI落地找到終極答案？

多模態(tài)成AI共識(shí)

打開落地應(yīng)用的新可能

熱門資訊

推薦資訊

科技最熱文章