Sora2引領多模態競速，云知聲山海大模型MMMU雙線登頂力壓GPT-4V

2025-10-21 11:14:20 來源：

觀看：18

近日，OpenAI推出的Sora2.0以物理真實的視頻生成能力與跨模態交互突破引發行業震動，其對多模態信息的深度整合能力，印證了該賽道已成為人工智能技術競爭的核心戰場。與此同時，在國內AGI市場，港股AGI第一股云知聲（9678.HK）研發山海多模態大模型，并在權威評測中力壓國際頭部模型，展現出中國多模態技術的硬核實力，為行業發展注入新動能。

權威評測登頂，山海大模型雙線突破顯實力

多模態人工智能模型基準評測集MMMU的最新榜單，為行業提供了關鍵技術參照。作為由IN.AIResearch等機構聯合構建的國內權威基準，MMMU聚焦“大學層次多學科問題解決能力”，涵蓋藝術與設計、健康與醫學、技術與工程等六大領域，包含1.15萬個多模態問題，覆蓋30個科目、183個子領域，且大量題目需運用傅立葉變換、均衡理論等專業知識完成專家級推理，同時還需應對“多圖像格式識別”“文本圖像混合輸入推理”兩大獨特挑戰，評測難度與專業性均處于行業前列。

正是在這一高標準評測中，云知聲山海多模態大模型UniGPT-mMed實現雙線突破：不僅以總分57的成績登頂榜首，彰顯一流通用能力；更在健康與醫學細分賽道超越GPT-4V，成為該領域首個在MMMU評測中力壓國際頭部模型的國產大模型。這一成績的背后，是UniGPT-mMed獨特的技術架構支撐——基于云知聲山海大模型底座，通過精細化數據處理技術自動識別優質圖文數據，結合多模態分析評估圖文匹配度，再以思維鏈、自我反思技術優化場景問答數據集，最終構建起數億條高質量圖文問答數據體系，為精準交互與專業推理奠定基礎。

全棧交互能力升級，開啟多場景智能新體驗

除評測成績外，山海多模態大模型的實際交互能力更凸顯其技術落地潛力。在語音交互層面，該模型實現“實時秒回”，響應速度接近人類對話節奏，用戶可隨時插話無需等待，同時能通過語音文本、語氣、節奏、音調捕捉用戶情緒，提供貼合場景的情感反饋，更支持音色自由切換與“一句話聲音克隆”，高保真還原用戶音色與情感特征；在視覺交互層面，其可通過攝像頭精準理解場景、識別物體信息，不僅能完成OCR文字識別，更能結合圖文信息生成易懂總結，例如面對投影儀設備時，可同步描述物體特征與包裝盒文字核心內容，同時還能根據用戶指令快速生成定制化視覺內容，滿足創意展示需求。

這種“能聽會說、看得見讀得懂”的全棧多模態能力，正逐步落地到實際場景中。依托云知大腦（UniBrain）技術中臺，山海大模型與多模態感知生成、知識圖譜、物聯平臺等組件深度融合，為智慧醫療、智慧物聯、智慧座艙、智慧交通等業務提供支撐——在醫療領域，基于其孵化的醫療大模型已在CCKS2023PromptCBLUE評測中獲通用賽道一等獎，MedBench評測中位列全球第一；在智慧生活領域，其解決方案已服務超400家客戶，API月調用量峰值突破10億次，持續推進“U（云知大腦）+X（應用場景）”戰略落地。

從Sora2.0的全球競逐到云知聲的本土突破，多模態技術正重構人機交互范式。隨著山海大模型持續迭代與政策紅利釋放，這家AGI先行者有望在智慧生活、醫療健康等領域開辟增量市場，為千行百業的智慧化升級提供核心動能。（咸寧新聞網）

本文鏈接：Sora2引領多模態競速，云知聲山海大模型MMMU雙線登頂力壓GPT-4Vhttp://www.sq15.cn/show-1-51591-0.html

聲明：本網站為非營利性網站，本網頁內容由互聯網博主自發貢獻，不代表本站觀點，本站不承擔任何法律責任。天上不會到餡餅，請大家謹防詐騙！若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。

上一篇：揚子江藥業攜手Rome Foundation，共探DGBI國際協作新徑

下一篇： 21對話｜福耀科技大學校長王樹國：希望培養“改變世界的人”

中文字幕亚洲欧美一区二区三区_亚洲精品菠萝久久久久久久_日本成人免费视频_狠狠躁少妇一区二区三区_国产精品中文字幕久久久_国产乱子伦农村叉叉叉_麻豆tv免费在线观看_av在线这里只有精品_色吧亚洲视频_嫩草影院一二三

Sora2引領多模態競速，云知聲山海大模型MMMU雙線登頂力壓GPT-4V

熱門資訊

推薦資訊

快訊最熱文章