近日,OpenAI推出的Sora2.0以物理真實的視頻生成能力與跨模態交互突破引發行業震動,其對多模態信息的深度整合能力,印證了該賽道已成為人工智能技術競爭的核心戰場。與此同時,在國內AGI市場,港股AGI第一股云知聲(9678.HK)研發山海多模態大模型,并在權威評測中力壓國際頭部模型,展現出中國多模態技術的硬核實力,為行業發展注入新動能。
權威評測登頂,山海大模型雙線突破顯實力
多模態人工智能模型基準評測集MMMU的最新榜單,為行業提供了關鍵技術參照。作為由IN.AIResearch等機構聯合構建的國內權威基準,MMMU聚焦“大學層次多學科問題解決能力”,涵蓋藝術與設計、健康與醫學、技術與工程等六大領域,包含1.15萬個多模態問題,覆蓋30個科目、183個子領域,且大量題目需運用傅立葉變換、均衡理論等專業知識完成專家級推理,同時還需應對“多圖像格式識別”“文本圖像混合輸入推理”兩大獨特挑戰,評測難度與專業性均處于行業前列。
正是在這一高標準評測中,云知聲山海多模態大模型UniGPT-mMed實現雙線突破:不僅以總分57的成績登頂榜首,彰顯一流通用能力;更在健康與醫學細分賽道超越GPT-4V,成為該領域首個在MMMU評測中力壓國際頭部模型的國產大模型。這一成績的背后,是UniGPT-mMed獨特的技術架構支撐——基于云知聲山海大模型底座,通過精細化數據處理技術自動識別優質圖文數據,結合多模態分析評估圖文匹配度,再以思維鏈、自我反思技術優化場景問答數據集,最終構建起數億條高質量圖文問答數據體系,為精準交互與專業推理奠定基礎。
全棧交互能力升級,開啟多場景智能新體驗
除評測成績外,山海多模態大模型的實際交互能力更凸顯其技術落地潛力。在語音交互層面,該模型實現“實時秒回”,響應速度接近人類對話節奏,用戶可隨時插話無需等待,同時能通過語音文本、語氣、節奏、音調捕捉用戶情緒,提供貼合場景的情感反饋,更支持音色自由切換與“一句話聲音克隆”,高保真還原用戶音色與情感特征;在視覺交互層面,其可通過攝像頭精準理解場景、識別物體信息,不僅能完成OCR文字識別,更能結合圖文信息生成易懂總結,例如面對投影儀設備時,可同步描述物體特征與包裝盒文字核心內容,同時還能根據用戶指令快速生成定制化視覺內容,滿足創意展示需求。
這種“能聽會說、看得見讀得懂”的全棧多模態能力,正逐步落地到實際場景中。依托云知大腦(UniBrain)技術中臺,山海大模型與多模態感知生成、知識圖譜、物聯平臺等組件深度融合,為智慧醫療、智慧物聯、智慧座艙、智慧交通等業務提供支撐——在醫療領域,基于其孵化的醫療大模型已在CCKS2023PromptCBLUE評測中獲通用賽道一等獎,MedBench評測中位列全球第一;在智慧生活領域,其解決方案已服務超400家客戶,API月調用量峰值突破10億次,持續推進“U(云知大腦)+X(應用場景)”戰略落地。
從Sora2.0的全球競逐到云知聲的本土突破,多模態技術正重構人機交互范式。隨著山海大模型持續迭代與政策紅利釋放,這家AGI先行者有望在智慧生活、醫療健康等領域開辟增量市場,為千行百業的智慧化升級提供核心動能。(咸寧新聞網)
本文鏈接:Sora2引領多模態競速,云知聲山海大模型MMMU雙線登頂力壓GPT-4Vhttp://www.sq15.cn/show-1-51591-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。