(整理/胡嘉燁 編輯/呂棟)
近期,在世界人工智能大會(WAIC 2025)期間,觀察者網與智能眼鏡頭部企業Rokid副總裁蔡國祥進行了深度對話,探討了AI+AR眼鏡的市場現狀,以及未來的發展趨勢。
以下是對話實錄:
觀察者網:今年,AI眼鏡火爆出圈,引發了行業內外的廣泛關注。許多人對AI眼鏡的底層技術、未來發展前景以及行業競爭格局充滿好奇。我們邀請了中國AR行業頭部企業Rokid的副總裁蔡國祥,來與我們分享他的見解。
蔡國祥:大家好,我是蔡國祥。Rokid是一家以AI和AR為核心打造產品的平臺公司。在市場上,大家熟知的產品是我們的AR眼鏡,今天在展會現場,大家可以親自體驗。
觀察者網:大家可能認識Rokid是源于今年一場火爆出圈的視頻,就是那個提詞器,當時也引起了網友們對AI眼鏡的一些討論,這件事當時對你們內部產生了哪些影響呢?
蔡國祥:我清楚記得發生的時間是2月18日,在杭州余杭區高質量產業發展大會上,創始人Misa戴著AR眼鏡進行了一場沒有演講稿的演講,引發了廣泛關注。這次事件的傳播熱度對我們企業帶來了顯著的積極影響。首先,它讓很多人了解到Rokid這家公司以及我們的AR眼鏡產品,極大地提升了公司和產品的知名度和流量。許多潛在的合作伙伴、投資人紛紛與我們接洽,帶來了更多的合作和投資機會。從行業角度來看,這次事件也讓更多人關注到AR眼鏡這一新興產品,推動了行業的普及和教育。
觀察者網:這次事件是否也給Rokid帶來了更多動力和壓力?
蔡國祥:確實如此。動力方面,這次事件讓我們更加自信和積極地推動產品的進展。然而,壓力也很大,因為產品受到了更多關注,我們不得不投入更多時間打磨產品,確保其品質能夠滿足用戶的期待。這導致我們的研發和生產壓力增大。
觀察者網:今天我們在世界人工智能大會的現場,主題自然是AI。能否請您介紹一下AI眼鏡及其產品的底層能力,以及如何實現這些AI功能?
蔡國祥: Rokid的核心是圍繞AI和AR開發產品。AI技術已經非常強大,并且正在成為各行各業的底層技術。我們的另一個核心是打造AR眼鏡,并開發自己的AR操作系統。多年來,我們在操作系統方面積累了豐富經驗。如何讓這一全新設備的操作系統運行得更高效、延遲更低、功耗更小,以及交互效果更佳,這非常考驗操作系統的性能。而將這些能力與大模型AI結合,不僅拓展了想象空間,也為用戶提供了諸多實用的服務和功能。我們早期推出的提詞器功能相對簡單,僅通過藍牙戒指實現翻頁。如今,新的提詞器已融入人工智能算法,能夠識別演講者的語句并自動跟蹤翻頁,顯著提升了用戶體驗。在翻譯功能方面,我們通過智能眼鏡實現了多語言實時翻譯。用戶面對不同語言的外國人時,只需戴上眼鏡即可將對方語言實時翻譯成中文,實現無障礙溝通。這一功能在實際應用中獲得了廣泛認可。
我們與高德合作的導航功能,通過結合高德的導航智能體,實現了更精準的導航體驗。此外,我們與支付寶合作推出的“看一眼支付”功能,利用大量人工智能算法確保支付的順暢與安全。其中,有一個很重要的環節叫聲紋識別,它通過聲音判斷用戶身份,進一步提升了支付的安全性。未來,我們還將拓展更多生活服務場景,如打車、點餐和商品搜索等。大模型的廣泛應用使其成為一個無所不知的知識庫和萬能助手。通過將大模型與智能眼鏡結合,用戶可以隨時提問并獲得解答。眼鏡的攝像頭為大模型增加了視覺能力,使其不僅能聽懂用戶的問題,還能看到用戶眼前的世界,提供更全面的解答。這些功能不僅實用,還為用戶帶來了豐富的想象空間。
觀察者網:那在AI能力打磨這方面,你們是跟行業協同發展?還是說自己構建自研AI呢?
蔡國祥:這兩塊都有。AI能力大多是基于基礎大模型的。基礎大模型需要大量投入,不是普通創業公司能夠承擔的,Rokid也明確了自己的定位,不涉足基礎大模型的研發,但專注于自身擅長的領域。我們的AR眼鏡能夠對接多種大模型,例如通義、豆包、智譜以及DeepSeek等。用戶可以根據自己的習慣和偏好選擇使用哪一種大模型,我們提供了靈活的選擇。此外,基于大模型,我們還自主研發了一些模型。以我們開發的意圖識別模型為例,當用戶通過眼鏡與大模型進行交互時,該模型能夠判斷用戶的意圖,并據此調用大模型的相應能力進行處理。例如,用戶詢問眼前的花是什么,系統就會調用視覺大模型;若用戶詢問歷史故事,則會調用語言大模型。由于每個大模型都有自己的側重點和擅長領域,我們會根據用戶的意圖對大模型進行分類調用,以確保用戶的問題能夠得到最合適的解答。同時,像提詞器功能的算法也是我們自主研發的。我們在視覺算法和語音算法方面有著豐富的經驗和技術積累。我們利用行業內頂尖的大模型作為基礎底座,并結合自身操作系統的研發,將人工智能算法和本地模型與大模型相結合,為用戶提供更優質的交互體驗。
觀察者網:現在手機的AI能力是端云結合的模式,您認為未來在眼鏡產品上,是否也會采用類似的模式?
蔡國祥:這是肯定的。端云結合在未來的一些場景中,以及編排方面,肯定是三端協同演進的趨勢。以端云為例,我們已經在做相關工作了。比如在不同情況下,我們有兩個場景已經應用了這種模式。以提詞器為例,提詞器中的智能滾動算法有兩種:在線算法和本地算法。當聯網且網絡狀況良好時,系統會自動使用在線算法,因為其效果更好。但在弱網或無網絡的情況下,智能滾動依然可以工作,此時使用的是本地智能滾動算法。翻譯功能也是如此,我們支持在線翻譯模型和本地翻譯模型。網絡狀況良好時,使用在線翻譯模型,其翻譯效果更好,支持的語種也更多;而在無網絡或弱網情況下,本地翻譯小模型也能提供支持。這些都是云端跟云和端兩端的協同的一些案例,未來,這種協同模式的應用會更多。不僅是我們,像高德、支付寶等合作伙伴在處理智能體服務時,也會采用云和端的協同策略。這肯定是未來的發展趨勢。
觀察者網:云和端的協同它其實一方面提高效率,另一方面隱私安全這塊,端和端做得更好。
蔡國祥:沒錯。
觀察者網:目前智能眼鏡行業吸引了眾多企業,但各企業在未來規劃及AI應用方面存在差異。Rokid在AI領域處于行業前列,但也有部分企業認為AI技術尚未成熟。若將智能眼鏡的AI能力比照自動駕駛的L2至L5級別劃分,您認為當前智能眼鏡的AI水平處于哪個階段?
蔡國祥:之前行業內也有這樣的說法,將AI分為幾個等級。L1是指令式,L2是推理和聊天,可以自由對話;L3是能夠幫助執行任務的代理(Agent);L4是幫助創新;L5是大規模自主決策和組織。從這個角度看,我個人認為目前AI在L2階段,發展已經較為成熟,但L3也已經開始起步。我個人認為,L2和L3并非完全獨立,而是存在一定的重疊。L2發展到一定階段后,L3就開始了。目前L2的推理能力已經很強,具備豐富的知識和強大的邏輯推理能力,甚至在醫生、律師等職業資格考試中能夠取得高分。因此,L2已經發展到一個比較高的階段。與此同時,L3的代理和執行功能也開始出現。今年被認為是智能體(Agent)的元年,智能體代表L3。我認為目前AI整體處于L2的較高階段,同時L3也已經開啟。我們認為眼鏡是人工智能的最佳載體,其發展與人工智能階段大致匹配。但由于硬件是新出現的,將人工智能能力集成到眼鏡上需要一個開發和對接的過程,因此可能會略晚于人工智能階段,大約晚幾個月。
總體而言,無論是AI還是AI眼鏡,目前都處于L2和L3重疊的階段,L3已經開始。今年我們看到了很多智能體的出現,例如之前很火的智能體Manus。然而,智能體面臨一個問題:許多智能體的能力已經被基礎大模型本身所涵蓋。例如,通義和Gemini的新版已經具備了很強的Agent能力。但在一些深度和專業門檻較高的垂直領域,智能體創業可能仍有機會。如果智能體的門檻不高,大模型本身就能完成這些功能。因此,我認為今年正處于這個階段,L3已經開始,從今年的展會來看,智能體已經迎來了大爆發。
1 2 下一頁 余下全文本文鏈接:對話Rokid副總裁:未來智能眼鏡一定會取代手機,大廠加入能進一步教育市場http://www.sq15.cn/show-3-151834-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。