8月9日,宇樹科技創始人、CEO王興興在北京舉行的世界機器人大會上,談及當前智能機器人暫時還沒得到大規模應用的技術障礙時表示,最大的挑戰是模型。“現在對具身智能和機器人來說,AI模型完全不夠用,這也是限制當前人形機器人大規模應用最大的卡點。”此外,王興興對目前機器人公司選擇的常用技術路線VLA模型架構持懷疑態度。
王興興在2025世界機器人大會上的發言
VLA模型指的是Vision-Language-Action Model(視覺-語言-動作模型),可以把它理解為——讓機器“看得懂、聽得懂,并且能動起來”的一種AI模型,強調像人一樣,從感知環境到自主決策并采取一定的行動。
王興興認為,對于VLA模型,目前在真實世界交互中,數據采集的質量和數量都不足,即便在VLA模型基礎上加入Reinforcement Learning(強化學習訓練),仍不夠用,模型本身還需要進一步升級和優化。
“目前機器人大模型類似于處在ChatGPT出來前的一到三年。”王興興稱。
什么時候才能達到機器人GPT時刻?
王興興認為,如果有一天,我們帶一臺機器人到一個它此前從未去過的環境,隨便給它一個指令,譬如“把這瓶水遞給某位觀眾”或“幫忙整理一下這個房間”,它就能順暢、自主地完成任務。那時就接近機器人的“GPT時刻”了。
今年5月,谷歌在I/O 開發者大會上正式發布了新的世界模型Veo 3,這是其首款能夠同步生成音效(包括環境音與對話)的AI視頻生成模型。
王興興認為,谷歌這條視頻生成路線技術的收斂速度和成功概率可能會比VLA模型更高,但仍然面臨還有很多挑戰。其中一個主要問題是,視頻生成模型過于關注畫質,導致GPU消耗非常大。
另外,王興興指出,目前還面臨的一個大問題是,如果要進一步提升機器人模仿學習的能力,必須解決Scaling law,而這一點目前行業做得并不好。“最簡單的例子是,當我訓練機器人執行一個新動作,比如學一支新舞或完成一項新任務時,往往需要從零開始訓練,這非常低效。理想情況下,新的訓練應該基于已有訓練成果,讓訓練速度越來越快,學習新技能的效果越來越好。”
王興興指出,這是一個非常值得深入研究的方向,Scaling law在語言模型上的成功已經得到驗證,但在機器的運動控制上,大家做的還只是剛剛開始,他建議可以關注這方面的研究。
王興興表示,在未來兩到五年,除了更低成本、更高壽命的硬件之外,機器人的技術核心仍將是端到端的具身智能AI模型。
本文鏈接:王興興:人形機器人規模應用的最大卡點是AI模型不夠用http://www.sq15.cn/show-11-24502-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。
上一篇: 兒科專家余波突發疾病逝世,年僅50歲
下一篇: 月球科研轉向:從地質解密到工程應用