王興興：人形機器人規模應用的最大卡點是AI模型不夠用

2025-08-11 10:38:34 來源：澎湃新聞

觀看：90

8月9日，宇樹科技創始人、CEO王興興在北京舉行的世界機器人大會上，談及當前智能機器人暫時還沒得到大規模應用的技術障礙時表示，最大的挑戰是模型。“現在對具身智能和機器人來說，AI模型完全不夠用，這也是限制當前人形機器人大規模應用最大的卡點。”此外，王興興對目前機器人公司選擇的常用技術路線VLA模型架構持懷疑態度。

王興興在2025世界機器人大會上的發言

VLA模型指的是Vision-Language-Action Model（視覺－語言－動作模型），可以把它理解為——讓機器“看得懂、聽得懂，并且能動起來”的一種AI模型，強調像人一樣，從感知環境到自主決策并采取一定的行動。

王興興認為，對于VLA模型，目前在真實世界交互中，數據采集的質量和數量都不足，即便在VLA模型基礎上加入Reinforcement Learning（強化學習訓練），仍不夠用，模型本身還需要進一步升級和優化。

“目前機器人大模型類似于處在ChatGPT出來前的一到三年。”王興興稱。

什么時候才能達到機器人GPT時刻？

王興興認為，如果有一天，我們帶一臺機器人到一個它此前從未去過的環境，隨便給它一個指令，譬如“把這瓶水遞給某位觀眾”或“幫忙整理一下這個房間”，它就能順暢、自主地完成任務。那時就接近機器人的“GPT時刻”了。

今年5月，谷歌在I/O 開發者大會上正式發布了新的世界模型Veo 3，這是其首款能夠同步生成音效（包括環境音與對話）的AI視頻生成模型。

王興興認為，谷歌這條視頻生成路線技術的收斂速度和成功概率可能會比VLA模型更高，但仍然面臨還有很多挑戰。其中一個主要問題是，視頻生成模型過于關注畫質，導致GPU消耗非常大。

另外，王興興指出，目前還面臨的一個大問題是，如果要進一步提升機器人模仿學習的能力，必須解決Scaling law，而這一點目前行業做得并不好。“最簡單的例子是，當我訓練機器人執行一個新動作，比如學一支新舞或完成一項新任務時，往往需要從零開始訓練，這非常低效。理想情況下，新的訓練應該基于已有訓練成果，讓訓練速度越來越快，學習新技能的效果越來越好。”

王興興指出，這是一個非常值得深入研究的方向，Scaling law在語言模型上的成功已經得到驗證，但在機器的運動控制上，大家做的還只是剛剛開始，他建議可以關注這方面的研究。

王興興表示，在未來兩到五年，除了更低成本、更高壽命的硬件之外，機器人的技術核心仍將是端到端的具身智能AI模型。

本文鏈接：王興興：人形機器人規模應用的最大卡點是AI模型不夠用http://www.sq15.cn/show-11-24502-0.html

聲明：本網站為非營利性網站，本網頁內容由互聯網博主自發貢獻，不代表本站觀點，本站不承擔任何法律責任。天上不會到餡餅，請大家謹防詐騙！若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。

上一篇：兒科專家余波突發疾病逝世，年僅50歲

下一篇：月球科研轉向：從地質解密到工程應用

中文字幕亚洲欧美一区二区三区_亚洲精品菠萝久久久久久久_日本成人免费视频_狠狠躁少妇一区二区三区_国产精品中文字幕久久久_国产乱子伦农村叉叉叉_麻豆tv免费在线观看_av在线这里只有精品_色吧亚洲视频_嫩草影院一二三

王興興：人形機器人規模應用的最大卡點是AI模型不夠用

熱門資訊

推薦資訊

科學最熱文章