但实际上,连续两届WRC上的发言和采访中,王兴兴都在强调模型的重要性,只不过他谈论更多的不是正在智驾领域兴起、也已成为人形机器人或具身智能主流的VLA模型,而是基于视频预测的世界模型。
在具身模型的未来架构上,王兴兴其实并没有特立独行。智元机器人在不久前的世界人工智能大会(WAIC 2025)上已经发布了一个世界模型,同样基于视频预测。
不过,王兴兴及其背后的宇树科技展示给外界的印象——跳舞、拳击、提供情绪价值,以及在AI方面比较谨慎、投入得没有硬件那么多——与他谈论起AI模型架构时的大胆,的确是割裂的。
我们整理了王兴兴8月9日在WRC的演讲和采访中的要点,你可以看到它与智元有共同的目标,即AGI、让机器人能够干活有生产力,双方也有共同的技术趋势判断——从VLA+RL后训练走向基于世界模型的环境与动作预测。但这些都是未来,在眼下这个技术尚未突破的不明朗阶段,这两家具身智能领域估值最高的公司选择的前进路径是不同的:智元死磕具身模型的AI技术突破,同时寻求依靠现有技术从B端场景中让机器人打工赚钱养活公司;宇树的选择是先从更容易获得市场关注的C端场景中赚钱养活公司,然后,等待AI突破。
以下是「新皮层」根据王兴兴的演讲与采访整理的22条要点:
1.模型本身非常重要。这是未来2到5年机器人最重要的事,还是要有一个端到端的具身智能AI模型。
2.目前(具身智能)比较火的模型架构是VLA模型,它是一个相对比较傻瓜式的架构,我个人对VLA模型还是持怀疑态度。搭载这种模型的机器人与真实世界交互时,它的数据质量和数据采集数量都不太够用,我们尝试过用VLA模型加AI做训练(注:指VLA+基于强化学习的后训练),还是不够用,模型架构还需要升级与优化。
3.(基于VLA的)机器人现在跳舞、打拳效果很不错。可问题在于,如果要训练机器人跳全新的舞蹈,每次有新的动作都要从头开始训练。理论上我在做强化学习后训练时,训练速度会越来越快,机器人学习新技能的效果越来越好。但是,在VLA模型的基础上做强化学习的后训练,整个行业里还没有人做得很好,强化学习的Scaling Law还没有出现。我认为这是非常值得研究的方向。大语言模型已经在这个方向上得到了充分验证。在机器人的运动控制方面,工作才刚刚开始。
4.我们去年开始做世界模型,让它先生成机器人动作,再控制一个机器人去做动作。Google上周发布的世界模型(注:Genie 3)也想实现这个效果。我觉得世界模型路线发展起来可能比VLA模型更快,收敛概率更大。但我不敢保打包票,可能还有很多问题。有一个很大的问题就是视频生成模型太关注视频生成质量,对GPU的消耗有点大。但是对机器人干活来说,某种意义上你并不需要很高精度的视频生成质量,只要能驱动机器人干活就行了。(注:去年的WRC上,王兴兴在提到世界模型时称,机器人对自身和对外界的重力、摩擦力、接触的理解完全不够。如果有更好的AI把机器人对自我的认知、对环境的理解做出来,可以很大程度上推动机器人行业进步。)
5.机器人还需要有更低成本、更高寿命的硬件。汽车行业哪怕已经有一百多年历史了,今天如果有一家企业要做出很好的汽车,工程量还是非常大。未来,机器人行业假如每年生产几百万、几千万,甚至几亿台人形机器人,工程量挑战还是非常吓人的。
6.低成本、大规模的算力也很重要。在人形机器人的本体上没办法直接部署大规模算力,因为受机器人尺寸和电池的限制,算力功耗也有限。我个人感觉,人形机器人身上最多只能部署峰值功耗约100瓦的算力。最好平时的工作算力只有小几十瓦,大概就是几个手机的算力水平。
7.但是,未来的大规模算力需求毋庸置疑,我觉得可能是分布式算力。机器人的通讯延迟需要很低,如果机器人在北京干活,数据中心在上海或者内蒙,延迟就太大了。未来工厂里如果有100个机器人,工厂可以部署分布式服务器集群。小区的每家每户都有一个机器人的时候,小区里也会有分布式的算力中心集群,这样机器人的延迟与安全性都有保证。(注:黄仁勋早在一年前就开始向制造业工厂推销其私有云方案AI Factory。)
8.宇树的核心目标是让机器人真正干活。在我们公司,专注于研发机器人手部操作与全身作业的技术人员可能是人数最多的,团队中大部分AI研发者都在研究如何让机器人干活。我们去年就跟汽车工厂合作,在工厂内部署了机器人。
9.但宇树很少宣传AI这件事,因为我们希望能够干活的AI不是那种只会整理衣物或者只会做菜的单功能性的AI。我们真正想做的是通用型AI,比如端茶倒水、工厂作业、文娱表演等等全都可以做。
10.现在整个行业在AI模型方面的成果都不够理想,机器人干不了活,真让机器人去打工太难为它了。一些自动化设备在工厂里有固定工序,可以干活,但它和具身智能本质上无关。
11.现阶段,用AI让机器人做运动、表演,反而更容易落地,娱乐是机器人目前可以提供的价值。今年,宇树在9.9万元的G1机器人之外,还推出了售价3.99万元的R1机器人。娱乐和干活都很重要,只是不同阶段的技术成熟度不同。比如手机,大家平时使用时大部分时间也都在娱乐,而非工作。
12.宇树做机器人格斗比赛,是因为我们发现普通观众逛展时更爱看机器人表演。机器人的拳击格斗比春晚跳舞的动作难度更大,跳舞动作可以预设好,不受外部干扰。在格斗表演时,我们采用了最新技术,机器人格斗时,动作的随机性很强,动作序列也很长,有将近20个动作序列。此外,机器人的抗冲击与抗干扰能力也更强,机器人铝合金的腿上能看到因比赛砸出的凹坑。
13.机器人的算法还不够成熟,具身智能的AI模型完全不够用,还没达到可突破的临界点,现在有点像ChatGPT出来前1到3年左右的阶段。业界已经发现了类似的方向和技术路线,但是没人把它做出来。
14.现阶段硬件更重要,应该先让硬件成熟起来,再去想软件的问题。就像计算机兴起时,图形交互界面、Word都没有,这些是在有了很多计算机之后才出现的。
15.我感觉在全球范围内,大家对数据的关注度都过高了。现在最大的问题是模型,而非数据。在语言模型领域,感觉有足够多的、质量好的数据,就能把模型训练得越来越好。但是在具身智能领域,很多情况下是数据有了,但用不起来。
16.宇树的机器狗Go2在2023年发布时就集成了大语言模型,还标配了3D激光雷达和各种小功能。Go2也是过去几年,包括今年,在全球范围内出货量最大的一款四足机型。
17.2022年以前,我一直都坚决反对做人形机器人。2009年我还在读大一,我做的第一款机器人就是一个小的双足人形机器人。当时我发现人形机器人的商业价值和技术都非常难做。2022年,全球的人工智能发展迅速,AI带动了人形机器人的发展。那一年我们完全没有开始做人形机器人,但有很多客户直接找我们下订单,愿意直接给我们钱付定金。
18.客户的热情直接促使我们在2023年年初做了人形机器人。半年时间内,我们做出了第一代人形机器人H1,外观上它相对粗陋,但动力性能强劲。在春晚舞台上表演的就是这款机器人,下周我们在北京参加机器人运动会比赛,H1也会上场。
19.去年,我们发布了第二款人形机器人G1,售价9.9万元。这款机器人也非常有代表性,从去年下半年到今年,大家可以发现很多新兴的人形机器人的外观架构都与G1相似。G1的价格非常有竞争力,截至目前,它是全球人形机器人领域出货量最大的机器人。
20.今年,宇树发布了R1人形机器人,这款机器人的最大特点就是性价比更高,它的最低配价格做到了3.99万元。R1的尺寸也更小,大概是1.2米。外观方面,我们给客户留下了很大的定制空间,大家可以在上面改装或涂装自己喜欢的造型。不过,目前R1的量产还没有搞定,发货会稍晚一些。
21.全球人形机器人的增长速度非常快。从出货量角度估算,全球整个人形机器人行业的出货量应该可以保证每年翻一番,如果有更大的技术突破,甚至可能未来2至3年,突然一年出货几十万台甚至上百万台也有可能。
22.我创业9年了(注:宇树创立于2016年),这是不断学习、成长的过程。某种程度上,我把公司上市当作高考一样,完成IPO是企业迈向更成熟的管理与运营的过程,也是我们对自己和对股东的交代。