Physical Intelligence与机器人开源革命：“免费大脑”背后的四派力量与博弈【机器人系列】

By 硅谷101

Summary

Topics Covered

70亿参数打败550亿：开源小模型的制胜架构
真开源引流闭源变现：商业公司的开源心机
数据多样性比数量重要：开源数据集的独特优势
开源组合拳：三层生态叠加的能量释放
一到两年达到GPT-3水平：机器人智能的分水岭预测

Full Transcript

为什么机器人行业有这么多开源模型这是做慈善还是钱太多烧得慌为什么机器人开源模型能够打败谷歌这背后是谁在下怎么样的一盘大棋呢 2月前后小米、蚂蚁、阿里达摩院、宇树纷纷发布机器人开源模型再往前英伟达在CES上发布了GR00T N1.6 把自家号称 “世界首个开放人形机器人基础模型”

又再度升级我们不仅开源了模型还开源了用于训练这些模型的数据这些个消费电子公司互联网巨头还有芯片帝国最近都一股脑地把机器人的“大脑”拿出来免费给全世界用机器人开源模型的生态当中有什么样的心机和万亿美元押注的博弈呢 Hello 大家好

欢迎来到《硅谷101》我是陈茜这个视频我们就来继续聊聊机器人系列之前我们机器人“闭源模型”那期分析了如今具身智能通用的VLA模型拆解了特斯拉、Figure 这些闭源巨头的不同路线以及它们如何用硬件和数据优势构筑护城河而这个视频我们与全球顶尖具身智能实验室的研究人员深聊之后

来扒一扒开源算法路线中的核心玩家和关键的技术领军人物们同时我们来试图回答这三个问题第一这些开源模型分别走了什么样的技术路线为什么能够挑战巨头第二开源的动机是什么什么是“真”开源什么是“假”开源第三开源模型生态是什么样子的面对特斯拉这样的竞争对手

开源社区拿什么来打那么接下来的视频我们就来试图回答这些问题在开源模型派别中 VLA模型依然是主流简单来说就是让机器人“看到”周围环境 “听懂”你的指令然后“做出”正确的动作目前开源VLA模型大致可以分为四股力量第一是学院派参数不大但能以小博大

代表模型是OpenVLA和Octo 第二是巨头生态派不只做模型还布局整套工具链代表是英伟达的GR00T N1 和谷歌的Gemini Robotics 第三是创业公司与中国力量包括自变量、OpenMind、小米、蚂蚁等等第四是技术极致派追求极度精度和泛化能力代表模型是Physical Intelligence的π₀

这几个派别都非常的重要首先我们来说说学院派 OpenVLA的一战成名发生在2024年的6月这个只有70亿参数的开源模型在29项机器人操作任务中全面击败了“顶流” 谷歌DeepMind的RT-2-X RT-2-X有550亿的参数是OpenVLA的8倍大

背后站着整个谷歌的算力和数据资源但结果是 OpenVLA的成功率比RT-2-X高出16.5% 那OpenVLA凭什么以小博大呢凭的是一个很聪明的架构设计两个视觉编码器加大语言模型对于谷歌RT-2-X 因为它只用了一个视觉编码器你可以想象成一个超聪明但什么都自己做的人

能力很强但是信息处理效率更低而OpenVLA用了两个视觉编码器相当于有了“两双眼睛” 第一双眼睛叫做“DINOv2” 负责理解空间关系第二双眼睛叫做“SigLIP” 专门理解语义和常识然后再由当时的开源大语言模型 Llama2充当“大脑” 把空间信息和语义信息融合起来处理指令和推理简单来说

OpenVLA像一个三人小团队协同作战把两类信息物理隔离、各自优化再统一决策整体反而更强这突然让我想到一句话 “三个臭皮匠顶个诸葛亮” 大家大概可以这么理解但这个架构证明了在具身智能领域单纯的“大”并不代表聪明 OpenVLA还有一个数据集的优势叫做“Open X-Embodiment”

这也是开源生态的一个非常厉害的优势我们这里先留一个悬念一会儿详细来讲另外 OpenVLA还在动作表示方式和训练策略上做了优化所以它这次对谷歌的胜利靠的就是 “数据+架构+训练策略”的一个综合结果而且 OpenVLA在胜出之后彻底开源

代码、模型权重、训练脚本全部公开这样的开放姿态让整个行业都非常兴奋开始各种后续的优化、推理、加速和微调这就是一个非常典型的开源故事能够用创新的方式去“以小博大” 然后撬动整个技术领域的后续工作我们再来说说另外一个比较典型的开源路线“Octo”

如果说OpenVLA代表“规模化开源” 那么Octo就是“普及型开源” 这是啥意思我们知道机器人算法的“泛化性” 是个很大的挑战之前的标准做法是需要针对特定的机器人用特定的数据集来训练策略但你换一个机器人、换一个环境就要全部去重新来训练而一些开源社区的大牛们

就希望去实现“通用机器人模型” 也就是说通过比如说Zero-Shot这样的技术将模型扩散到广泛的机器人和场景当中去这样的路径被称为是“通用机器人策略” 而Octo就是其中的代表 Octo只有数千万参数比OpenVLA的规模更小它是一个基于Transformer的扩散策略模型设计强调灵活性和可扩展性

支持多种机器人平台和传感器配置并能够通过微调快速适应新的观察和动作空间这使得Octo可以广泛应用于不同的机器人学习场景 Octo的定位不是最强而是人人可用希望给开源社区去提供一个更轻量可以快速适配的通用策略基础模型

接下来我们再来说一下开源生态的巨头们特别是英伟达和谷歌 2025年3月的GTC大会上黄仁勋亲自站台发布了GR00T N1 号称世界首个开放人形机器人基础模型到2026年1月的CES上已经迭代到了N1.6版本 GR00T N1采用双系统架构一个基于视觉语言模型的“System 2” 负责慢思考理解环境

解读指令作出规划一个基于扩散Transformer的“System1” 负责快思考以高频率把规划转化为精确的关节动作两个系统端到端联合训练紧密耦合 22亿的参数、模型权重和代码都公开了不少头部人形机器人公司都获得了早期使用权而且英伟达不止给模型还给了整套生态

用Omniverse做数字孪生用Isaac Sim生成合成训练数据用Cosmos生成视频数据用Newton物理引擎做仿真整个一条龙服务 Google在机器人通用策略上也在持续布局早期的RT-1开源了代码和数据但后续更强大的RT-2以及之后的RT系列就变成闭源模型了并没有对外开放

而最近Google也在加速 2025年发布了Gemini Robotics系列模型还挖来了前波士顿动力首席技术官 Aaron Saunders担任硬件工程副总裁 DeepMind CEO Demis Hassabis 把这个愿景称为是“机器人界的安卓” 做通用的机器人操作系统让Gemini成为各种机器人的“大脑” 在2026年的CES上波士顿动力和Google DeepMind 宣布了战略合作

将Gemini Robotics模型整合到Atlas人形机器人中联合研究即将在两家公司的实验室展开 Google从开源到闭源再到想要打造“机器人界的安卓” 这个赛道转换有点快、野心有点大但是它绝对是机器人行业的最重要玩家我们也拭目以待它的下一步动态好我们接着来说另外一个派别

就是创业公司和中国玩家中国在开源具身智能领域的参与正在加速而且态势正在从单纯的“跟跑” 向“参与定义规则”转变小米在2月12号刚发布的 Xiaomi-Robotics-0 47亿的参数用MoT混合架构把“大脑”和“小脑”分开改善了VLA模型普遍存在的推理延迟问题

模型开源在消费级GPU上就能跑蚂蚁集团的LingBot-VLA走了另一条路强调跨形态泛化这个模型在9种不同的双臂机器人上预训练了2万多小时的真机数据目标是做到 “一个大脑控制所有类型的机器人” 有点像我们之前提到的 “通用机器人策略”路线清华AIR和上海AI实验室联合推出的X-VLA

刷新了五大仿真基准代码、数据、权重全部公开可以说是学术界最彻底的开源范本之一了星海图开源了真机数据集以及旗下最新的G0 Plus VLA模型智元机器人的GO-1 已经部署到了真机上执行任务星动纪元的ERA-42也在探索自己的路线另外自变量机器人是一家聚焦于通用机器人“大脑“研发的

中国具身智能创业公司 CTO王昊在之前与《硅谷101》播客的采访中就谈到了开源的初衷其实我们这次也是持续地发扬开源精神也包含了吸收了很多经验所以我们这次也是用了大概几万小时的真实世界的数据我们基于已经预训练好的基础的视觉语言模型去做扩展让它具备比较强的视觉理解、空间推理

多语言的指令遵循能力同时它动作的精度也比较高我们也希望我们这次开源能够对具身智能上面有一个比较好的补充而在硅谷的初创公司当中我们采访了由斯坦福教授 Jan Liphardt创立的OpenMind 他在接受我们采访的时候就说希望为不同厂商的人形机器人构建一个通用的软件层 OpenMind推出的OM1平台强调开源与跨硬件兼容

希望打破当前机器人系统各自封闭的局面让不同设备可以共享能力与生态他们也从一开始就以开源为核心理念来打造具身智能平台代表了一种纯粹的开源路线我们真正想做的是让任何人、在任何地方都能轻松打造出能够完成各种有用任务的机器人而这一切

只需要通过修改提示词就可以实现最后一个派系我们来说一下目前开源界最受瞩目的模型π₀ 它来自Physical Intelligence这家公司这是一家2024年才成立但来头极大的公司 π₀是Physical Intelligence推出的VLA模型属于数十亿参数级别 π₀代表的是另一条思路把“连续控制”做到极致

在动作生成部分 π₀使用了Flow Matching 也就是流匹配思路直接生成连续的关节轨迹这意味着模型输出的是一段平滑的控制信号 Physical Intelligence研究员也是π₀ π₀.₅的论文作者柯丽一鸣

也是π₀ π₀.₅的论文作者柯丽一鸣在接受《硅谷101》播客采访的时候就告诉我们 π₀控制频率大约是50Hz 也就是每秒更新约50次的动作这种高频连续控制带来了一个质的飞跃 π₀能做折纸、玩扑克牌这种需要极高精度的任务而这些都是OpenVLA和Octo很难胜任的

当时是有一些内部的讨论说要不要再多一点和短一点但是可能对我们来说更重要的是想让模型一口气输出一个长度大概在1秒左右的计划这个1秒刚好是50步 50赫兹所以是这么一个选择从设计理念上来看 π₀更强调“控制质量”和“动作连续性”

相比把动作当作语言Token预测它更接近传统控制系统的形式只不过控制信号由大模型生成这一选择带来的好处是在折叠衣物、抓取柔性物体操作细小零件等任务当中动作能更加流畅减少了抖动和迟滞同时 π₀的代码与权重通过OpenPI项目对外开放

使研究社区可以在它的基础上复现与扩展这种做法在商业公司中并不常见也成为开源阵营的重要力量更令人关注的是π₀的迭代节奏初版论文发布后不久 Physical Intelligence通过OpenPI项目公开了模型权重与代码随后数月内团队陆续发布更新版本持续改进泛化能力和控制稳定性随后是引入了强化学习机制

以进一步优化策略表现同时强调在开放环境中的适应能力在机器人领域这种快速迭代与持续公开更新并不常见这也成为π₀受到关注的重要原因之一把π₀.₅这个模型放到一个移动机器人

把π₀.₅这个模型放到一个移动机器人把这个移动机器人再放到不同的没有见过的别人的家里去看一看它在这个从来没有见过的就不在数据集里面模型都不知道会怎么反应的地方会怎么做也是有一些发现觉得还是比较有希望的因为它做的这个事儿不说是完美的但是它好像展现出了

有一点像人类一般的拿一个东西其实你到别人家你还是能拿不同阵营背后的主导核心人物也并非对立关系他们的关系紧密且错综复杂而更有意思的是曾经主导闭源模型的多位顶级科学家后来成为了机器人开源社区的领导者他们又被称为机器人届的“复仇者联盟”

我们接下来带大家梳理一下 OpenVLA来自斯坦福和伯克利的联合团队核心人物就是她这个领域的明星人物 Chelsea Finn 她MIT本科毕业又在伯克利拿到了博士学位师从机器人学习教父级人物 Pieter Abbeel和Sergey Levine 2019年她加入斯坦福任教随后是一路拿奖到手软她同时还是Physical Intelligence的联合创始人

横跨学术和商业两个世界可以说Chelsea Finn一人就串起了开源和闭源阵营的半壁江山在Finn教授以外我们可以看到 OpenVLA的作者名单上除了斯坦福和伯克利的一众研究人员还有丰田研究院、Google DeepMind Physical Intelligence、MIT等等的科学家这说明 OpenVLA并不只是一个

闭门造车的实验室产物 Octo和OpenVLA可以说是“同门师兄弟” 同样来自伯克利由Chelsea Finn 和Sergey Levine的团队联合出品这里再说一下Sergey Levine 他是机器人强化学习领域公认的开创者之一伯克利教授 Google Brain前研究科学家后来也成为了Physical Intelligence的联合创始人和首席科学家他跟Finn是博导和博士生的关系

有趣的是Levine和Finn在Google时期是参与了RT-1、RT-2这些闭源项目离开之后又推动了Octo 与OpenVLA这些开源工作这个领域中的同一批人可以说是既造了闭源的堡垒也打开了开源的大门 PI的创始团队堪称是机器人AI领域的 “复仇者联盟” 联合创始人们各个都是来自学术界或者科技公司的大佬

其中Karol Hausman 是Google DeepMind机器人方向的资深研究科学家也是RT-1、RT-2和SayCan等标志性机器人大模型工作的核心作者之一 Brian Ichter同样来自于Google Brain 深度参与了这些项目的研发是那一代机器人基础模型的重要推动者而Sergey Levine 长期与Google Brain合作在机器人学习和强化学习领域处于世界前沿

是这条技术路线的关键思想源头之一我们前面提到好几次的Chelsea Finn 也是PI的联合创始人之一她也参与了RT系列研究在机器人泛化与自监督学习方向作出了重要贡献在2024年年初这几位参与Google机器人基础模型路线的核心成员陆续地离开了Google 并且共同创办了 Physical Intelligence 简称PI

此外团队成员还包括了前Stripe高管兼知名投资人Lachy Groom 以及前Anduril工程副总裁Adnan Esmail 说白了就是闭源阵营里面最懂技术的这么一帮人决定跳出来换一种方式去做事但是π₀的身份很“纠结” 它来自一家刚成立融资就超过了10亿美元估值56亿美元的商业公司

那么这样的一家公司为什么要把最核心的模型给开源呢这就要说到我们的第二个核心问题就是“真”开源和“假”开源刚才我们看了几类模型的技术路线和能力但是如果你想一想学院派开源很好理解英伟达和Google实际上是在提前布局标准还有控制生态这也能够理解

但是π₀是一家融资超过10亿美元的商业公司做的它花了大量人力物力训练出来的模型为什么要免费地送给全世界那我们就从π₀的母公司 Physical Intelligence开始拆解 Physical Intelligence 2024年才成立投资人包括Jeff Bezos、OpenAI Sequoia Capital、Khosla Ventures等等 2024年11月又融了4亿美元

2025年11月又融了6亿美元估值是达到了56亿美元一家这么有钱的公司为什么要把核心模型免费给放出来呢答案是这可能是Physical Intelligence 最有“心机”的商业策略第一开源建立标准当全世界的机器人开发者无论是学术实验室还是创业公司或者是工业客户

如果都在π₀的框架上去建立应用那么PI就成了事实标准的定义者别人的每一次使用都是在巩固π₀的生态地位第二开源吸引人才最优秀的研究者想去能够发论文想去影响行业的地方那么PI开源π₀之后他们的OpenPI GitHub仓库就成了机器人领域最热的项目之一了

这比任何招聘广告都有效第三就是开源加速数据飞轮社区使用你的模型发现问题、做出改进、贡献数据这些都回流给PI 让下一代模型更强我觉得能和业界社区分享一下这个模型并且最好能够帮助到大家很快地上手

可能也是在变相地降低机器人模型研究的一个入门门槛其实在公司内部开源它也是一种过程就是从决定要开源然后抽调大家刚刚做完发表就去重构这个代码然后做测试再和社区的一些人沟通说能不能跑得起来它不比一般工作简单但是真的能够看到模型在一些

我们自己都没想到的机器人上面跑起来了然后别人拿它做很多不同的实验还是很开心的我觉得现在这种开源的氛围大家都很乐意去开源是很好的但要注意 π₀不是100%的开源模型权重和推理代码公开了但是完整的训练PipeLine 和PI内部采集的数万小时专有数据没有公开这是一种精心设计的

“开源引流闭源变现”的策略也就是用开源模型吸引开发者进入你的生态用闭源的数据和训练能力保持竞争优势也就是说社区可以用它的模型但是想要最好的版本还得来找它我们前面提到英伟达不只给了模型GR00T N1 还给了整套的生态包括生成合成训练数据的工具

还有物理引擎等等听上去非常的“开放”对吧但有人说GR00T N1是“伪开源” 这是为什么呢因为模型虽然开放了但是你看训练深度绑定英伟达的硬件生态用H100集群训练在Omniverse平台上做仿真用Isaac Sim生成合成数据最后部署在Jetson Thor芯片上你发现了啥问题吗

整个流程都在英伟达的生态里面对比纯粹的社区开源比如说OpenVLA和Octo没有任何硬件绑定没有生态锁定在任何的GPU上面都能跑这也许是“开放”和“开源” 之间的根本区别但行业如此早期也许根本没有什么选择是正确或者错误的学术开源追求的是知识共享和科学可复现性

商业开源追求的是生态控制和市场标准而战略开放追求的是平台锁定和硬件销售 AI的研究我觉得跟大模型之前有很大不一样过去我们可以看到研究其实是非常离散的在真正形成一个社区之前可能研究的就是两三个人大家疯狂地做一个算法可能就是以论文发表作为第一要务要占据这个技术的主动权

但有了这个社区有了整个开源体系之后大家更在乎的是说我们怎么在一个工程化的体系下把这个工程基础打好怎么能够把这个事情做得更加繁荣我是通过什么方式能够给社区做贡献他的荣誉反而来自于这样的事情这样就会促使你的技术不停地往前发展所以我觉得开源是一个非常好的事情既可以从开源里学习到新的东西也可以看到

你开源的东西可能会对别人有些帮助前面我们说了开源模型有多厉害谁在做、为什么做但是还有一个根本问题没有回答我们看特斯拉有自己的工厂自己的机器人、自己的数据闭环英伟达有全世界最强的算力谷歌是汇聚了最顶尖的人才开源社区这一帮大学教授还有创业团队

凭什么能够去跟这些巨头掰手腕呢答案是生态单看任何一个开源模型都不如闭源巨头但模型、数据、工具三层生态叠加形成的“组合拳”力量就让故事不一样了要让一台人形机器人表现良好

软件和硬件之间必须进行非常精细的协同哪怕是一些看起来很基础的问题比如不同类型的传感器、电压管理电压调节器、散热控制、系统稳定性等等这种协同必须非常紧密

但根据我从不同机器人公司听到的情况如果一家公司在完全封闭的环境里独自开发技术往往会遇到一个问题那些只在自己实验室里构建从未经过外部验证的技术其实很难真正落地使用不点名地说我听说有一家非常知名的公司

为人形机器人自研芯片听起来这当然是个很棒的想法他们甚至掌握了完整的芯片架构但问题在于因为没有其他人参与使用和测试这套架构实际上存在大量bug 也就是说闭源看似安全但是没有社区帮你去测试和改进反而有可能变成一个人闷头造车

而目前开源生态形成了以下几个优势第一就是数据集好我们前面提到 OpenVLA横空出世就是用了Open X-Embodiment的数据集 Open X-Embodiment 是开源阵营最宝贵的优势一个跨平台跨实验室的机器人数据公共资源它的规模和组织方式在机器人领域前所未有

超过20个研究机构共同贡献包括斯坦福、伯克利、MIT、CMU Google DeepMind等顶级实验室 22种不同的机器人本体从单臂机械臂到双臂协作从桌面操作到移动导航再到人形机器人超过100万条真实轨迹覆盖527种技能这是一个什么概念呢特斯拉的数据可能更大

但是全是Optimus一种机器人在特斯拉环境里面的数据 Figure的数据也只有Figure 01和02的操作而Open X-Embodiment 是几十种不同形态的机器人在厨房、实验室、仓库、办公室等等完全不同的场景里采集的数据那为什么数据的多样性比数据量更重要呢用训练RT-X模型的实验结果来说明

RT-1-X在小数据域的表现比单独训练的模型高了50% RT-2-X甚至涌现出了原模型没有的空间推理能力是RT-2的3倍能够理解“on”和“near” 这种细微的语言差异这意味着它开始理解语言中的空间语义知道“on”意味着物体之间要建立接触和支撑关系而“near”只是空间邻近

除此之外它还能够执行训练时从未见过的技能组合这直接证明了只要数据够多样就算模型不是最大的性能也能够大幅度提高在π₀的时候我们当时做了一个比较简单的统计说π₀使用的数据其实比之前谷歌研究院他们收的加在一起还要多即使π₀发表的时候

π还是一个很年轻的刚刚初创的企业我觉得其实这是说明了两件事第一个就是那个时间点采集的数据量确实是非常大而且之后其实也一直有在往里面增加数据而数据的成本以及数据的量我觉得是在实时变化的在最早的时候可能谷歌研究院的大家在最开始探索的时候要花很大的功夫才收到这么一些数据

和后来渐渐的他们有了经验或者更多的人都有经验以后再π收其他公司收就会越来越简单成本应该也是能够得到控制和降低的更值得一提的是数据格式的标准化贡献以前最头疼的问题就是每个实验室的数据格式都不一样伯克利是一种格式斯坦福是另外一种格式 MIT又是第三种

想用多个数据集一起训练先花几个月写转换代码而Open X-Embodiment 定义了统一的数据格式涵盖视觉观察、本体感知动作序列和语言注释所以在产业中有了一个统一的标准这个就很重要再说一句数据的问题因为这是目前机器人领域最大的挑战我们嘉宾之间的分歧也很大一派就认为

大语言模型已经包含了足够的物理常识只是需少量机器人数据微调而另外一派认为物理世界的细节必须用真实的机器人数据来学习互联网视频是远远不够的这里面的技术和门道可以挖得蛮深不同的任务、不同的精度要求需要不同的数据策略所以关于数据我们之后还会单独去做一期机器人系列的深度内容

大家别忘了关注我们《硅谷101》的频道不要错过我们的更新好那我们就继续聊聊开源生态的优势接下来我们来看一下工具层而光有数据还不够还需要工具把数据变成可以训练的模型这就是LeRobot和Genesis的角色 LeRobot是Hugging Face 从特斯拉挖来的工程师 Remi Cadene带队打造的开源项目

Cadene之前在特斯拉参与过Autopilot 和Optimus人形机器人项目他带着这些经验来到Hugging Face 目标是让训练机器人像训练语言模型一样简单 LeRobot是做了三件关键的事第一是定义了LeRobotDataset 统一数据格式第二是一键集成了多种主流策略模型你不需要去读论文改代码

直接调用就可以第三是打通了数据采集、模型训练到真实机器人部署的整个全流程以前这三步可能需要三套不同的工具链 LeRobot的GitHub已经超过了2万星成为了开源机器人训练的标准之一但是Hugging Face的野心不止于软件 2025年他们收购了法国的Pollen Robotics 推出了7万美元的Reachy 2

开源人形机器人已经在康奈尔和CMU等顶尖实验室使用还推出了250美元的 Reachy Mini桌面机器人更早之前他们和The Robot Studio 合作推出了SO-100机械臂成本只要100美元任何人都可以在家3D打印DIY一个由此可见 Hugging Face 正在把硬件加软件加社区“打包”

构建一个完整的开源机器人生态而2024年12月发布的Genesis 则是尝试优化仿真训练的问题这是由CMU卡内基梅隆大学主导联合MIT、斯坦福、英伟达等 20多个研究实验室共同参与的开源项目只需要在仿真中运行数小时就能够生成相当于现实世界中多年训练的样本数据

大幅度降低了训练时间和硬件成本比如说Genesis号称在一张RTX 4090显卡上模拟一个Franka机械臂的速度是每秒4300万帧这是实时速度的43万倍也就是说在Genesis里面训练1小时相当于在真实世界里面训练超过49年这带来的改变是以前只有大公司能够负担的

大规模仿真训练现在一个研究生在家用一张消费级显卡就能做到了值得注意的是英伟达也和Google DeepMind Disney Research联合开发了一个开源物理引擎Newton 跟Genesis形成了直接的竞争所以仿真工具领域本身也是一个充满竞争的领域但无论如何一部分勋章应该要给到Hugging Face的

LeRobot管真实世界学界主导的Genesis管虚拟世界两个工具一起把“训练机器人”的门槛从百万美元降到了几百美元总结一下模型、数据、工具这三层叠加就是开源阵营的“组合拳” 你单看任何一层开源都不如闭源巨头论人才密度和算力不如谷歌论数据量不如特斯拉

论工具链的完整度肯定不如英伟达但是这三层联动产生的化学效应释放出了巨大的能量一个研究者可以用Open X-Embodiment数据在LeRobot框架上训练OpenVLA 用Genesis做仿真验证然后部署到100美元的SO-100机械臂上整个流程全部开源、全部免费全部可以复现

这里有一个很关键的观察在大语言模型领域开源是追赶者我们看闭源的OpenAI、Anthropic 还有Google先行开源后追晚一到两代但在机器人领域开源和闭源几乎是同时起跑的 OpenVLA在2024年6月就击败了RT-2-X 这个时间差的原因也很简单

机器人还在非常早期的阶段没有任何一家公司建立了压倒性的数据或者算法优势这是开源难得的“公平竞赛”窗口如果错过了这个窗口等闭源公司积累了足够的数据飞轮那么开源可能就很难追上了而且开源和闭源之间的边界远比想象中的更模糊 RT-2-X是谷歌的闭源模型

但它的训练数据有一部分来自Open X-Embodiment 这个开源数据集 Chelsea Finn同时是Octo 这个开源项目的核心作者也是RT系列闭源工作的推动者还是PI的联合创始人而英伟达的GR00T N1介于开源和闭源之间所以这场竞争不是两个阵营的对决而是一个光谱上的多方博弈而说到底开源vs闭源

表面上是技术路线之争本质是生态之争争的还是谁来定义机器人行业的基础设施层互联网本身就是建立在开源代码之上的 Android也是开源的当然有些公司希望掌控一切从软件到硬件再到云服务比如苹果苹果非常优秀

但我们也看到像三星、Google这样的公司同样体量巨大却很乐于使用开源软件来构建自己的手机系统他们选择使用开源软件其实很简单每家公司都必须决定自己的时间和资金应该投入在哪里但对于生态来说

必须要直面一个现实开源面临的挑战依然很大首先是算力门槛虽然有Octo这样的轻量模型但训练一个顶级开源模型依然需要不小的投入 OpenVLA用了64张A100跑了15天这跟特斯拉还有谷歌的算力相比简直就是小巫见大巫了

但是对于普通研究者来说依然是一笔不小的开支其次是数据质量 Open X-Embodiment虽然大但是不同来源的数据标注标准参差不齐有的实验室标注得非常细致有的就比较粗糙了你看特斯拉的数据可能就在多样性上不如开源但是在一致性上肯定是更强的

毕竟都是同一套系统去采集的第三是工程化差距开源模型在论文里面表现出色但是从DEMO到产品之间是有一道巨大的鸿沟在的闭源公司有完整的工程团队去做优化、做测试、做售后开源社区更加擅长创新探索但是把一个模型打磨成稳定可靠的商业产品

往往是需要闭源公司去完成的第四就是安全问题如果人人都能够训练机器人如何防止被用于危险用途呢物理世界的AI比虚拟世界的大语言模型其实风险会更高一些聊天机器人说错话最多就是尴尬但是物理机器人做错动作可能就会造成伤害 OpenMind的Jan Liphardt

就提出了一个大胆的方案我们把规则写进以太坊区块链我们这样做的原因是以太坊是不可变的不能被改变当机器变得聪明时我们应该预料到机器可能会试图隐藏它们在做什么

或者想改变历史或者想要比它们应该拥有的更多的控制权在这种情况下将规则写在公共场所不能被更改的地方是非常重要的作为额外的安全措施用区块链来约束机器人行为这个想法很是前卫

但是确实在业界也是引发了一些争议但是它至少说明开源社区正在认真地思考安全问题那么开源能发展到什么样的程度自变量CTO王昊给出了一个时间线的预测现在由于我们明确地知道而且我们看到了这种规模化带来的提升所以对于我们来讲我们的路径和目标更加明确也更加唯一

所以我的预测会在一到两年的时间我们完全可以达到GPT-3的水平 GPT-3的水平意味着什么呢意味着机器人会从“能完成简单指令” 跳跃到 “能够理解复杂意图并且灵活执行” 这将会是一个分水岭在大语言模型LLM的时代我们见证了OpenAI 从“开放”走向“封闭” 一个以“Open”命名的公司

变成了一家市值千亿的闭源商业帝国在机器人时代同样的故事可能重演但也有可能不会因为机器人领域有一个大语言模型时代没有的东西那就是从一开始就足够强大的开源生态最后 OpenMind创始人Jan Liphardt 从一个父亲的角色解释了为什么他会支持开源

这个回答也还蛮有人味儿的因为我是一个父亲我有两个孩子如果我去想象未来的世界是什么样子我不希望有一天他们打开家门一台人形机器人站在门口说你好我是你的新机器人

但我运行的系统你无权查看像机器人这样重要的技术必须是公开透明的我相信透明本身就会带来更高的安全性我希望我的孩子能够给身边的机器人添加功能能够参与到这个世界的建设中而不是只能买回一个盒子里的产品

打开之后它自己展开然后告诉你我已经设置好了但我的工作方式是保密的这归根到底关乎信任也关乎安全而作为一家创业公司我们也发现社会对这种开放透明的期待比我们最初预想的还要强烈以上就是具身智能开源模型生态的现状了我们这个视频是详细聊了四个派系

学院派、巨头包括了中国公司在内的创业派以及我们单独拎出来讲的 Physical Intelligence 我们可以看到大家出于不同的目的在不同的程度上参与了开源生态的搭建但是确定的是这样的生态正在帮助我们进一步去突破技术和创新的边界以上就是这期视频的全部内容了你们的留言、点赞和转发

是支持我们《硅谷101》做好深度科技和商业内容的最佳动力我是陈茜那我们就下期视频再见了拜

Loading...

Loading video analysis...