Physical Intelligence与机器人开源革命:“免费大脑”背后的四派力量与博弈【机器人系列】
By 硅谷101
Summary
Topics Covered
- 70亿参数打败550亿:开源小模型的制胜架构
- 真开源引流闭源变现:商业公司的开源心机
- 数据多样性比数量重要:开源数据集的独特优势
- 开源组合拳:三层生态叠加的能量释放
- 一到两年达到GPT-3水平:机器人智能的分水岭预测
Full Transcript
为什么机器人行业有这么多开源模型 这是做慈善还是钱太多烧得慌 为什么机器人开源模型能够打败谷歌 这背后是谁在下怎么样的一盘大棋呢 2月前后 小米、蚂蚁、阿里达摩院、宇树 纷纷发布机器人开源模型 再往前 英伟达在CES上 发布了GR00T N1.6 把自家号称 “世界首个开放人形机器人基础模型”
又再度升级 我们不仅开源了模型 还开源了用于训练这些模型的数据 这些个消费电子公司 互联网巨头 还有芯片帝国 最近都一股脑地 把机器人的“大脑”拿出来 免费给全世界用 机器人开源模型的生态当中 有什么样的心机 和万亿美元押注的博弈呢 Hello 大家好
欢迎来到《硅谷101》 我是陈茜 这个视频我们就来继续聊聊机器人系列 之前我们机器人“闭源模型”那期 分析了如今具身智能通用的VLA模型 拆解了特斯拉、Figure 这些闭源巨头的不同路线 以及它们如何用硬件和数据优势 构筑护城河 而这个视频 我们与全球顶尖 具身智能实验室的研究人员深聊之后
来扒一扒开源算法路线中的核心玩家 和关键的技术领军人物们 同时我们来试图回答这三个问题 第一 这些开源模型 分别走了什么样的技术路线 为什么能够挑战巨头 第二 开源的动机是什么 什么是“真”开源 什么是“假”开源 第三 开源模型生态是什么样子的 面对特斯拉这样的竞争对手
开源社区拿什么来打 那么接下来的视频 我们就来试图回答这些问题 在开源模型派别中 VLA模型依然是主流 简单来说 就是让机器人“看到”周围环境 “听懂”你的指令 然后“做出”正确的动作 目前开源VLA模型大致可以分为四股力量 第一是学院派 参数不大 但能以小博大
代表模型是OpenVLA和Octo 第二是巨头生态派 不只做模型 还布局整套工具链 代表是英伟达的GR00T N1 和谷歌的Gemini Robotics 第三是创业公司与中国力量 包括自变量、OpenMind、小米、蚂蚁等等 第四是技术极致派 追求极度精度和泛化能力 代表模型是Physical Intelligence的π₀
这几个派别都非常的重要 首先我们来说说学院派 OpenVLA的一战成名发生在2024年的6月 这个只有70亿参数的开源模型 在29项机器人操作任务中 全面击败了“顶流” 谷歌DeepMind的RT-2-X RT-2-X有550亿的参数 是OpenVLA的8倍大
背后站着整个谷歌的算力和数据资源 但结果是 OpenVLA的成功率 比RT-2-X高出16.5% 那OpenVLA凭什么以小博大呢 凭的是一个很聪明的架构设计 两个视觉编码器加大语言模型 对于谷歌RT-2-X 因为它只用了一个视觉编码器 你可以想象成一个超聪明 但什么都自己做的人
能力很强 但是信息处理效率更低 而OpenVLA用了两个视觉编码器 相当于有了“两双眼睛” 第一双眼睛叫做“DINOv2” 负责理解空间关系 第二双眼睛叫做“SigLIP” 专门理解语义和常识 然后再由当时的开源大语言模型 Llama2充当“大脑” 把空间信息和语义信息融合起来 处理指令和推理 简单来说
OpenVLA像一个三人小团队协同作战 把两类信息物理隔离、各自优化 再统一决策 整体反而更强 这突然让我想到一句话 “三个臭皮匠 顶个诸葛亮” 大家大概可以这么理解 但这个架构证明了 在具身智能领域 单纯的“大”并不代表聪明 OpenVLA还有一个数据集的优势 叫做“Open X-Embodiment”
这也是开源生态的一个非常厉害的优势 我们这里先留一个悬念 一会儿详细来讲 另外 OpenVLA还在动作表示方式 和训练策略上做了优化 所以它这次对谷歌的胜利靠的就是 “数据+架构+训练策略”的一个综合结果 而且 OpenVLA在胜出之后彻底开源
代码、模型权重、训练脚本全部公开 这样的开放姿态让整个行业都非常兴奋 开始各种后续的优化、推理、加速和微调 这就是一个非常典型的开源故事 能够用创新的方式去“以小博大” 然后撬动整个技术领域的后续工作 我们再来说说另外一个 比较典型的开源路线“Octo”
如果说OpenVLA代表“规模化开源” 那么Octo就是“普及型开源” 这是啥意思 我们知道 机器人算法的“泛化性” 是个很大的挑战 之前的标准做法是需要针对特定的机器人 用特定的数据集来训练策略 但你换一个机器人、换一个环境 就要全部去重新来训练 而一些开源社区的大牛们
就希望去实现“通用机器人模型” 也就是说通过比如说Zero-Shot这样的技术 将模型扩散到广泛的机器人和场景当中去 这样的路径被称为是“通用机器人策略” 而Octo就是其中的代表 Octo只有数千万参数 比OpenVLA的规模更小 它是一个基于Transformer的扩散策略模型 设计强调灵活性和可扩展性
支持多种机器人平台和传感器配置 并能够通过微调 快速适应新的观察和动作空间 这使得Octo可以广泛应用于 不同的机器人学习场景 Octo的定位不是最强 而是人人可用 希望给开源社区去提供一个更轻量 可以快速适配的通用策略基础模型
接下来我们再来说一下开源生态的巨头们 特别是英伟达和谷歌 2025年3月的GTC大会上 黄仁勋亲自站台发布了GR00T N1 号称世界首个开放人形机器人基础模型 到2026年1月的CES上 已经迭代到了N1.6版本 GR00T N1采用双系统架构 一个基于视觉语言模型的“System 2” 负责慢思考 理解环境
解读指令 作出规划 一个基于扩散Transformer的“System1” 负责快思考 以高频率把规划转化为精确的关节动作 两个系统端到端联合训练 紧密耦合 22亿的参数、模型权重和代码都公开了 不少头部人形机器人公司 都获得了早期使用权 而且英伟达不止给模型 还给了整套生态
用Omniverse做数字孪生 用Isaac Sim生成合成训练数据 用Cosmos生成视频数据 用Newton物理引擎做仿真 整个一条龙服务 Google在机器人通用策略上也在持续布局 早期的RT-1开源了代码和数据 但后续更强大的RT-2以及之后的RT系列 就变成闭源模型了 并没有对外开放
而最近Google也在加速 2025年发布了Gemini Robotics系列模型 还挖来了前波士顿动力首席技术官 Aaron Saunders担任硬件工程副总裁 DeepMind CEO Demis Hassabis 把这个愿景称为是“机器人界的安卓” 做通用的机器人操作系统 让Gemini成为各种机器人的“大脑” 在2026年的CES上 波士顿动力和Google DeepMind 宣布了战略合作
将Gemini Robotics模型 整合到Atlas人形机器人中 联合研究即将在两家公司的实验室展开 Google从开源到闭源 再到想要打造“机器人界的安卓” 这个赛道转换有点快、野心有点大 但是它绝对是机器人行业的最重要玩家 我们也拭目以待它的下一步动态 好 我们接着来说另外一个派别
就是创业公司和中国玩家 中国在开源具身智能领域的参与正在加速 而且态势正在从单纯的“跟跑” 向“参与定义规则”转变 小米在2月12号刚发布的 Xiaomi-Robotics-0 47亿的参数 用MoT混合架构 把“大脑”和“小脑”分开 改善了VLA模型普遍存在的推理延迟问题
模型开源 在消费级GPU上就能跑 蚂蚁集团的LingBot-VLA走了另一条路 强调跨形态泛化 这个模型在9种不同的双臂机器人上 预训练了2万多小时的真机数据 目标是做到 “一个大脑控制所有类型的机器人” 有点像我们之前提到的 “通用机器人策略”路线 清华AIR和上海AI实验室 联合推出的X-VLA
刷新了五大仿真基准 代码、数据、权重全部公开 可以说是学术界最彻底的开源范本之一了 星海图开源了真机数据集 以及旗下最新的G0 Plus VLA模型 智元机器人的GO-1 已经部署到了真机上执行任务 星动纪元的ERA-42也在探索自己的路线 另外 自变量机器人是一家 聚焦于通用机器人“大脑“研发的
中国具身智能创业公司 CTO王昊在之前 与《硅谷101》播客的采访中 就谈到了开源的初衷 其实我们这次也是持续地发扬开源精神 也包含了 吸收了很多经验 所以我们这次也是用了 大概几万小时的真实世界的数据 我们基于已经预训练好的 基础的视觉语言模型去做扩展 让它具备比较强的视觉理解、空间推理
多语言的指令遵循能力 同时它动作的精度也比较高 我们也希望我们这次开源 能够对具身智能上面有一个比较好的补充 而在硅谷的初创公司当中 我们采访了由斯坦福教授 Jan Liphardt创立的OpenMind 他在接受我们采访的时候就说 希望为不同厂商的人形机器人 构建一个通用的软件层 OpenMind推出的OM1平台 强调开源与跨硬件兼容
希望打破当前机器人系统各自封闭的局面 让不同设备可以共享能力与生态 他们也从一开始就以开源为核心理念 来打造具身智能平台 代表了一种纯粹的开源路线 我们真正想做的 是让任何人、在任何地方 都能轻松打造出 能够完成各种有用任务的机器人 而这一切
只需要通过修改提示词就可以实现 最后一个派系 我们来说一下 目前开源界最受瞩目的模型π₀ 它来自Physical Intelligence这家公司 这是一家2024年才成立但来头极大的公司 π₀是Physical Intelligence推出的VLA模型 属于数十亿参数级别 π₀代表的是另一条思路 把“连续控制”做到极致
在动作生成部分 π₀使用了Flow Matching 也就是流匹配思路 直接生成连续的关节轨迹 这意味着模型输出的 是一段平滑的控制信号 Physical Intelligence研究员 也是π₀ π₀.₅的论文作者柯丽一鸣
也是π₀ π₀.₅的论文作者柯丽一鸣 在接受《硅谷101》播客采访的时候 就告诉我们 π₀控制频率大约是50Hz 也就是每秒更新约50次的动作 这种高频连续控制带来了一个质的飞跃 π₀能做折纸、玩扑克牌 这种需要极高精度的任务 而这些都是OpenVLA和Octo很难胜任的
当时是有一些内部的讨论 说要不要再多一点和短一点 但是可能对我们来说更重要的是 想让模型一口气输出一个长度 大概在1秒左右的计划 这个1秒刚好是50步 50赫兹 所以是这么一个选择 从设计理念上来看 π₀更强调“控制质量”和“动作连续性”
相比把动作当作语言Token预测 它更接近传统控制系统的形式 只不过控制信号由大模型生成 这一选择带来的好处是 在折叠衣物、抓取柔性物体 操作细小零件等任务当中 动作能更加流畅 减少了抖动和迟滞 同时 π₀的代码与权重 通过OpenPI项目对外开放
使研究社区可以在它的基础上复现与扩展 这种做法在商业公司中并不常见 也成为开源阵营的重要力量 更令人关注的是π₀的迭代节奏 初版论文发布后不久 Physical Intelligence通过OpenPI项目 公开了模型权重与代码 随后数月内 团队陆续发布更新版本 持续改进泛化能力和控制稳定性 随后是引入了强化学习机制
以进一步优化策略表现 同时强调在开放环境中的适应能力 在机器人领域 这种快速迭代与持续公开更新并不常见 这也成为π₀受到关注的重要原因之一 把π₀.₅这个模型放到一个移动机器人
把π₀.₅这个模型放到一个移动机器人 把这个移动机器人 再放到不同的没有见过的别人的家里 去看一看它在这个从来没有见过的 就不在数据集里面 模型都不知道会怎么反应的地方 会怎么做 也是有一些发现觉得还是比较有希望的 因为它做的这个事儿 不说是完美的 但是它好像展现出了
有一点像人类一般的拿一个东西 其实你到别人家你还是能拿 不同阵营背后的主导核心人物也并非对立关系 他们的关系紧密且错综复杂 而更有意思的是 曾经主导闭源模型的多位顶级科学家 后来成为了机器人开源社区的领导者 他们又被称为机器人届的“复仇者联盟”
我们接下来带大家梳理一下 OpenVLA来自斯坦福和伯克利的联合团队 核心人物就是她 这个领域的明星人物 Chelsea Finn 她MIT本科毕业 又在伯克利拿到了博士学位 师从机器人学习教父级人物 Pieter Abbeel和Sergey Levine 2019年她加入斯坦福任教 随后是一路拿奖到手软 她同时还是Physical Intelligence的 联合创始人
横跨学术和商业两个世界 可以说Chelsea Finn一人就串起了 开源和闭源阵营的半壁江山 在Finn教授以外 我们可以看到 OpenVLA的作者名单上 除了斯坦福和伯克利的一众研究人员 还有丰田研究院、Google DeepMind Physical Intelligence、MIT等等的科学家 这说明 OpenVLA并不只是一个
闭门造车的实验室产物 Octo和OpenVLA可以说是“同门师兄弟” 同样来自伯克利 由Chelsea Finn 和Sergey Levine的团队联合出品 这里再说一下Sergey Levine 他是机器人强化学习领域 公认的开创者之一 伯克利教授 Google Brain前研究科学家 后来也成为了Physical Intelligence的 联合创始人和首席科学家 他跟Finn是博导和博士生的关系
有趣的是Levine和Finn在Google时期 是参与了RT-1、RT-2这些闭源项目 离开之后又推动了Octo 与OpenVLA这些开源工作 这个领域中的同一批人 可以说是既造了闭源的堡垒 也打开了开源的大门 PI的创始团队堪称是机器人AI领域的 “复仇者联盟” 联合创始人们各个都是来自学术界 或者科技公司的大佬
其中Karol Hausman 是Google DeepMind机器人方向的 资深研究科学家 也是RT-1、RT-2和SayCan等 标志性机器人大模型工作的核心作者之一 Brian Ichter同样来自于Google Brain 深度参与了这些项目的研发 是那一代机器人基础模型的重要推动者 而Sergey Levine 长期与Google Brain合作 在机器人学习和强化学习领域 处于世界前沿
是这条技术路线的关键思想源头之一 我们前面提到好几次的Chelsea Finn 也是PI的联合创始人之一 她也参与了RT系列研究 在机器人泛化与自监督学习方向 作出了重要贡献 在2024年年初 这几位参与Google机器人 基础模型路线的核心成员 陆续地离开了Google 并且共同创办了 Physical Intelligence 简称PI
此外 团队成员还包括了 前Stripe高管兼知名投资人Lachy Groom 以及前Anduril工程副总裁Adnan Esmail 说白了 就是闭源阵营里面 最懂技术的这么一帮人决定跳出来 换一种方式去做事 但是π₀的身份很“纠结” 它来自一家刚成立融资就超过了10亿美元 估值56亿美元的商业公司
那么这样的一家公司 为什么要把最核心的模型给开源呢 这就要说到我们的第二个核心问题 就是“真”开源和“假”开源 刚才我们看了几类模型的技术路线和能力 但是如果你想一想 学院派开源很好理解 英伟达和Google实际上是在提前布局标准 还有控制生态 这也能够理解
但是π₀是一家融资超过10亿美元的 商业公司做的 它花了大量人力物力训练出来的模型 为什么要免费地送给全世界 那我们就从π₀的母公司 Physical Intelligence开始拆解 Physical Intelligence 2024年才成立 投资人包括Jeff Bezos、OpenAI Sequoia Capital、Khosla Ventures等等 2024年11月又融了4亿美元
2025年11月又融了6亿美元 估值是达到了56亿美元 一家这么有钱的公司 为什么要把核心模型免费给放出来呢 答案是 这可能是Physical Intelligence 最有“心机”的商业策略 第一 开源建立标准 当全世界的机器人开发者 无论是学术实验室还是创业公司 或者是工业客户
如果都在π₀的框架上去建立应用 那么PI就成了事实标准的定义者 别人的每一次使用 都是在巩固π₀的生态地位 第二 开源吸引人才 最优秀的研究者想去能够发论文 想去影响行业的地方 那么PI开源π₀之后 他们的OpenPI GitHub仓库 就成了机器人领域最热的项目之一了
这比任何招聘广告都有效 第三就是开源加速数据飞轮 社区使用你的模型 发现问题、做出改进、贡献数据 这些都回流给PI 让下一代模型更强 我觉得能和业界社区分享一下这个模型 并且最好能够帮助到大家很快地上手
可能也是在变相地降低 机器人模型研究的一个入门门槛 其实在公司内部开源它也是一种过程 就是从决定要开源 然后抽调大家 刚刚做完发表 就去重构这个代码 然后做测试 再和社区的一些人沟通说能不能跑得起来 它不比一般工作简单 但是真的能够看到模型在一些
我们自己都没想到的机器人上面跑起来了 然后别人拿它做很多不同的实验 还是很开心的 我觉得现在这种开源的氛围 大家都很乐意去开源 是很好的 但要注意 π₀不是100%的开源 模型权重和推理代码公开了 但是完整的训练PipeLine 和PI内部采集的数万小时专有数据 没有公开 这是一种精心设计的
“开源引流 闭源变现”的策略 也就是用开源模型 吸引开发者进入你的生态 用闭源的数据和训练能力保持竞争优势 也就是说社区可以用它的模型 但是想要最好的版本 还得来找它 我们前面提到 英伟达不只给了模型GR00T N1 还给了整套的生态 包括生成合成训练数据的工具
还有物理引擎等等 听上去非常的“开放”对吧 但有人说GR00T N1是“伪开源” 这是为什么呢 因为模型虽然开放了 但是你看 训练深度绑定英伟达的硬件生态 用H100集群训练 在Omniverse平台上做仿真 用Isaac Sim生成合成数据 最后部署在Jetson Thor芯片上 你发现了啥问题吗
整个流程都在英伟达的生态里面 对比纯粹的社区开源 比如说OpenVLA和Octo没有任何硬件绑定 没有生态锁定 在任何的GPU上面都能跑 这也许是“开放”和“开源” 之间的根本区别 但行业如此早期 也许根本没有什么选择是正确或者错误的 学术开源追求的是知识共享 和科学可复现性
商业开源追求的是生态控制和市场标准 而战略开放追求的是平台锁定和硬件销售 AI的研究我觉得 跟大模型之前有很大不一样 过去我们可以看到研究其实是非常离散的 在真正形成一个社区之前 可能研究的就是两三个人 大家疯狂地做一个算法 可能就是以论文发表作为第一要务 要占据这个技术的主动权
但有了这个社区 有了整个开源体系之后 大家更在乎的是说 我们怎么在一个工程化的体系下 把这个工程基础打好 怎么能够把这个事情做得更加繁荣 我是通过什么方式能够给社区做贡献 他的荣誉反而来自于这样的事情 这样就会促使你的技术不停地往前发展 所以我觉得开源是一个非常好的事情 既可以从开源里学习到新的东西 也可以看到
你开源的东西可能会对别人有些帮助 前面我们说了开源模型有多厉害 谁在做、为什么做 但是还有一个根本问题没有回答 我们看 特斯拉有自己的工厂 自己的机器人、自己的数据闭环 英伟达有全世界最强的算力 谷歌是汇聚了最顶尖的人才 开源社区这一帮大学教授还有创业团队
凭什么能够去跟这些巨头掰手腕呢 答案是生态 单看任何一个开源模型都不如闭源巨头 但模型、数据、工具三层生态叠加 形成的“组合拳”力量 就让故事不一样了 要让一台人形机器人表现良好
软件和硬件之间必须进行非常精细的协同 哪怕是一些看起来很基础的问题 比如不同类型的传感器、电压管理 电压调节器、散热控制、系统稳定性等等 这种协同必须非常紧密
但根据我从不同机器人公司听到的情况 如果一家公司在完全封闭的环境里 独自开发技术 往往会遇到一个问题 那些只在自己实验室里构建 从未经过外部验证的技术 其实很难真正落地使用 不点名地说 我听说有一家非常知名的公司
为人形机器人自研芯片 听起来这当然是个很棒的想法 他们甚至掌握了完整的芯片架构 但问题在于 因为没有其他人参与使用和测试 这套架构实际上存在大量bug 也就是说 闭源看似安全 但是没有社区帮你去测试和改进 反而有可能变成一个人闷头造车
而目前开源生态形成了以下几个优势 第一就是数据集 好 我们前面提到 OpenVLA横空出世 就是用了Open X-Embodiment的数据集 Open X-Embodiment 是开源阵营最宝贵的优势 一个跨平台 跨实验室的机器人数据公共资源 它的规模和组织方式 在机器人领域前所未有
超过20个研究机构共同贡献 包括斯坦福、伯克利、MIT、CMU Google DeepMind等顶级实验室 22种不同的机器人本体 从单臂机械臂到双臂协作 从桌面操作到移动导航再到人形机器人 超过100万条真实轨迹 覆盖527种技能 这是一个什么概念呢 特斯拉的数据可能更大
但是全是Optimus一种机器人 在特斯拉环境里面的数据 Figure的数据 也只有Figure 01和02的操作 而Open X-Embodiment 是几十种不同形态的机器人 在厨房、实验室、仓库、办公室等等 完全不同的场景里采集的数据 那为什么数据的多样性比数据量更重要呢 用训练RT-X模型的实验结果来说明
RT-1-X在小数据域的表现 比单独训练的模型高了50% RT-2-X甚至涌现出了 原模型没有的空间推理能力 是RT-2的3倍 能够理解“on”和“near” 这种细微的语言差异 这意味着它开始理解语言中的空间语义 知道“on”意味着物体之间 要建立接触和支撑关系 而“near”只是空间邻近
除此之外 它还能够执行训练时从未见过的技能组合 这直接证明了 只要数据够多样 就算模型不是最大的 性能也能够大幅度提高 在π₀的时候 我们当时做了一个比较简单的统计 说π₀使用的数据 其实比之前谷歌研究院他们收的 加在一起还要多 即使π₀发表的时候
π还是一个很年轻的刚刚初创的企业 我觉得其实这是说明了两件事 第一个就是 那个时间点采集的数据量确实是非常大 而且之后其实也一直有在往里面增加数据 而数据的成本以及数据的量 我觉得是在实时变化的 在最早的时候 可能谷歌研究院的 大家在最开始探索的时候 要花很大的功夫才收到这么一些数据
和后来渐渐的 他们有了经验 或者更多的人都有经验以后 再π收 其他公司收就会越来越简单 成本应该也是能够得到控制和降低的 更值得一提的是数据格式的标准化贡献 以前最头疼的问题就是 每个实验室的数据格式都不一样 伯克利是一种格式 斯坦福是另外一种格式 MIT又是第三种
想用多个数据集一起训练 先花几个月写转换代码 而Open X-Embodiment 定义了统一的数据格式 涵盖视觉观察、本体感知 动作序列和语言注释 所以在产业中有了一个统一的标准 这个就很重要 再说一句数据的问题 因为这是目前机器人领域最大的挑战 我们嘉宾之间的分歧也很大 一派就认为
大语言模型已经包含了足够的物理常识 只是需少量机器人数据微调 而另外一派认为 物理世界的细节 必须用真实的机器人数据来学习 互联网视频是远远不够的 这里面的技术和门道可以挖得蛮深 不同的任务、不同的精度要求 需要不同的数据策略 所以关于数据 我们之后还会单独 去做一期机器人系列的深度内容
大家别忘了关注我们《硅谷101》的频道 不要错过我们的更新 好 那我们就继续聊聊开源生态的优势 接下来我们来看一下工具层 而光有数据还不够 还需要工具把数据变成可以训练的模型 这就是LeRobot和Genesis的角色 LeRobot是Hugging Face 从特斯拉挖来的工程师 Remi Cadene带队打造的开源项目
Cadene之前在特斯拉参与过Autopilot 和Optimus人形机器人项目 他带着这些经验来到Hugging Face 目标是让训练机器人 像训练语言模型一样简单 LeRobot是做了三件关键的事 第一是定义了LeRobotDataset 统一数据格式 第二是一键集成了多种主流策略模型 你不需要去读论文改代码
直接调用就可以 第三是打通了数据采集、模型训练 到真实机器人部署的整个全流程 以前这三步可能需要三套不同的工具链 LeRobot的GitHub已经超过了2万星 成为了开源机器人训练的标准之一 但是Hugging Face的野心不止于软件 2025年 他们收购了法国的Pollen Robotics 推出了7万美元的Reachy 2
开源人形机器人 已经在康奈尔和CMU等顶尖实验室使用 还推出了250美元的 Reachy Mini桌面机器人 更早之前 他们和The Robot Studio 合作推出了SO-100机械臂 成本只要100美元 任何人都可以在家3D打印DIY一个 由此可见 Hugging Face 正在把硬件加软件加社区“打包”
构建一个完整的开源机器人生态 而2024年12月发布的Genesis 则是尝试优化仿真训练的问题 这是由CMU卡内基梅隆大学主导 联合MIT、斯坦福、英伟达等 20多个研究实验室共同参与的开源项目 只需要在仿真中运行数小时就能够生成 相当于现实世界中多年训练的样本数据
大幅度降低了训练时间和硬件成本 比如说Genesis号称 在一张RTX 4090显卡上 模拟一个Franka机械臂的速度 是每秒4300万帧 这是实时速度的43万倍 也就是说在Genesis里面训练1小时 相当于在真实世界里面训练超过49年 这带来的改变是 以前只有大公司能够负担的
大规模仿真训练 现在 一个研究生在家 用一张消费级显卡就能做到了 值得注意的是 英伟达也和Google DeepMind Disney Research联合开发了一个 开源物理引擎Newton 跟Genesis形成了直接的竞争 所以仿真工具领域本身 也是一个充满竞争的领域 但无论如何 一部分勋章应该要给到Hugging Face的
LeRobot管真实世界 学界主导的Genesis管虚拟世界 两个工具一起 把“训练机器人”的门槛 从百万美元降到了几百美元 总结一下 模型、数据、工具 这三层叠加就是开源阵营的“组合拳” 你单看任何一层 开源都不如闭源巨头 论人才密度和算力 不如谷歌 论数据量 不如特斯拉
论工具链的完整度 肯定不如英伟达 但是这三层联动产生的化学效应 释放出了巨大的能量 一个研究者 可以用Open X-Embodiment数据 在LeRobot框架上训练OpenVLA 用Genesis做仿真验证 然后部署到100美元的SO-100机械臂上 整个流程全部开源、全部免费 全部可以复现
这里有一个很关键的观察 在大语言模型领域 开源是追赶者 我们看闭源的OpenAI、Anthropic 还有Google先行 开源后追 晚一到两代 但在机器人领域 开源和闭源几乎是同时起跑的 OpenVLA在2024年6月就击败了RT-2-X 这个时间差的原因也很简单
机器人还在非常早期的阶段 没有任何一家公司建立了压倒性的 数据或者算法优势 这是开源难得的“公平竞赛”窗口 如果错过了这个窗口 等闭源公司积累了足够的数据飞轮 那么开源可能就很难追上了 而且 开源和闭源之间的边界 远比想象中的更模糊 RT-2-X是谷歌的闭源模型
但它的训练数据 有一部分来自Open X-Embodiment 这个开源数据集 Chelsea Finn同时是Octo 这个开源项目的核心作者 也是RT系列闭源工作的推动者 还是PI的联合创始人 而英伟达的GR00T N1介于开源和闭源之间 所以这场竞争不是两个阵营的对决 而是一个光谱上的多方博弈 而说到底 开源vs闭源
表面上是技术路线之争 本质是生态之争 争的还是谁来定义 机器人行业的基础设施层 互联网本身就是建立在开源代码之上的 Android也是开源的 当然 有些公司希望掌控一切 从软件到硬件 再到云服务 比如苹果 苹果非常优秀
但我们也看到 像三星、Google这样的公司 同样体量巨大却很乐于使用开源软件 来构建自己的手机系统 他们选择使用开源软件 其实很简单 每家公司都必须决定 自己的时间和资金应该投入在哪里 但对于生态来说
必须要直面一个现实 开源面临的挑战依然很大 首先是算力门槛 虽然有Octo这样的轻量模型 但训练一个顶级开源模型 依然需要不小的投入 OpenVLA用了64张A100跑了15天 这跟特斯拉 还有谷歌的算力相比 简直就是小巫见大巫了
但是对于普通研究者来说 依然是一笔不小的开支 其次是数据质量 Open X-Embodiment虽然大 但是不同来源的数据标注标准参差不齐 有的实验室标注得非常细致 有的就比较粗糙了 你看特斯拉的数据 可能就在多样性上不如开源 但是在一致性上肯定是更强的
毕竟都是同一套系统去采集的 第三是工程化差距 开源模型在论文里面表现出色 但是从DEMO到产品之间 是有一道巨大的鸿沟在的 闭源公司有完整的工程团队 去做优化、做测试、做售后 开源社区更加擅长创新探索 但是把一个模型 打磨成稳定可靠的商业产品
往往是需要闭源公司去完成的 第四就是安全问题 如果人人都能够训练机器人 如何防止被用于危险用途呢 物理世界的AI比虚拟世界的大语言模型 其实风险会更高一些 聊天机器人说错话最多就是尴尬 但是物理机器人做错动作 可能就会造成伤害 OpenMind的Jan Liphardt
就提出了一个大胆的方案 我们把规则写进以太坊区块链 我们这样做的原因是 以太坊是不可变的 不能被改变 当机器变得聪明时 我们应该预料到 机器可能会试图隐藏它们在做什么
或者想改变历史 或者想要比它们应该拥有的更多的控制权 在这种情况下 将规则写在公共场所 不能被更改的地方是非常重要的 作为额外的安全措施 用区块链来约束机器人行为 这个想法很是前卫
但是确实在业界也是引发了一些争议 但是它至少说明 开源社区正在认真地思考安全问题 那么开源能发展到什么样的程度 自变量CTO王昊给出了一个时间线的预测 现在由于我们明确地知道 而且我们看到了这种规模化带来的提升 所以对于我们来讲 我们的路径和目标更加明确也更加唯一
所以我的预测会在一到两年的时间 我们完全可以达到GPT-3的水平 GPT-3的水平意味着什么呢 意味着机器人会从“能完成简单指令” 跳跃到 “能够理解复杂意图并且灵活执行” 这将会是一个分水岭 在大语言模型LLM的时代 我们见证了OpenAI 从“开放”走向“封闭” 一个以“Open”命名的公司
变成了一家市值千亿的闭源商业帝国 在机器人时代 同样的故事可能重演 但也有可能不会 因为机器人领域有一个 大语言模型时代没有的东西 那就是从一开始就足够强大的开源生态 最后 OpenMind创始人Jan Liphardt 从一个父亲的角色 解释了为什么他会支持开源
这个回答也还蛮有人味儿的 因为我是一个父亲 我有两个孩子 如果我去想象未来的世界是什么样子 我不希望有一天他们打开家门 一台人形机器人站在门口说 你好 我是你的新机器人
但我运行的系统你无权查看 像机器人这样重要的技术 必须是公开透明的 我相信透明本身就会带来更高的安全性 我希望我的孩子能够 给身边的机器人添加功能 能够参与到这个世界的建设中 而不是只能买回一个盒子里的产品
打开之后它自己展开 然后告诉你 我已经设置好了 但我的工作方式是保密的 这归根到底关乎信任 也关乎安全 而作为一家创业公司 我们也发现 社会对这种开放透明的期待 比我们最初预想的还要强烈 以上就是具身智能开源模型生态的现状了 我们这个视频是详细聊了四个派系
学院派、巨头 包括了中国公司在内的创业派 以及我们单独拎出来讲的 Physical Intelligence 我们可以看到 大家出于不同的目的 在不同的程度上参与了开源生态的搭建 但是确定的是 这样的生态正在帮助我们 进一步去突破技术和创新的边界 以上就是这期视频的全部内容了 你们的留言、点赞和转发
是支持我们《硅谷101》 做好深度科技和商业内容的最佳动力 我是陈茜 那我们就下期视频再见了 拜
Loading video analysis...