全面解析“世界模型”:定义、路线、实践与AGI的更近一步
By 硅谷101
Summary
Topics Covered
- 人类智能源于内部世界模型
- 世界模型三大核心特质
- 大语言模型死路一途
- 世界模型分三层架构
- 世界模型重塑机器人范式
Full Transcript
2026年将会是世界模型全面爆发的一年 World Model 如今的AI看起来似乎“无所不能” 它能写深奥的论文、复杂的代码 做出顶级的画面和视频 但它仍然缺乏理解世界、预测世界 以及在世界里推演并行动的能力 为了解决这个问题 OpenAI 谷歌 微软等大公司
Yann LeCun 李飞飞等顶尖学者 都开始抢着研究同一件事情 那就是 世界模型 很多人认为 随着多模态走向普及和成熟 如果这条技术线完全跑通 它将彻底重塑整个AI格局 但是我们也注意到 “世界模型”的爆火也带来了新的问题 那就是仿佛整个AI圈一夜之间都变成了“世界模型”
做视频生成的是世界模型 做机器人的是世界模型 做自动驾驶的是世界模型 做游戏开发的是世界模型 AR/VR是世界模型 Agent、仿真、训练环境…… 只要跟“世界”沾点边 几乎都是世界模型 它们看起来完全不一样 但现在全都被叫作同一个名字 我觉得这个也是很多人在神化世界模型的地方 其实很多现在世界模型
它就是一个视频模型 业界看到的这个世界模型 其实它更多的是世界模型的表现形式 如果一个世界模型 我们真的已经解决掉了 那我们现在科研的方向似乎就没有意义了 那么 世界模型到底是什么 它跟大语言模型有什么样的区别呢 这些看起来完全不同的路线 是在做同一件事情吗 世界模型的到来 又会给各行各业以及整个社会 带来什么样的改变
以及 它会是人类通往AGI的终极密码吗 大家好 我是《硅谷101》的陈茜 今天这期视频 就让我们一起走进 世界模型 什么是世界模型呢 关于它的定义 其实目前依然还没有一个非常清晰的 被所有人都认可的说法 但是我们可以先来聊一聊 这个概念的起源 以及它究竟想要去解决什么样的事情
那么 先从一个再简单不过的问题开始 你是怎么知道 一杯水放在桌边 它可能会掉下去的呢 科学家们认为 人类之所以能够预测杯子会掉落 门往哪开 球会顺着斜坡滚 是因为从很小的时候 我们就在脑子里面构建了一个 “世界怎么运作”的模型 我们能够预判下一秒会发生什么 能够想象
“如果我这么做 会怎么样” 并且在脑海中提前排演各种可能性 在认知科学中 这被称之为心智模型(Mental Model) 早在上个世纪 科学家们就已经开始研究人类的心智模型 1943年 Kenneth Craik在其著作《解释的本质》中就提出 人在对现实作出反应之前 会先在大脑中构建一个 “小规模的世界模型”
用它来模拟可能发生的过程 再据此选择行动 也就是说 我们每个人脑子里 都有一个看不见的“小世界” 那么既然人类智能依赖于这样的内部世界 很多AI研究者也开始追问说 机器要想具备真正的智能 是否也需要一个属于自己的世界呢 于是 在AI和强化学习的早期研究中
这个思想以不同的名字反复出现 比如在1991年 Richard Sutton、Doina Precup和Satinder Singh 在论文中提出了后来被称为Dyna架构的设计思路 Dyna的核心在于 智能体在学习行动策略的同时 也要学习model of the world 也就是 当我采取某个动作之后 世界会如何变化
这也是第一次将“世界模型”明确确立为 智能体内部的一项基础能力 在此之后 世界模型并没有沿着单一路线发展 而是在不同研究领域中被不断拆解、强化和改写 比如在强化学习和机器人中 它体现为 Forward Model(前向模型) 在自动控制和工业系统中 则发展出了Model Predictive Control
(模型预测控制) 这些理论的名字虽然不同 但是背后其实共享着同一个核心假设 那就是智能体之所以能够做出更好的决策 不是因为反应更快 而是因为它能在行动之前 在内部世界中先“看到未来” 在此后很长一段时间当中 世界模型更多停留在偏理论 偏算法的层面
直到深度学习和表示学习逐渐成熟 在2018年 Google Brain的David Ha 与深度学习元老级教父Jürgen Schmidhuber 共同发表了论文《World Models》 这篇论文正式提出了“世界模型”(World models) 这个精炼化的名称 同时还给出了一个比较简洁的 世界模型理解框架 世界模型等于观察世界(V)
加预测世界(M) 再加在内部世界中学习行动(C) 对应的是视觉(Vision) 记忆(Memory) 和控制(Controller) 三个核心模块 我们用一个简单的例子来解释一下 想象一下 你是一个从未打过乒乓球的新手 当你站在球台前 眼睛接收到的是大量复杂的视觉信息
视觉模块V并不会记住每一个像素 而是会自动地提取出 对决策真正重要的部分 它将原本上百万像素的画面 压缩成仅有几十个数字的精华编码 记忆模块M接收到这些编码之后 便立即开始内部模拟 经过多次练习 你的大脑已经建立起 对乒乓球运动规律的理解
记忆模块就像你内心的“物理引擎” 能够预测 “如果我这样做 会发生什么” 所以 当球飞来的时候 视觉模块提取特征 记忆模块模拟方案 而控制模块C 就主要是在记忆模块M 所创造的“内部世界”中进行训练 你并不需要真的挥拍一百次试错 而是在记忆模块的“梦境”中 找到最佳策略之后
再在现实中只执行一次最优解 而这种“想象 规划 行动”的认知过程 正是人类智能的核心特征 在这篇论文当中 他们也做出了一个有意思的Demo 让模型在完全虚拟的小世界当中 学会了玩一款赛车游戏 证明了AI可以像人类一样 通过内部世界的想象来进行学习 那么 总结下来 世界模型到底是什么呢
研究者们普遍地认为 它们应该具有三大特质 第一 表示世界(Representation) 也就是说 模型能够理解 所处的环境里面有什么 物体在哪儿 以及物与物之间是什么关系 第二是预测未来(Prediction) 它能够对事件进行模拟和生成 如果我推一下杯子 打开一扇门 往前走两步 世界会发生什么样的改变
第三是在世界里 规划和行动(Planning & Control) 能够预测接下来会发生什么之后 我应该如何采取行动 因为它是一个 当你把一个世界 抽象到一个潜在的空间里 它是被压缩过的 然后在这个潜在空间里呢 你能够通过学到的物理规律 然后去做对未来的预测
形成对真实世界的一个模拟器 相当于它是一个模拟系统 有点像是一个缩小的平行宇宙 这感觉就是你如果有一个真正的AI大脑 它将能够 就是它有自己的一个AI的世界观 因为你可以做预测 所以你就可以去做未来的推演 然后你可以做决策 世界模型的本质 就是想让AI从一个 “只会回答问题”的语言机器
走向能够真正像人类一样 “会观察 会推理 会行动”的真正智能体 但是问题来了 作为一个上个世纪就开始被研究的概念 为什么突然在最近一段时间火起来了呢 它跟我们现在所熟悉的大语言模型 又有什么样的区别或是联系呢 让我们把世界模型和大语言模型 来做个对比 从主要任务和预测目标来看
大语言模型的目标是 生成在语言维度上最合理的序列 预测的是下一个词或者token 比如说你问杯子会从桌子上掉下来吗 它回答会 因为这是在无数文本里面出现过的 正确答案 而世界模型的任务是 预测“下一秒世界会变成什么样子” 预测的是下一帧画面 下一步动作 下一次的状态变化
它需要理解物理规律 空间关系 和动态变化 从训练数据上来看 大语言模型主要依赖文本数据 也包括一些图像和视频 数据特点是以静态内容为主 而世界模型则主要依赖视频等动态数据 包括摄像头看到的画面 机器人的传感器反馈 动作的结果 环境的变化
数据特点是动态的 时序性的 从输出的结果来看 大语言模型输出的是语言 或者图像等内容 世界模型输出的是对未来状态的预测 对行为的模拟 以及可执行的行动方案 从学习方式来看 大语言模型是通过语言间接理解世界 更像是一个“知识容器” 而世界模型
是通过交互和推演直接理解世界 不仅能“看见” 还能“预测”和“干预” 因此 大语言模型更适合 对话 写作 翻译 问答 而世界模型对应的 则是机器人 自动驾驶 物理模拟和决策系统 这些必须进入真实世界的任务 此前 李飞飞也曾经在采访当中 精炼地总结过
两者在目的和训练模态上的不同 一种是关于表达 另一种是关于观察和行动 因此 它们本质上 是截然不同的模态 大型语言模型的基本单元是词库 无论是字母还是单词 而我们使用的世界模型的基本单元
是像素或体素 所以它们是非常不同的语言 虽然大语言模型和世界模型 是两条不一样的技术路线 但是它们的终极目标其实是一致的 那就是要实现通用人工智能 那么 我们现在为什么 要突然这么去关注世界模型呢 是因为大模型这条路线已经走不动了吗
其实关于这个问题 研究界目前依然存在着不同的观点 一些研究者们旗帜鲜明地提出 大语言模型是死路 这派的代表人物之一就是Yann LeCun 离开工作了12年的Meta后 这位65岁的图灵奖得主 深度学习先驱并没有选择退休 而是回到巴黎创立了一家 名为Advanced Machine Intelligence的公司
他要做的事情 与硅谷主流的大模型路线截然不同 他在最近的采访当中就表示 AI领域的Moravec悖论一直存在 所谓的Moravec悖论 就是指AI可以轻松地处理 对人类极其困难的高智力任务 比如说下棋 微积分 读论文 但是直觉性的感知 社交等 人类和动物轻松能够完成的初级技能 对机器却极为的困难
Yann LeCun认为 这个悖论至今未解决 就是因为我们研究AI的路线错了 人类智能的核心 在于不依赖海量数据就能够自主学习 现在的LLM 就是在拟合语言的统计相关性 对现实世界几乎没有直接建模能力 如果继续沿着LLM路线去“堆量” 最多只能做出一个 更会说话 更会写字的模型 他甚至放言称 再过5年
GPT之类的大语言模型 就不会再有人用了 而关于大家都在憧憬AGI很快到来 他也认为是一种幻想 最乐观也要5到10年 机器的智能才能勉强接近一只狗 那些吹嘘一两年内就能实现 通用人工智能的人 纯粹是痴人说梦 彻头彻尾的妄想 因为现实世界远比这复杂得多
你不可能通过“将世界token化” 和使用大语言模型来解决这个问题 这根本不可能实现 而除了Yann LeCun之外 学术界当中有不少的大佬级人物 也都持有类似的观点 比如说图灵奖的获得者 强化学习之父Richard Sutton 大语言模型试图在没有目标 也没有‘好坏优劣’这种评价标准的情况下运作
这其实一开始就走错了方向 李飞飞最近也在密集地发声 她说大语言模型 依然是“黑暗中的文字匠人” 能言善辩却缺乏经验 知识渊博却脱离现实 所以 大模型这条路线 是不是真的走不通了 严格来说 现在还没有标准的答案 但是有几件事 大家开始有了越来越多的共识
首先 单纯把模型做得更大 已经不会再像过去那样 带来立竿见影的突破了 规模继续上去当然可以变强 但是在算力 数据 能源 成本 这些硬约束下 它的性价比正在迅速地下降 其次 AI需要更加直接地 去接触“真实世界” 语言世界太干净了 它无法提供现实世界里面那种
混乱 连续 充满不确定性的因果经验 AI想继续往前走 需要新的输入方式 需要多模态感知 需要去和环境互动 此外 大家普遍认为说 世界模型和大模型将会是一个互补的关系 陈羽北就在访谈当中提到说 世界模型 它并不需要完全将大语言模型推翻重来 而是在为大语言模型
去补上“现实世界”的维度 在语言中我们有了GPT的话 就是说预训练 当预训练的好处达到一定程度的时候 它可以被快速地变成任何的 downstream application(下游应用) 那么 世界模型的话 你可以认为是一个大号的GPT 它包含了感知 包含了控制 如果我们也在这儿 能获得根本上的成功的话 那么在未来
我们所有的机器人 所有的智能体 都可能以这样预训练 和后训练的方式来产生 这有可能会彻底地解锁一些AI的应用场景 既然世界模型如此重要 为什么最近的一段时间 它才突然被行业普遍地讨论和关注呢 第一个原因就是我们刚才所讨论的
大模型的原生能力遇到了天花板 但人们对AI在现实生活中的期待 却越来越高 让它真正能够“行动” 另一个原因 是随着多模态时代的到来 让我们第一次有能力训练 “真正的世界模型” 训练世界模型需要海量的视觉与动作数据 多模态传感器输入 大规模视频模型能力以及足够强的算力 来支持“世界推演”
这些条件直到最近几年才逐步成熟 总的来说 因为大模型的天花板已经显现 因为全行业都在迈向具身智能 因为我们现在有了 让AI看世界 理解世界的技术基础 世界模型就顺理成章地成为了 下一轮AI竞赛的核心舞台 而这些尝试 很快就在行业里面 分成了几条不同的技术流派
虽然世界模型的最终目标 看起来是相对清晰的 但是落实在实践探索层面 却常常会让人感到困惑 比如说有的在做视频生成 有的在做3D场景 有的在做机器人 有的在做智能体 它们都叫做世界模型 但是在做的事情似乎完全不同 那我们究竟应该怎么去理解 现在整个行业到底在做些什么
关于这个问题 我们的嘉宾Yiqi 就结合世界模型的理论知识 以及她在Meta的一些实践观察 在采访当中提出了一个 我们认为非常有帮助于大家理解的框架 就是把整个世界模型领域 拆成了“三层结构” 在这个架构中 底层是世界模型的思维与范式 也就是我们之前所讨论的
世界模型的抽象 预测 规划特征 以及它要解决的问题 这一层涉及到目前很多研究层面的创新 第二层是世界模型的当前“表现形式” 是指模型到底是用什么方式 来表示世界和预测世界 世界应该如何被生成出来的 第三层是世界模型的“目的层” 也就是智能体训练
让AI最终能在这个世界里面行动 做任务 完成决策 Latent MDP(潜在状态MDP) Learn Dynamics(环境动力学模型) Simulator(内部模拟能力) 三个结合起来就是我们说的底层的世界模型核心的层级 但是它这个东西都是抽象的 也看不到 要让人和AI看到 你需要有一个表现形式 这个表现形式我们需要AI帮我们生成出来
生成的层级会比它(之前)的layer稍微高一点 生成完了以后 AI大脑有了世界观 我又可以看到这个世界 接下来这个世界里面就要有东西了 我就有人 有东西 人和AI都活在里面 所以我们就会有Agent 就是智能体在里面存在的方式就是 我终于有一个宇宙了
所以我就要在里面玩呀、学习啊 我要对这个世界造成影响 就我和这个世界有一个交互 世界对我有影响 我对世界有影响 如果我们把当前产业界的主要尝试 放在这个框架当中去看的话 它们其实很多都是聚焦在第二层级 也就是世界生成 这也是目前整个领域最热闹的地方
为什么要先做世界生成 很多研究者就认为 构建世界模型的第一步 不是让AI直接“推理”或“行动” 而是让它能够去“生成世界” 这看似简单 却是世界模型的根基 所谓“理解世界” 本质上是理解世界如何随时间和行为变化 物体如何移动 光线如何变化 风吹过的树叶会发生什么 而要获得这种对“世界演化”的直觉
最直接的方式就是让模型 能够先生成一个可以连续变化的世界 此外 强大的世界生成模型 能为智能体提供廉价的训练场 比如训练一个机器人倒咖啡 让它在现实中倒几万次 打碎几千个杯子 显然性价比太低 而地震 火灾 车祸这些边缘场景 也可以在虚拟世界中 自由进行反事实推理的实践
因此 世界生成既是世界模型的外壳 也是整个体系的入口 而在世界生成这件事情上 目前主要有两大技术路线 第一类是用“视频生成”的方式 去重建世界 包括OpenAI的Sora 谷歌的Genie等 第二类则是用“3D空间生成”的方式 去显式建模世界 其中的代表就是李飞飞的World Labs
视频生成应该是目前最具代表性的 也是最为大众所熟悉的世界模型路线 它的目标很直观 就是尝试让AI直接生成一个 “能动起来的世界” 并让这个世界随着时间流动、演化、变化 OpenAI在发布Sora之初 他们就将其定义为一个“世界模拟器” Sora并不是简单地把一段视频 用静态图像一张张“拼出来”
而是让画面里面的事物 能够随着时间连续地演化 这些视频细节之所以让人震撼 是因为人们发现 模型似乎开始真的“了解”了 事物变化的背后规律 它知道光线在材质上如何变化 知道一个物体在受到外力之后该怎样移动 而目前与Sora类似的 还有Seedance、Veo、Kling等 一系列视频生成模型
如果说Sora等模型 是能够去“播放一个世界” 那么Google的Genie系列模型 则是让我们能够去“探索一个世界” Genie 3当中 模型能够根据用户的文本或者图像提示 实时生成可供用户及智能体进行互动的 虚拟环境 相比前代产品 Genie 3的核心突破在于 其“实时交互性”和“长时间一致性”
用户可以跟模型进行长达数分钟的互动 Genie 3和传统的视频生成模型 不同的点就在于 它生成出来的内容 你是可以去跟它实时交互的 你生成出来的内容 我说黑板上写了字 我又走到别的地方去回来这个字它还在黑板上 就说明虽然说它还是有一个
frame by frame(逐帧)的这种生成方式 但是它其实是已经能够记住 它世界里面的这些状态 Genie 3的这种可控性 意味着模型内部不再只是预测 下一帧是什么 而是已经在模拟“未来的世界状态” 它让视频生成从“播放”走向“交互” 开始从“电影式生成” 走向“游戏式模拟” 更接近一个真正的“世界引擎”
也更接近智能体将来需要使用的环境 就在今年1月 谷歌还推出了基于Genie 3打造的 实验室原型Project Genie 首次将Genie 3的能力 第一次封装成了一个 “人人都可以直接上手体验”的产品形态 它的强大在于多模态的深度协同 由Gemini提供逻辑支撑 Nano Banana Pro 生成高精度的场景与角色
再由核心引擎Genie 3 将静态设计“激活”为可互动的3D世界 依托TPU v5的算力 Project Genie实现了 720p/24fps的实时环境渲染 同时允许用户对同一个世界 进行“重新混剪” 具有长达60秒的强一致性记忆 Project Genie的发布意味着“世界模型” 或许开始真正从PPT走进现实
它不再只是个会“变魔术”的算法 而是通过一句话就能“变”出一个 可运行的小型游戏世界的生产力工具 从行业视角来看 视频生成路线有一个非常明显的优势 那就是它的结果“看得见” 我们能直接观察 世界模型是否具备物理一致性 是否理解时空结构 而且它能够快速商业化落地
影视 广告 教育 游戏都能立刻使用 从技术角度上来看 视频生成的优点也很突出 首先 训练数据相对容易获得 互联网上有大量真实世界的视频 为模型学习世界规律提供了训练空间 其次 它对Scaling Law非常敏感 模型规模越大 数据越多 视频的一致性和物理合理性 就呈指数级的提升
此外 视频数据天然包含多样化场景 模型泛化能力也更强 正因为这种“可观察性” 和“可规模化训练”的组合 让视频生成路线在过去一两年 成为了世界模型最引人注目的方向 但是视频生成的局限也同样明显 最重要的一点是 虽然它的输出是“显式”的 但是内部对世界的理解是“隐式”的
我们无法直接读取 也无法移植到机器人或者决策系统当中 视频生成路线其实和大语言模型很像 两者都是典型的“scale-driven(规模驱动)模型” 语言模型通过学习互联网文本 掌握语言统计规律 视频模型通过学习海量视频 掌握视觉统计规律 区别在于 视频数据天然包含物理运动
加速度 重力等物理特征 因此视频模型能够更加直接地看到 真实世界的运作方式 但是和语言模型一样 视频模型理解的世界规律 依然“藏在权重里” 语言模型预测下一个token 视频模型预测下一帧 但都很难告诉你世界内部的结构是什么 比如说你让Sora生成一辆车的行驶视频
造型和光影可能很逼真 但是如果你问“这辆车的长宽高是多少” “被挡住的轮胎在哪里” 它答不上来 因为Sora并没有构建一个 3D的几何车辆模型 它只是学到了像素组合的概率分布 所以视频生成 虽然是目前最直观 最能够应用落地的一步
但是它目前也只是画出了世界的一层皮 它告诉我们“世界可以被生成” 但是还缺少有血有肉的框架 那么 如何才能够勾勒出世界表层下的框架 李飞飞提出来的思路是 3D生成 也就是空间智能 与视频生成相比 3D生成路线 走的是一条截然不同的技术选择
不是把世界画出来 而是把世界建出来 这也是李飞飞领导创建的World Labs 目前的技术路线 它们不追求画面有多逼真 或“电影级”的连续性 而是更关注世界的结构 包括物体在哪里 空间的几何关系是什么 物体之间如何互相影响 生成的世界是否能够被“进入”与“操作”
World Labs最新发布的模型叫做Marble 它的特点是给它一个语言指令 一张照片或者视频 就能够通过高斯泼溅技术 重建出完整的3D场景结构 简单来说 Marble就像是建筑师 看到图片的时候不只是看到“像素” 而是能够看到背后的三维结构 比如你同样问它图片里面汽车的长宽高
它能回答出是长4.5米 宽1.8米 还能够输出3D网格文件 为什么李飞飞如此强调3D呢 因为她认为真正的世界就不是2D的 而是3D的 AI必须理解空间 才能够理解世界 人类能够抓住物体 避开障碍 记住空间
是因为我们天生具备构建3D模型的能力 机器人要抓取物体 需要知道形状 体积 位置 自动驾驶要理解空间和距离 这些都不是二维像素能够表达的 AI要真正进入现实世界 首先要知道“世界的三维结构” 从技术层面上来看 3D生成路线有个巨大的优势 与视频模型的“隐式物理直觉”不同
它生成的是显式结构 模型知道每个物体的具体位置 因此物理模拟 规划 控制都更容易实现 一旦掌握这些显式信息 它就能够继承传统物理引擎的优势 确保碰撞 遮挡 施力等表现严格正确 成为“可操作世界模型”的底座 此外 3D生成在游戏 影视制作
室内设计等场景也能够快速落地 让它能够在商业转化上具有优势 不久之前 Worldlabs宣布了最新一轮 10亿美元的融资 估值达到了50亿美元 短短一年半时间 它的估值飙升了5倍之多 一定程度上也反映了 市场对于“3D生成”这条路线潜力的认可 虽然3D生成对世界模型的发展
有着巨大的战略意义 但是它的实现难度也要比视频生成大很多 首先是训练数据稀缺 互联网是巨大的2D视频矿山 但是3D数据却很少 高质量3D数据 主要靠LiDAR(激光雷达) 结构光扫描仪等专业设备采集 不仅设备贵 流程还繁琐 标注成本也比2D高出一个量级
其次是几何结构难建 3D模型需要确保生成的物体封闭 无穿模 无破损 而预测柔体 流体 链式碰撞等 复杂3D动态交互 则难度更大了 此外 3D生成对算力需求很大 无论是训练中的3D渲染 还是实时物理模拟 计算量都远超2D模型 直接推高了研究门槛
比如说我们如果生成一张图片 一张图片大家可能知道也就是 比如说1024x1024 大概是1million 就是一百万个像素 但是你如果要生成一个3D模型的话 最大的挑战就是你多出来一个新的维度 那你不太可能直接用1024x1024 再乘上一个1024 这样的一种表示 去做3D的这种生成 要不然计算量确实是太大了
所以在这个里面大家就发明了很多 新的创造性的方法 就比如说我们Meshy在用的技术路线 还是基于Diffusion(扩散模型) 或者Auto-regressive model(自回归模型) 去生成这个模型 可能会先生成一个比较低的分辨率的版本 我们再去把它Upscale(放大/上采样) 然后在这个Upscale的过程中 我们就会发现其实有一些区域 它不属于我们关心的范围 所以在这种情况下 我们就可以把计算量集中在 我们特别关心的这个区域
总结来说 3D生成路线能够更加真实地去还原世界 但是它实现难度更大 成本也更高 不过我们以上讨论的 其实都还是如何把世界给生成出来 但是光有生成还远远不够 因为世界模型真正的目标 不是去生成一个世界 而是要让AI在这个世界里面行动 而这就是世界模型的目的层
就是智能体训练 如果“世界生成” 是为了让AI看见世界 重建世界 那么“智能体训练” 就是要让AI能够在这个世界里“做事” 从“世界长什么样” 走向“我能在这个世界里做什么” 目前 业界主要有两种探索路线 第一条路线 就是直接把世界生成模型 当成“训练环境” 让AI在虚拟生成的世界里
不断去犯错 探索 总结 最终学会一套可以迁移到真实世界的能力 这一类的代表就是Google SIMA SIMA的思路就非常的直接 那就是既然现实世界太复杂 真实的训练太昂贵 那我们就用虚拟世界来教AI如何行动 而游戏成为了它最佳的训练场 视频游戏作为复杂 可交互 实时反馈的环境
一直都是AI发展的摇篮 从早期的Atari 到AlphaStar在《星际争霸II》中 打到世界前0.2% DeepMind一直用游戏训练更智能的AI 而SIMA的训练方式 就是把AI放进很多不同类型的游戏环境中 去“练级” 最新的SIMA 2还将Gemini嵌入内核 首次使用Genie 3生成的游戏世界 进行了训练
SIMA 2展现出了几个令人瞩目的能力突破 首先 它不仅能够“跟指令做事” 还能够“自己思考” 它可以理解复杂 多步 抽象的任务 在陌生环境中自主探索 规划行动 寻找解决方案 其次 它具有强大的“泛化能力” 能够在从未见过的游戏环境中表现出色 比如说在Genie实时生成的世界中
依然能够合理地辨别方向 理解指令 采取有意义的行动 此外 SIMA 2被设计为 能跨游戏 跨环境执行任务的通用智能体 这也为将来的具身机器人迁移奠定了基础 但SIMA想做的事情 显然比“玩游戏”本身要更大 游戏只是现实世界的缩影 它最终想要实现的 是让AI能够在任何3D世界里面
行动 探索 推理 还有解决问题 然而对于这个目标 不是所有的研究者都认为 “要行动 就必须先生成一个世界” 比如说就以Yann LeCun为代表的另一派 就选择了一条完全不同的路线 Yann LeCun实现世界模型的思路是 不用去把世界“画”出来 而是让AI直接去学习世界的抽象结构 在他看来 不管是生成图片 生成视频
还是生成3D世界 生成式模型都有一个共同的问题 那就是消耗了大量算力去“画细节” 却未必真正理解了世界的结构 比如说人类学习走路的时候 我们只需要知道 地面在哪里 障碍物在哪里 下一步该怎么走 理解世界的模型 比生成世界的外观更重要 这正是Yann LeCun所提出的
JEPA理论的核心思想 JEPA不预测图像 不预测像素 也不重建视觉内容 它做的事情是把真实世界 压缩成一个抽象的 高维的潜在表示 然后在这个潜在空间里进行预测 预测的目标可以是空间上被遮挡的区域 也可以是时间上的后续状态 我们来举个简单的例子 如果你轻轻推一个球
视频模型要预测的是 下一帧里球的位置 阴影 光照 材质反射 而JEPA不关心这些 它只关心球会往哪个方向滚 速度会怎么变 会不会撞到障碍物 哪些变化与任务和决策相关 它学习的是未来的结构 而不是未来的画面 JEPA的基本结构可以拆成三件事 首先 用Encoder(编码器)将视觉和动作
压缩成抽象表征 然后 用Predictor(预测器)预测这些抽象状态 在未来如何变化 最后 将预测结果与真实未来状态的编码 进行对齐 让模型学会捕捉世界的关键因果结构 基于JEPA架构 Yann LeCun在Meta也先后发布了 I-JEPA和 V-JEPA 前者让AI理解静态图像的结构 后者则是让AI学习
视频中世界随时间变化的规律 JEPA的路线背后有非常重要的技术动机 首先 生成像素既昂贵又低效 而绝大多数的像素信息与行动决策无关 JEPA不“画世界” 因此计算成本更低 其次 由于只保留关键结构信息 JEPA更容易捕捉因果关系 也更具跨场景 跨任务的泛化能力 更重要的是
这种抽象 结构化的世界表示 更接近机器人和具身智能真正需要的 “可操作世界” 比如说对于机器人来说 它不需要知道物体的光影纹理 它只需要知道物体的可达性 跟自己的位置关系以及下一步该做什么 而JEPA输出的 就是这种结构化的抽象信息 其实早在几年前 Yann LeCun就已经在为JEPA路线 摇旗呐喊了 但是它至今
依然没有能够成为世界模型的研究主流 背后的原因 是因为JEPA路线在实际推进中 面临了很多现实的问题 首先 它是“不可见的” Sora能用逼真的画面震撼所有人 Genie可以生成可探索的游戏世界 World Labs能用3D场景告诉你 “我理解了的空间结构” 但是JEPA学到的所有东西 都藏在一个抽象的潜在空间里
这意味着我们难以直接看到和验证模型 到底“理解了什么” 其次 它的自监督目标极难设计 JEPA不像视频生成那样有现成的目标 你给它一帧让它预测下一帧 JEPA想预测的是“未来的结构” 但什么才是“结构” 哪些因素该保留 哪些该忽略 目前仍然没有统一的答案 最后 缺乏统一的评估和规模化推进体系
JEPA的表征质量藏在潜在空间里 研究社区多依赖下游任务或者行为表现 来评估模型 缺乏类似图像生成 或者语言模型那样统一的Benchmark(基准指标) 这也使得不同设计路线之间的效果比较 变得更加困难 而正是因为这些限制 JEPA更像是一个 “世界模型的前额叶原型” 方向很可能是对的 但是距离成熟落地 还依然有一段距离
到这里 我们把世界模型最核心的几条技术路线 都已经梳理了一遍了 有人用视频把世界“画”出来 有人用3D把世界“搭”出来 有人在虚拟世界里训练行动智能 也有人干脆不画世界 想让AI直接学习世界的结构 当然 还有一些我们没有展开的路线 比如说Dreamer这一类 以动力学为核心的世界模型
更加专注于控制与想象 有的试图从物理规律出发 用可微分模拟器去逼近真实世界 也有越来越多工作 正在模糊世界模型 预测模型 与决策模型之间的边界 这些路线看起来方向不同 但是它们正在指向同一个未来 那就是让AI不再只是“输出信息” 而是真正地去理解世界 推理世界
在世界里行动 Yiqi就表示 因为目前世界模型在落地层面 还在早期的阶段 并没有看到哪一条路线 具体的商业应用形式 所以包括Meta在内的大厂们 实际是在各个路线上都在做布局和研究 Meta在这个世界模型的路线上 因为它不同的技术路线全部都做了 主要原因是因为用户场景
还有它的不同的垂直场景 它需要的不同 所以说为游戏服务的 我们就做了AI的这个游戏引擎 叫Meta Horizon Studio 然后为了内容创作来服务 我们就会做纯视频方向的 然后你说我们是为了数字重建 3D重建 我们就做了高斯泼溅的方式
所以一般来说 我们会是希望把方方面面都能够概括进去 就是各种场景都适用 但是我相信其他公司也是会有类似的情况 不过可以预见的是 当世界模型真正成熟 对产业带来的改变 绝对不会只是 让“视频生产效率更高”这么简单 它将是一次
横跨软件 硬件 制造 娱乐等等 众多行业的系统性冲击 如果说有哪个行业 会最直接地被世界模型撬动 那就一定是机器人行业了 过去几十年 机器人的发展受制于硬件 算力 和应用场景等多重因素 但更加深层 也更关键的瓶颈在于 它们还不“懂”世界
因此难以实现跨环境的迁移和泛化 今天的绝大多数机器人看起来都很厉害 但它们做的一切 本质上都是“被编程好的动作” 所以只要环境稍微变化 它们就能够立刻“失能” 机器人行业 过去一直难以扩张的原因就在于 每一项新任务 都意味着一次新的工程项目 而世界模型带来的
是让机器人拥有“世界的内部模型” 它们能看到现在 也能预测未来 知道物体怎么动 也够能推断自己的动作 会产生什么样的后果 它能先在脑子里模拟 再决定要不要执行 比如它可以模拟箱子会不会翻倒 门把的角度能否顺利地转动 路径是否足够安全 抓取是否会失败
过去要花工程师几十小时调参的任务 现在机器人在模拟世界里面自主练习 就能够掌握 更重要的是 机器人开始具备迁移能力 它不需要每次换一个物体 换一个场景 换一个任务 都重新示教一遍 它能把虚拟世界里学到的规律 迁移到现实世界 尽管仿真到现实的迁移 至今仍是一个开放难题
世界模型有望大幅度降低这道门槛 让机器人面对从未见过的物品时 依然能够做出合理的决策 这对机器人来说 是一次范式级的改变 无论是家庭服务机器人 仓储机器人 工厂协作机器人 餐饮零售机器人 还是专业级的巡检 建筑 医疗辅助手臂 世界模型都可能成为
它们跨过智能门槛的那把钥匙 大约从5年前开始 马斯克就开始讲L5要来了 但是为什么时到今日 L5级的自动驾驶依然没有全面普及呢 背后原因之一就在于 系统虽然“看得见世界” 却还难以真正预测世界 我们现在常说的L2 L3自动驾驶 本质上依赖的仍然是
“感知 预测 规划”的分层体系 识别车 人 车道线 交通灯 再通过规划系统给车辆下指令 特斯拉更强调用大规模真实道路数据 通过端到端方式不断逼近人类驾驶 而Waymo则是长期在高度结构化的系统中 追求可验证的安全性 但是无论是哪种路线 都面临着一个共同的问题
它们对“现在”的感知已经很强 但却很难稳定地理解 “接下来会发生什么” 再加上极端天气 突发事故 不规范行人等长尾场景 在真实道路中极其稀少 也成为制约自动驾驶规模化的关键瓶颈 而这正是世界模型 开始真正进入工程体系的地方 比如说 Waymo在最近的技术博客中就提出
他们正在将自动驾驶系统的核心 构建为一个Foundation model(基础模型) 它采用了“分段式端到端”的架构 内部可以进行端到端训练和反向传播 同时又保留了对世界的结构化表达 这个模型不只是完成单一任务 而是学习“世界如何运转” 它被要求输出物体 语义属性 和道路结构等中间表征
让系统在出错的时候 能够定位问题出在世界理解的哪一层 这些结构化世界信息 也支撑起更高质量的仿真系统 不仅还原场景 还能够在不同假设下 预设交通参与者的行为 并且在内部同时推演大量可能的决策路径 从中筛选出最安全 最稳定的一条 这不再只是“识别” 也不只是“反应”
而是让自动驾驶系统开始具备一种 接近人类驾驶的预判能力 也正因为如此 世界模型被认为是推动自动驾驶 从局部可用 走向可验证 安全的大规模商业化落地的 核心技术之一 如今我们所熟知的可穿戴设备 本质上还是停留在记录层面 看上去很智能 但实际上却不能理解你周围的环境
世界模型会让这一切发生质变 一方面 它能够让设备真正地读懂你的3D世界 实时推断空间结构 物体关系和潜在风险 把数字内容自然融合进现实环境 另一方面 它的预测和规划能力 会让可穿戴设备 从工具变成你的“数字伙伴” 理解你在什么环境 看什么 可能要做什么 比如提前提醒路面湿滑
在厨房识别缺少的食材 甚至在你开口前就意识到你需要帮助 从更长远来看 这不只是设备升级 而是一种新的“人机关系” 世界模型会让可穿戴设备从“信息终端” 变成随身的“世界理解引擎” 眼镜 耳机 手表 都可能进化为 与你共同生活 共同行动的智能体
而这也可能会是下一代计算平台的起点 如果说机器人 自动驾驶等等“具身智能” 是世界模型在现实世界的落地 那么内容相关的产业 就是世界模型在“想象世界”里的 爆发奇点了 如今我们已经看到 视频生成模型所带来的一些震撼效果 而世界模型的到来 可以让未来的内容创作
只需要给一个世界观 一个任务 一个初始状态 模型就能自动“长出一个世界” 比如说在影视行业 一个导演不需要去反复地搭景 重拍 做模型 只要定义“这是一座被雨水淹没的城市” AI就能够生成整个城市的状态变化 而在游戏行业 世界模型带来的改变更是颠覆性的 过去的游戏世界需要一砖一瓦搭建
地形 天气 物理引擎 NPC行为 任务链 我们需要数百人的团队 花费几年时间 才能够做出一个开放世界 但是世界模型意味着 游戏世界不需要“制作” 而可以自动生成和进化 一个设计师只需要规定规则 生态 冲突 AI就能够生长出森林 河流 生物 文化 经济系统
甚至是NPC的性格 记忆和演化方向 大家以前玩的游戏都是这种静止的游戏 所谓静止游戏 就是这个游戏所有的规则 都是提前被写好的 然后有一个游戏设计师和游戏程序员 去实现这一些的规则 但是如果说 我们能用现在这种生成式AI的技术 放到这种游戏场景当中去 我就可以实现我所有的内容 是on the fly(即时)生成的 然后每次玩都不一样
包括你看像谷歌的Genie 3 按上下左右键 它可以即刻 去生成你下一秒看到的东西 我们在做的事情 就是我们先用3D的这个Model 我们自己再做一个多模态的大模型 然后这个大模型可以先去生成这个角色 它的外形 后面我们其实可以给它加上它的人物逻辑 它的性格 它的各种各样的形式的逻辑 我们通过这条路径 其实也可以实现一个世界模型
所以对于整个内容行业来说 世界模型带来的不仅仅是制作效率的提升 而是一场叙事方式 创作方式 内容形式的全面重写 世界模型的到来 还会加速AI Agent的进化 当我们今天再聊AI Agent的时候 很多讨论其实都集中在 Agent能不能更聪明 规划能力够不够强 工具调用做得够不够好
但是如果我们退一步去看 会发现一个更底层的问题 一直没有被真正的解决 那就是Agent到底是在什么环境里面 学会“行动”的 从强化学习的视角看 Agent的一切能力都来自与环境的交互 执行动作 接收反馈 但是真实世界太昂贵 太缓慢 也太危险 几乎不可能支撑大规模试错
而世界模型解决的正是“环境”本身的问题 它通过学习真实系统的数据 在模型内部构建一个可运行的世界 当Agent采取行动的时候 世界模型可以直接推演 这个动作可能带来的结果 这样一来 Agent就可以在世界模型中 进行大规模训练 如果这个世界足够接近真实 那么在虚拟环境中学到的能力
就可以稳定地迁移到现实系统中 世界模型并不是让Agent立刻变得更聪明 而是第一次为Agent提供了一个 可训练 可试错 接近真实的“内在世界” 这层世界底座 才是真正决定AI Agent 能否走向现实世界的关键 所以世界模型它改变的 不只是某一个行业 某一个产品 某一种形态
而是整套人与世界互动的方式 陈羽北在采访当中就谈到说 如果世界模型真的从根本上走通了 甚至有可能创造出一种新的文明 如果你能实现World model 逻辑推演所有的问题都解决了 你已经包罗万象 把这个世界所有的规律都已经掌握了 而且可以泛化 泛化到能产生新的数据 产生新的意识
超越人类的程度 不是简单的外延 然后能够在比较根本的程度上来泛化了 那么这个模型似乎已经具备了 当然 给定一定意识的话 (这个模型)似乎已经具备了 建立一种新的文明的能力 当然 任何足以改变技术版图的突破 都会带来新的风险 而世界模型的风险 不再只是“胡说八道”那么简单
首先 是更隐蔽 也更危险的模型幻觉 无论哪条路线 世界模型本质上 都是在给AI构建一个高度逼真的“梦境” 让它在其中模拟和推演 但是虚拟世界永远无法完全覆盖真实世界 始终存在Sim-to-Real Gap(虚实差异) 语言模型的幻觉是编造事实 视频模型的幻觉是画面错误
而世界模型的幻觉 出现在整个“世界结构”里 比如说误判物体重量 高估动作可行性 低估碰撞后果 甚至构建了错误的因果关系 这些问题不一定立刻会被察觉 却会直接影响智能体的决策与行动 进而导致机器人失常 自动驾驶偏离 甚至关键系统被系统性误导 所以当世界模型出现幻觉
错误将是“系统级”的 这也是更难发现 更难对齐的风险 其次是世界模型带来的权力集中问题 未来可能只有极少数机构 具备构建和运行世界模型的能力 而成熟的世界模型 意味着前所未有的预测能力 对市场 社会行为 群体反应的高精度推演 可能带来新的信息垄断
也可能会被用于 更高效的社会操纵与商业操纵 而更重要的是 当世界模型越来越真实 虚拟与现实的边界也会越来越模糊 “自主智能体”的到来 也加大了AI不受控的风险 一旦AI真正理解并且模拟世界 深度伪造和虚假场景 将进入“超真实”阶段
AR/VR世界可能与现实几乎无差 甚至更具吸引力 与此同时 当越来越多真实系统开始依赖这些模型 现实世界本身 也可能反过来“对齐”模型的假设 而当世界模型变成决策底座 内部状态难以审计 推理过程不可见 我们甚至很难判断它究竟“理解”了什么
在朝什么方向演化 这也意味着它所带来的监管挑战 将远高于今天的大模型 所以 世界模型潜力巨大 但是带来的风险 也比我们过去面对的任何AI技术 都更加危险 它不只是内容层面的风险 而是会真的影响到现实世界 当AI不只是看世界 画世界
而是开始在现实中推演 行动 做决定 我们需要从系统 对齐 伦理 监管 所有的层面 去重新讨论这件事 在过去一两年 我们看到 AI在语言 图像 视频上的极速爆发 仿佛一夜之间AI已经无所不能了 但当你开始思考 AI是否真的理解世界 能否真的预测未来
是否能够像人类一样在世界中行动 你会发现 现在的大模型其实依然还停留在 “表层智能”的一个阶段 而世界模型向我们提供了 真正能够走向“深层智能”的可能性 它让AI从“看到世界”走向“理解世界” 从“预测句子”走向“预测未来” 从“生成画面”走向“在世界里行动”
这不仅会改变机器人 制造业 自动驾驶 内容产业 也会改变我们和数字世界的关系 甚至改变我们对“智能”本身的理解 当然 世界模型的道路还很漫长 它面临巨大的技术挑战 也伴随着新的风险 目前 我们依然不知道哪一条路线 会最终胜出 但是我们知道的是 当AI能够真正理解世界 模拟世界
在世界里面试错和行动的时候 它距离“通用智能” 也就是我们一直在寻找的那个终极目标 又会近了一大步 而这 也许就是AI时代真正的拐点 而我们现在正在见证它的开端 最后 我们还想补充的是 因为世界模型本身 还是一个没有被学界和产业完全统一的定义 所以我们这一期的内容
并不是想给世界模型下一个“标准答案” 而是希望从我们的视角 为大家梳理出一个理解世界模型的框架 不同的团队 不同方向的每一条路线背后 其实都牵涉到大量具体的技术细节 方法选择 以及仍然在快速演化的新尝试 接下来 我们也会持续地围绕着这个主题 做更深入的拆解和系列内容
也感谢大家收看本期视频 以上就是这期的全部内容了 你们的点赞 关注和评论 是支持我们《硅谷101》 做好深度科技和商业内容的最佳动力 我是陈茜 那我们就下期视频再见啦 拜
Loading video analysis...