全面解析“世界模型”：定义、路线、实践与AGI的更近一步

By 硅谷101

Summary

Topics Covered

人类智能源于内部世界模型
世界模型三大核心特质
大语言模型死路一途
世界模型分三层架构
世界模型重塑机器人范式

Full Transcript

2026年将会是世界模型全面爆发的一年 World Model 如今的AI看起来似乎“无所不能” 它能写深奥的论文、复杂的代码做出顶级的画面和视频但它仍然缺乏理解世界、预测世界以及在世界里推演并行动的能力为了解决这个问题 OpenAI 谷歌微软等大公司

Yann LeCun 李飞飞等顶尖学者都开始抢着研究同一件事情那就是世界模型很多人认为随着多模态走向普及和成熟如果这条技术线完全跑通它将彻底重塑整个AI格局但是我们也注意到 “世界模型”的爆火也带来了新的问题那就是仿佛整个AI圈一夜之间都变成了“世界模型”

做视频生成的是世界模型做机器人的是世界模型做自动驾驶的是世界模型做游戏开发的是世界模型 AR/VR是世界模型 Agent、仿真、训练环境…… 只要跟“世界”沾点边几乎都是世界模型它们看起来完全不一样但现在全都被叫作同一个名字我觉得这个也是很多人在神化世界模型的地方其实很多现在世界模型

它就是一个视频模型业界看到的这个世界模型其实它更多的是世界模型的表现形式如果一个世界模型我们真的已经解决掉了那我们现在科研的方向似乎就没有意义了那么世界模型到底是什么它跟大语言模型有什么样的区别呢这些看起来完全不同的路线是在做同一件事情吗世界模型的到来又会给各行各业以及整个社会带来什么样的改变

以及它会是人类通往AGI的终极密码吗大家好我是《硅谷101》的陈茜今天这期视频就让我们一起走进世界模型什么是世界模型呢关于它的定义其实目前依然还没有一个非常清晰的被所有人都认可的说法但是我们可以先来聊一聊这个概念的起源以及它究竟想要去解决什么样的事情

那么先从一个再简单不过的问题开始你是怎么知道一杯水放在桌边它可能会掉下去的呢科学家们认为人类之所以能够预测杯子会掉落门往哪开球会顺着斜坡滚是因为从很小的时候我们就在脑子里面构建了一个 “世界怎么运作”的模型我们能够预判下一秒会发生什么能够想象

“如果我这么做会怎么样” 并且在脑海中提前排演各种可能性在认知科学中这被称之为心智模型（Mental Model）早在上个世纪科学家们就已经开始研究人类的心智模型 1943年 Kenneth Craik在其著作《解释的本质》中就提出人在对现实作出反应之前会先在大脑中构建一个 “小规模的世界模型”

用它来模拟可能发生的过程再据此选择行动也就是说我们每个人脑子里都有一个看不见的“小世界” 那么既然人类智能依赖于这样的内部世界很多AI研究者也开始追问说机器要想具备真正的智能是否也需要一个属于自己的世界呢于是在AI和强化学习的早期研究中

这个思想以不同的名字反复出现比如在1991年 Richard Sutton、Doina Precup和Satinder Singh 在论文中提出了后来被称为Dyna架构的设计思路 Dyna的核心在于智能体在学习行动策略的同时也要学习model of the world 也就是当我采取某个动作之后世界会如何变化

这也是第一次将“世界模型”明确确立为智能体内部的一项基础能力在此之后世界模型并没有沿着单一路线发展而是在不同研究领域中被不断拆解、强化和改写比如在强化学习和机器人中它体现为 Forward Model（前向模型）在自动控制和工业系统中则发展出了Model Predictive Control

（模型预测控制）这些理论的名字虽然不同但是背后其实共享着同一个核心假设那就是智能体之所以能够做出更好的决策不是因为反应更快而是因为它能在行动之前在内部世界中先“看到未来” 在此后很长一段时间当中世界模型更多停留在偏理论偏算法的层面

直到深度学习和表示学习逐渐成熟在2018年 Google Brain的David Ha 与深度学习元老级教父Jürgen Schmidhuber 共同发表了论文《World Models》这篇论文正式提出了“世界模型”(World models) 这个精炼化的名称同时还给出了一个比较简洁的世界模型理解框架世界模型等于观察世界（V）

加预测世界（M）再加在内部世界中学习行动（C）对应的是视觉（Vision）记忆（Memory）和控制（Controller）三个核心模块我们用一个简单的例子来解释一下想象一下你是一个从未打过乒乓球的新手当你站在球台前眼睛接收到的是大量复杂的视觉信息

视觉模块V并不会记住每一个像素而是会自动地提取出对决策真正重要的部分它将原本上百万像素的画面压缩成仅有几十个数字的精华编码记忆模块M接收到这些编码之后便立即开始内部模拟经过多次练习你的大脑已经建立起对乒乓球运动规律的理解

记忆模块就像你内心的“物理引擎” 能够预测 “如果我这样做会发生什么” 所以当球飞来的时候视觉模块提取特征记忆模块模拟方案而控制模块C 就主要是在记忆模块M 所创造的“内部世界”中进行训练你并不需要真的挥拍一百次试错而是在记忆模块的“梦境”中找到最佳策略之后

再在现实中只执行一次最优解而这种“想象规划行动”的认知过程正是人类智能的核心特征在这篇论文当中他们也做出了一个有意思的Demo 让模型在完全虚拟的小世界当中学会了玩一款赛车游戏证明了AI可以像人类一样通过内部世界的想象来进行学习那么总结下来世界模型到底是什么呢

研究者们普遍地认为它们应该具有三大特质第一表示世界（Representation）也就是说模型能够理解所处的环境里面有什么物体在哪儿以及物与物之间是什么关系第二是预测未来（Prediction）它能够对事件进行模拟和生成如果我推一下杯子打开一扇门往前走两步世界会发生什么样的改变

第三是在世界里规划和行动（Planning & Control）能够预测接下来会发生什么之后我应该如何采取行动因为它是一个当你把一个世界抽象到一个潜在的空间里它是被压缩过的然后在这个潜在空间里呢你能够通过学到的物理规律然后去做对未来的预测

形成对真实世界的一个模拟器相当于它是一个模拟系统有点像是一个缩小的平行宇宙这感觉就是你如果有一个真正的AI大脑它将能够就是它有自己的一个AI的世界观因为你可以做预测所以你就可以去做未来的推演然后你可以做决策世界模型的本质就是想让AI从一个 “只会回答问题”的语言机器

走向能够真正像人类一样 “会观察会推理会行动”的真正智能体但是问题来了作为一个上个世纪就开始被研究的概念为什么突然在最近一段时间火起来了呢它跟我们现在所熟悉的大语言模型又有什么样的区别或是联系呢让我们把世界模型和大语言模型来做个对比从主要任务和预测目标来看

大语言模型的目标是生成在语言维度上最合理的序列预测的是下一个词或者token 比如说你问杯子会从桌子上掉下来吗它回答会因为这是在无数文本里面出现过的正确答案而世界模型的任务是预测“下一秒世界会变成什么样子” 预测的是下一帧画面下一步动作下一次的状态变化

它需要理解物理规律空间关系和动态变化从训练数据上来看大语言模型主要依赖文本数据也包括一些图像和视频数据特点是以静态内容为主而世界模型则主要依赖视频等动态数据包括摄像头看到的画面机器人的传感器反馈动作的结果环境的变化

数据特点是动态的时序性的从输出的结果来看大语言模型输出的是语言或者图像等内容世界模型输出的是对未来状态的预测对行为的模拟以及可执行的行动方案从学习方式来看大语言模型是通过语言间接理解世界更像是一个“知识容器” 而世界模型

是通过交互和推演直接理解世界不仅能“看见” 还能“预测”和“干预” 因此大语言模型更适合对话写作翻译问答而世界模型对应的则是机器人自动驾驶物理模拟和决策系统这些必须进入真实世界的任务此前李飞飞也曾经在采访当中精炼地总结过

两者在目的和训练模态上的不同一种是关于表达另一种是关于观察和行动因此它们本质上是截然不同的模态大型语言模型的基本单元是词库无论是字母还是单词而我们使用的世界模型的基本单元

是像素或体素所以它们是非常不同的语言虽然大语言模型和世界模型是两条不一样的技术路线但是它们的终极目标其实是一致的那就是要实现通用人工智能那么我们现在为什么要突然这么去关注世界模型呢是因为大模型这条路线已经走不动了吗

其实关于这个问题研究界目前依然存在着不同的观点一些研究者们旗帜鲜明地提出大语言模型是死路这派的代表人物之一就是Yann LeCun 离开工作了12年的Meta后这位65岁的图灵奖得主深度学习先驱并没有选择退休而是回到巴黎创立了一家名为Advanced Machine Intelligence的公司

他要做的事情与硅谷主流的大模型路线截然不同他在最近的采访当中就表示 AI领域的Moravec悖论一直存在所谓的Moravec悖论就是指AI可以轻松地处理对人类极其困难的高智力任务比如说下棋微积分读论文但是直觉性的感知社交等人类和动物轻松能够完成的初级技能对机器却极为的困难

Yann LeCun认为这个悖论至今未解决就是因为我们研究AI的路线错了人类智能的核心在于不依赖海量数据就能够自主学习现在的LLM 就是在拟合语言的统计相关性对现实世界几乎没有直接建模能力如果继续沿着LLM路线去“堆量” 最多只能做出一个更会说话更会写字的模型他甚至放言称再过5年

GPT之类的大语言模型就不会再有人用了而关于大家都在憧憬AGI很快到来他也认为是一种幻想最乐观也要5到10年机器的智能才能勉强接近一只狗那些吹嘘一两年内就能实现通用人工智能的人纯粹是痴人说梦彻头彻尾的妄想因为现实世界远比这复杂得多

你不可能通过“将世界token化” 和使用大语言模型来解决这个问题这根本不可能实现而除了Yann LeCun之外学术界当中有不少的大佬级人物也都持有类似的观点比如说图灵奖的获得者强化学习之父Richard Sutton 大语言模型试图在没有目标也没有‘好坏优劣’这种评价标准的情况下运作

这其实一开始就走错了方向李飞飞最近也在密集地发声她说大语言模型依然是“黑暗中的文字匠人” 能言善辩却缺乏经验知识渊博却脱离现实所以大模型这条路线是不是真的走不通了严格来说现在还没有标准的答案但是有几件事大家开始有了越来越多的共识

首先单纯把模型做得更大已经不会再像过去那样带来立竿见影的突破了规模继续上去当然可以变强但是在算力数据能源成本这些硬约束下它的性价比正在迅速地下降其次 AI需要更加直接地去接触“真实世界” 语言世界太干净了它无法提供现实世界里面那种

混乱连续充满不确定性的因果经验 AI想继续往前走需要新的输入方式需要多模态感知需要去和环境互动此外大家普遍认为说世界模型和大模型将会是一个互补的关系陈羽北就在访谈当中提到说世界模型它并不需要完全将大语言模型推翻重来而是在为大语言模型

去补上“现实世界”的维度在语言中我们有了GPT的话就是说预训练当预训练的好处达到一定程度的时候它可以被快速地变成任何的 downstream application（下游应用）那么世界模型的话你可以认为是一个大号的GPT 它包含了感知包含了控制如果我们也在这儿能获得根本上的成功的话那么在未来

我们所有的机器人所有的智能体都可能以这样预训练和后训练的方式来产生这有可能会彻底地解锁一些AI的应用场景既然世界模型如此重要为什么最近的一段时间它才突然被行业普遍地讨论和关注呢第一个原因就是我们刚才所讨论的

大模型的原生能力遇到了天花板但人们对AI在现实生活中的期待却越来越高让它真正能够“行动” 另一个原因是随着多模态时代的到来让我们第一次有能力训练 “真正的世界模型” 训练世界模型需要海量的视觉与动作数据多模态传感器输入大规模视频模型能力以及足够强的算力来支持“世界推演”

这些条件直到最近几年才逐步成熟总的来说因为大模型的天花板已经显现因为全行业都在迈向具身智能因为我们现在有了让AI看世界理解世界的技术基础世界模型就顺理成章地成为了下一轮AI竞赛的核心舞台而这些尝试很快就在行业里面分成了几条不同的技术流派

虽然世界模型的最终目标看起来是相对清晰的但是落实在实践探索层面却常常会让人感到困惑比如说有的在做视频生成有的在做3D场景有的在做机器人有的在做智能体它们都叫做世界模型但是在做的事情似乎完全不同那我们究竟应该怎么去理解现在整个行业到底在做些什么

关于这个问题我们的嘉宾Yiqi 就结合世界模型的理论知识以及她在Meta的一些实践观察在采访当中提出了一个我们认为非常有帮助于大家理解的框架就是把整个世界模型领域拆成了“三层结构” 在这个架构中底层是世界模型的思维与范式也就是我们之前所讨论的

世界模型的抽象预测规划特征以及它要解决的问题这一层涉及到目前很多研究层面的创新第二层是世界模型的当前“表现形式” 是指模型到底是用什么方式来表示世界和预测世界世界应该如何被生成出来的第三层是世界模型的“目的层” 也就是智能体训练

让AI最终能在这个世界里面行动做任务完成决策 Latent MDP（潜在状态MDP） Learn Dynamics（环境动力学模型） Simulator（内部模拟能力）三个结合起来就是我们说的底层的世界模型核心的层级但是它这个东西都是抽象的也看不到要让人和AI看到你需要有一个表现形式这个表现形式我们需要AI帮我们生成出来

生成的层级会比它（之前）的layer稍微高一点生成完了以后 AI大脑有了世界观我又可以看到这个世界接下来这个世界里面就要有东西了我就有人有东西人和AI都活在里面所以我们就会有Agent 就是智能体在里面存在的方式就是我终于有一个宇宙了

所以我就要在里面玩呀、学习啊我要对这个世界造成影响就我和这个世界有一个交互世界对我有影响我对世界有影响如果我们把当前产业界的主要尝试放在这个框架当中去看的话它们其实很多都是聚焦在第二层级也就是世界生成这也是目前整个领域最热闹的地方

为什么要先做世界生成很多研究者就认为构建世界模型的第一步不是让AI直接“推理”或“行动” 而是让它能够去“生成世界” 这看似简单却是世界模型的根基所谓“理解世界” 本质上是理解世界如何随时间和行为变化物体如何移动光线如何变化风吹过的树叶会发生什么而要获得这种对“世界演化”的直觉

最直接的方式就是让模型能够先生成一个可以连续变化的世界此外强大的世界生成模型能为智能体提供廉价的训练场比如训练一个机器人倒咖啡让它在现实中倒几万次打碎几千个杯子显然性价比太低而地震火灾车祸这些边缘场景也可以在虚拟世界中自由进行反事实推理的实践

因此世界生成既是世界模型的外壳也是整个体系的入口而在世界生成这件事情上目前主要有两大技术路线第一类是用“视频生成”的方式去重建世界包括OpenAI的Sora 谷歌的Genie等第二类则是用“3D空间生成”的方式去显式建模世界其中的代表就是李飞飞的World Labs

视频生成应该是目前最具代表性的也是最为大众所熟悉的世界模型路线它的目标很直观就是尝试让AI直接生成一个 “能动起来的世界” 并让这个世界随着时间流动、演化、变化 OpenAI在发布Sora之初他们就将其定义为一个“世界模拟器” Sora并不是简单地把一段视频用静态图像一张张“拼出来”

而是让画面里面的事物能够随着时间连续地演化这些视频细节之所以让人震撼是因为人们发现模型似乎开始真的“了解”了事物变化的背后规律它知道光线在材质上如何变化知道一个物体在受到外力之后该怎样移动而目前与Sora类似的还有Seedance、Veo、Kling等一系列视频生成模型

如果说Sora等模型是能够去“播放一个世界” 那么Google的Genie系列模型则是让我们能够去“探索一个世界” Genie 3当中模型能够根据用户的文本或者图像提示实时生成可供用户及智能体进行互动的虚拟环境相比前代产品 Genie 3的核心突破在于其“实时交互性”和“长时间一致性”

用户可以跟模型进行长达数分钟的互动 Genie 3和传统的视频生成模型不同的点就在于它生成出来的内容你是可以去跟它实时交互的你生成出来的内容我说黑板上写了字我又走到别的地方去回来这个字它还在黑板上就说明虽然说它还是有一个

frame by frame（逐帧）的这种生成方式但是它其实是已经能够记住它世界里面的这些状态 Genie 3的这种可控性意味着模型内部不再只是预测下一帧是什么而是已经在模拟“未来的世界状态” 它让视频生成从“播放”走向“交互” 开始从“电影式生成” 走向“游戏式模拟” 更接近一个真正的“世界引擎”

也更接近智能体将来需要使用的环境就在今年1月谷歌还推出了基于Genie 3打造的实验室原型Project Genie 首次将Genie 3的能力第一次封装成了一个 “人人都可以直接上手体验”的产品形态它的强大在于多模态的深度协同由Gemini提供逻辑支撑 Nano Banana Pro 生成高精度的场景与角色

再由核心引擎Genie 3 将静态设计“激活”为可互动的3D世界依托TPU v5的算力 Project Genie实现了 720p/24fps的实时环境渲染同时允许用户对同一个世界进行“重新混剪” 具有长达60秒的强一致性记忆 Project Genie的发布意味着“世界模型” 或许开始真正从PPT走进现实

它不再只是个会“变魔术”的算法而是通过一句话就能“变”出一个可运行的小型游戏世界的生产力工具从行业视角来看视频生成路线有一个非常明显的优势那就是它的结果“看得见” 我们能直接观察世界模型是否具备物理一致性是否理解时空结构而且它能够快速商业化落地

影视广告教育游戏都能立刻使用从技术角度上来看视频生成的优点也很突出首先训练数据相对容易获得互联网上有大量真实世界的视频为模型学习世界规律提供了训练空间其次它对Scaling Law非常敏感模型规模越大数据越多视频的一致性和物理合理性就呈指数级的提升

此外视频数据天然包含多样化场景模型泛化能力也更强正因为这种“可观察性” 和“可规模化训练”的组合让视频生成路线在过去一两年成为了世界模型最引人注目的方向但是视频生成的局限也同样明显最重要的一点是虽然它的输出是“显式”的但是内部对世界的理解是“隐式”的

我们无法直接读取也无法移植到机器人或者决策系统当中视频生成路线其实和大语言模型很像两者都是典型的“scale-driven（规模驱动）模型” 语言模型通过学习互联网文本掌握语言统计规律视频模型通过学习海量视频掌握视觉统计规律区别在于视频数据天然包含物理运动

加速度重力等物理特征因此视频模型能够更加直接地看到真实世界的运作方式但是和语言模型一样视频模型理解的世界规律依然“藏在权重里” 语言模型预测下一个token 视频模型预测下一帧但都很难告诉你世界内部的结构是什么比如说你让Sora生成一辆车的行驶视频

造型和光影可能很逼真但是如果你问“这辆车的长宽高是多少” “被挡住的轮胎在哪里” 它答不上来因为Sora并没有构建一个 3D的几何车辆模型它只是学到了像素组合的概率分布所以视频生成虽然是目前最直观最能够应用落地的一步

但是它目前也只是画出了世界的一层皮它告诉我们“世界可以被生成” 但是还缺少有血有肉的框架那么如何才能够勾勒出世界表层下的框架李飞飞提出来的思路是 3D生成也就是空间智能与视频生成相比 3D生成路线走的是一条截然不同的技术选择

不是把世界画出来而是把世界建出来这也是李飞飞领导创建的World Labs 目前的技术路线它们不追求画面有多逼真或“电影级”的连续性而是更关注世界的结构包括物体在哪里空间的几何关系是什么物体之间如何互相影响生成的世界是否能够被“进入”与“操作”

World Labs最新发布的模型叫做Marble 它的特点是给它一个语言指令一张照片或者视频就能够通过高斯泼溅技术重建出完整的3D场景结构简单来说 Marble就像是建筑师看到图片的时候不只是看到“像素” 而是能够看到背后的三维结构比如你同样问它图片里面汽车的长宽高

它能回答出是长4.5米宽1.8米还能够输出3D网格文件为什么李飞飞如此强调3D呢因为她认为真正的世界就不是2D的而是3D的 AI必须理解空间才能够理解世界人类能够抓住物体避开障碍记住空间

是因为我们天生具备构建3D模型的能力机器人要抓取物体需要知道形状体积位置自动驾驶要理解空间和距离这些都不是二维像素能够表达的 AI要真正进入现实世界首先要知道“世界的三维结构” 从技术层面上来看 3D生成路线有个巨大的优势与视频模型的“隐式物理直觉”不同

它生成的是显式结构模型知道每个物体的具体位置因此物理模拟规划控制都更容易实现一旦掌握这些显式信息它就能够继承传统物理引擎的优势确保碰撞遮挡施力等表现严格正确成为“可操作世界模型”的底座此外 3D生成在游戏影视制作

室内设计等场景也能够快速落地让它能够在商业转化上具有优势不久之前 Worldlabs宣布了最新一轮 10亿美元的融资估值达到了50亿美元短短一年半时间它的估值飙升了5倍之多一定程度上也反映了市场对于“3D生成”这条路线潜力的认可虽然3D生成对世界模型的发展

有着巨大的战略意义但是它的实现难度也要比视频生成大很多首先是训练数据稀缺互联网是巨大的2D视频矿山但是3D数据却很少高质量3D数据主要靠LiDAR（激光雷达）结构光扫描仪等专业设备采集不仅设备贵流程还繁琐标注成本也比2D高出一个量级

其次是几何结构难建 3D模型需要确保生成的物体封闭无穿模无破损而预测柔体流体链式碰撞等复杂3D动态交互则难度更大了此外 3D生成对算力需求很大无论是训练中的3D渲染还是实时物理模拟计算量都远超2D模型直接推高了研究门槛

比如说我们如果生成一张图片一张图片大家可能知道也就是比如说1024x1024 大概是1million 就是一百万个像素但是你如果要生成一个3D模型的话最大的挑战就是你多出来一个新的维度那你不太可能直接用1024x1024 再乘上一个1024 这样的一种表示去做3D的这种生成要不然计算量确实是太大了

所以在这个里面大家就发明了很多新的创造性的方法就比如说我们Meshy在用的技术路线还是基于Diffusion（扩散模型）或者Auto-regressive model（自回归模型）去生成这个模型可能会先生成一个比较低的分辨率的版本我们再去把它Upscale（放大/上采样）然后在这个Upscale的过程中我们就会发现其实有一些区域它不属于我们关心的范围所以在这种情况下我们就可以把计算量集中在我们特别关心的这个区域

总结来说 3D生成路线能够更加真实地去还原世界但是它实现难度更大成本也更高不过我们以上讨论的其实都还是如何把世界给生成出来但是光有生成还远远不够因为世界模型真正的目标不是去生成一个世界而是要让AI在这个世界里面行动而这就是世界模型的目的层

就是智能体训练如果“世界生成” 是为了让AI看见世界重建世界那么“智能体训练” 就是要让AI能够在这个世界里“做事” 从“世界长什么样” 走向“我能在这个世界里做什么” 目前业界主要有两种探索路线第一条路线就是直接把世界生成模型当成“训练环境” 让AI在虚拟生成的世界里

不断去犯错探索总结最终学会一套可以迁移到真实世界的能力这一类的代表就是Google SIMA SIMA的思路就非常的直接那就是既然现实世界太复杂真实的训练太昂贵那我们就用虚拟世界来教AI如何行动而游戏成为了它最佳的训练场视频游戏作为复杂可交互实时反馈的环境

一直都是AI发展的摇篮从早期的Atari 到AlphaStar在《星际争霸II》中打到世界前0.2% DeepMind一直用游戏训练更智能的AI 而SIMA的训练方式就是把AI放进很多不同类型的游戏环境中去“练级” 最新的SIMA 2还将Gemini嵌入内核首次使用Genie 3生成的游戏世界进行了训练

SIMA 2展现出了几个令人瞩目的能力突破首先它不仅能够“跟指令做事” 还能够“自己思考” 它可以理解复杂多步抽象的任务在陌生环境中自主探索规划行动寻找解决方案其次它具有强大的“泛化能力” 能够在从未见过的游戏环境中表现出色比如说在Genie实时生成的世界中

依然能够合理地辨别方向理解指令采取有意义的行动此外 SIMA 2被设计为能跨游戏跨环境执行任务的通用智能体这也为将来的具身机器人迁移奠定了基础但SIMA想做的事情显然比“玩游戏”本身要更大游戏只是现实世界的缩影它最终想要实现的是让AI能够在任何3D世界里面

行动探索推理还有解决问题然而对于这个目标不是所有的研究者都认为 “要行动就必须先生成一个世界” 比如说就以Yann LeCun为代表的另一派就选择了一条完全不同的路线 Yann LeCun实现世界模型的思路是不用去把世界“画”出来而是让AI直接去学习世界的抽象结构在他看来不管是生成图片生成视频

还是生成3D世界生成式模型都有一个共同的问题那就是消耗了大量算力去“画细节” 却未必真正理解了世界的结构比如说人类学习走路的时候我们只需要知道地面在哪里障碍物在哪里下一步该怎么走理解世界的模型比生成世界的外观更重要这正是Yann LeCun所提出的

JEPA理论的核心思想 JEPA不预测图像不预测像素也不重建视觉内容它做的事情是把真实世界压缩成一个抽象的高维的潜在表示然后在这个潜在空间里进行预测预测的目标可以是空间上被遮挡的区域也可以是时间上的后续状态我们来举个简单的例子如果你轻轻推一个球

视频模型要预测的是下一帧里球的位置阴影光照材质反射而JEPA不关心这些它只关心球会往哪个方向滚速度会怎么变会不会撞到障碍物哪些变化与任务和决策相关它学习的是未来的结构而不是未来的画面 JEPA的基本结构可以拆成三件事首先用Encoder（编码器）将视觉和动作

压缩成抽象表征然后用Predictor（预测器）预测这些抽象状态在未来如何变化最后将预测结果与真实未来状态的编码进行对齐让模型学会捕捉世界的关键因果结构基于JEPA架构 Yann LeCun在Meta也先后发布了 I-JEPA和 V-JEPA 前者让AI理解静态图像的结构后者则是让AI学习

视频中世界随时间变化的规律 JEPA的路线背后有非常重要的技术动机首先生成像素既昂贵又低效而绝大多数的像素信息与行动决策无关 JEPA不“画世界” 因此计算成本更低其次由于只保留关键结构信息 JEPA更容易捕捉因果关系也更具跨场景跨任务的泛化能力更重要的是

这种抽象结构化的世界表示更接近机器人和具身智能真正需要的 “可操作世界” 比如说对于机器人来说它不需要知道物体的光影纹理它只需要知道物体的可达性跟自己的位置关系以及下一步该做什么而JEPA输出的就是这种结构化的抽象信息其实早在几年前 Yann LeCun就已经在为JEPA路线摇旗呐喊了但是它至今

依然没有能够成为世界模型的研究主流背后的原因是因为JEPA路线在实际推进中面临了很多现实的问题首先它是“不可见的” Sora能用逼真的画面震撼所有人 Genie可以生成可探索的游戏世界 World Labs能用3D场景告诉你 “我理解了的空间结构” 但是JEPA学到的所有东西都藏在一个抽象的潜在空间里

这意味着我们难以直接看到和验证模型到底“理解了什么” 其次它的自监督目标极难设计 JEPA不像视频生成那样有现成的目标你给它一帧让它预测下一帧 JEPA想预测的是“未来的结构” 但什么才是“结构” 哪些因素该保留哪些该忽略目前仍然没有统一的答案最后缺乏统一的评估和规模化推进体系

JEPA的表征质量藏在潜在空间里研究社区多依赖下游任务或者行为表现来评估模型缺乏类似图像生成或者语言模型那样统一的Benchmark（基准指标）这也使得不同设计路线之间的效果比较变得更加困难而正是因为这些限制 JEPA更像是一个 “世界模型的前额叶原型” 方向很可能是对的但是距离成熟落地还依然有一段距离

到这里我们把世界模型最核心的几条技术路线都已经梳理了一遍了有人用视频把世界“画”出来有人用3D把世界“搭”出来有人在虚拟世界里训练行动智能也有人干脆不画世界想让AI直接学习世界的结构当然还有一些我们没有展开的路线比如说Dreamer这一类以动力学为核心的世界模型

更加专注于控制与想象有的试图从物理规律出发用可微分模拟器去逼近真实世界也有越来越多工作正在模糊世界模型预测模型与决策模型之间的边界这些路线看起来方向不同但是它们正在指向同一个未来那就是让AI不再只是“输出信息” 而是真正地去理解世界推理世界

在世界里行动 Yiqi就表示因为目前世界模型在落地层面还在早期的阶段并没有看到哪一条路线具体的商业应用形式所以包括Meta在内的大厂们实际是在各个路线上都在做布局和研究 Meta在这个世界模型的路线上因为它不同的技术路线全部都做了主要原因是因为用户场景

还有它的不同的垂直场景它需要的不同所以说为游戏服务的我们就做了AI的这个游戏引擎叫Meta Horizon Studio 然后为了内容创作来服务我们就会做纯视频方向的然后你说我们是为了数字重建 3D重建我们就做了高斯泼溅的方式

所以一般来说我们会是希望把方方面面都能够概括进去就是各种场景都适用但是我相信其他公司也是会有类似的情况不过可以预见的是当世界模型真正成熟对产业带来的改变绝对不会只是让“视频生产效率更高”这么简单它将是一次

横跨软件硬件制造娱乐等等众多行业的系统性冲击如果说有哪个行业会最直接地被世界模型撬动那就一定是机器人行业了过去几十年机器人的发展受制于硬件算力和应用场景等多重因素但更加深层也更关键的瓶颈在于它们还不“懂”世界

因此难以实现跨环境的迁移和泛化今天的绝大多数机器人看起来都很厉害但它们做的一切本质上都是“被编程好的动作” 所以只要环境稍微变化它们就能够立刻“失能” 机器人行业过去一直难以扩张的原因就在于每一项新任务都意味着一次新的工程项目而世界模型带来的

是让机器人拥有“世界的内部模型” 它们能看到现在也能预测未来知道物体怎么动也够能推断自己的动作会产生什么样的后果它能先在脑子里模拟再决定要不要执行比如它可以模拟箱子会不会翻倒门把的角度能否顺利地转动路径是否足够安全抓取是否会失败

过去要花工程师几十小时调参的任务现在机器人在模拟世界里面自主练习就能够掌握更重要的是机器人开始具备迁移能力它不需要每次换一个物体换一个场景换一个任务都重新示教一遍它能把虚拟世界里学到的规律迁移到现实世界尽管仿真到现实的迁移至今仍是一个开放难题

世界模型有望大幅度降低这道门槛让机器人面对从未见过的物品时依然能够做出合理的决策这对机器人来说是一次范式级的改变无论是家庭服务机器人仓储机器人工厂协作机器人餐饮零售机器人还是专业级的巡检建筑医疗辅助手臂世界模型都可能成为

它们跨过智能门槛的那把钥匙大约从5年前开始马斯克就开始讲L5要来了但是为什么时到今日 L5级的自动驾驶依然没有全面普及呢背后原因之一就在于系统虽然“看得见世界” 却还难以真正预测世界我们现在常说的L2 L3自动驾驶本质上依赖的仍然是

“感知预测规划”的分层体系识别车人车道线交通灯再通过规划系统给车辆下指令特斯拉更强调用大规模真实道路数据通过端到端方式不断逼近人类驾驶而Waymo则是长期在高度结构化的系统中追求可验证的安全性但是无论是哪种路线都面临着一个共同的问题

它们对“现在”的感知已经很强但却很难稳定地理解 “接下来会发生什么” 再加上极端天气突发事故不规范行人等长尾场景在真实道路中极其稀少也成为制约自动驾驶规模化的关键瓶颈而这正是世界模型开始真正进入工程体系的地方比如说 Waymo在最近的技术博客中就提出

他们正在将自动驾驶系统的核心构建为一个Foundation model（基础模型）它采用了“分段式端到端”的架构内部可以进行端到端训练和反向传播同时又保留了对世界的结构化表达这个模型不只是完成单一任务而是学习“世界如何运转” 它被要求输出物体语义属性和道路结构等中间表征

让系统在出错的时候能够定位问题出在世界理解的哪一层这些结构化世界信息也支撑起更高质量的仿真系统不仅还原场景还能够在不同假设下预设交通参与者的行为并且在内部同时推演大量可能的决策路径从中筛选出最安全最稳定的一条这不再只是“识别” 也不只是“反应”

而是让自动驾驶系统开始具备一种接近人类驾驶的预判能力也正因为如此世界模型被认为是推动自动驾驶从局部可用走向可验证安全的大规模商业化落地的核心技术之一如今我们所熟知的可穿戴设备本质上还是停留在记录层面看上去很智能但实际上却不能理解你周围的环境

世界模型会让这一切发生质变一方面它能够让设备真正地读懂你的3D世界实时推断空间结构物体关系和潜在风险把数字内容自然融合进现实环境另一方面它的预测和规划能力会让可穿戴设备从工具变成你的“数字伙伴” 理解你在什么环境看什么可能要做什么比如提前提醒路面湿滑

在厨房识别缺少的食材甚至在你开口前就意识到你需要帮助从更长远来看这不只是设备升级而是一种新的“人机关系” 世界模型会让可穿戴设备从“信息终端” 变成随身的“世界理解引擎” 眼镜耳机手表都可能进化为与你共同生活共同行动的智能体

而这也可能会是下一代计算平台的起点如果说机器人自动驾驶等等“具身智能” 是世界模型在现实世界的落地那么内容相关的产业就是世界模型在“想象世界”里的爆发奇点了如今我们已经看到视频生成模型所带来的一些震撼效果而世界模型的到来可以让未来的内容创作

只需要给一个世界观一个任务一个初始状态模型就能自动“长出一个世界” 比如说在影视行业一个导演不需要去反复地搭景重拍做模型只要定义“这是一座被雨水淹没的城市” AI就能够生成整个城市的状态变化而在游戏行业世界模型带来的改变更是颠覆性的过去的游戏世界需要一砖一瓦搭建

地形天气物理引擎 NPC行为任务链我们需要数百人的团队花费几年时间才能够做出一个开放世界但是世界模型意味着游戏世界不需要“制作” 而可以自动生成和进化一个设计师只需要规定规则生态冲突 AI就能够生长出森林河流生物文化经济系统

甚至是NPC的性格记忆和演化方向大家以前玩的游戏都是这种静止的游戏所谓静止游戏就是这个游戏所有的规则都是提前被写好的然后有一个游戏设计师和游戏程序员去实现这一些的规则但是如果说我们能用现在这种生成式AI的技术放到这种游戏场景当中去我就可以实现我所有的内容是on the fly（即时）生成的然后每次玩都不一样

包括你看像谷歌的Genie 3 按上下左右键它可以即刻去生成你下一秒看到的东西我们在做的事情就是我们先用3D的这个Model 我们自己再做一个多模态的大模型然后这个大模型可以先去生成这个角色它的外形后面我们其实可以给它加上它的人物逻辑它的性格它的各种各样的形式的逻辑我们通过这条路径其实也可以实现一个世界模型

所以对于整个内容行业来说世界模型带来的不仅仅是制作效率的提升而是一场叙事方式创作方式内容形式的全面重写世界模型的到来还会加速AI Agent的进化当我们今天再聊AI Agent的时候很多讨论其实都集中在 Agent能不能更聪明规划能力够不够强工具调用做得够不够好

但是如果我们退一步去看会发现一个更底层的问题一直没有被真正的解决那就是Agent到底是在什么环境里面学会“行动”的从强化学习的视角看 Agent的一切能力都来自与环境的交互执行动作接收反馈但是真实世界太昂贵太缓慢也太危险几乎不可能支撑大规模试错

而世界模型解决的正是“环境”本身的问题它通过学习真实系统的数据在模型内部构建一个可运行的世界当Agent采取行动的时候世界模型可以直接推演这个动作可能带来的结果这样一来 Agent就可以在世界模型中进行大规模训练如果这个世界足够接近真实那么在虚拟环境中学到的能力

就可以稳定地迁移到现实系统中世界模型并不是让Agent立刻变得更聪明而是第一次为Agent提供了一个可训练可试错接近真实的“内在世界” 这层世界底座才是真正决定AI Agent 能否走向现实世界的关键所以世界模型它改变的不只是某一个行业某一个产品某一种形态

而是整套人与世界互动的方式陈羽北在采访当中就谈到说如果世界模型真的从根本上走通了甚至有可能创造出一种新的文明如果你能实现World model 逻辑推演所有的问题都解决了你已经包罗万象把这个世界所有的规律都已经掌握了而且可以泛化泛化到能产生新的数据产生新的意识

超越人类的程度不是简单的外延然后能够在比较根本的程度上来泛化了那么这个模型似乎已经具备了当然给定一定意识的话（这个模型）似乎已经具备了建立一种新的文明的能力当然任何足以改变技术版图的突破都会带来新的风险而世界模型的风险不再只是“胡说八道”那么简单

首先是更隐蔽也更危险的模型幻觉无论哪条路线世界模型本质上都是在给AI构建一个高度逼真的“梦境” 让它在其中模拟和推演但是虚拟世界永远无法完全覆盖真实世界始终存在Sim-to-Real Gap（虚实差异）语言模型的幻觉是编造事实视频模型的幻觉是画面错误

而世界模型的幻觉出现在整个“世界结构”里比如说误判物体重量高估动作可行性低估碰撞后果甚至构建了错误的因果关系这些问题不一定立刻会被察觉却会直接影响智能体的决策与行动进而导致机器人失常自动驾驶偏离甚至关键系统被系统性误导所以当世界模型出现幻觉

错误将是“系统级”的这也是更难发现更难对齐的风险其次是世界模型带来的权力集中问题未来可能只有极少数机构具备构建和运行世界模型的能力而成熟的世界模型意味着前所未有的预测能力对市场社会行为群体反应的高精度推演可能带来新的信息垄断

也可能会被用于更高效的社会操纵与商业操纵而更重要的是当世界模型越来越真实虚拟与现实的边界也会越来越模糊 “自主智能体”的到来也加大了AI不受控的风险一旦AI真正理解并且模拟世界深度伪造和虚假场景将进入“超真实”阶段

AR/VR世界可能与现实几乎无差甚至更具吸引力与此同时当越来越多真实系统开始依赖这些模型现实世界本身也可能反过来“对齐”模型的假设而当世界模型变成决策底座内部状态难以审计推理过程不可见我们甚至很难判断它究竟“理解”了什么

在朝什么方向演化这也意味着它所带来的监管挑战将远高于今天的大模型所以世界模型潜力巨大但是带来的风险也比我们过去面对的任何AI技术都更加危险它不只是内容层面的风险而是会真的影响到现实世界当AI不只是看世界画世界

而是开始在现实中推演行动做决定我们需要从系统对齐伦理监管所有的层面去重新讨论这件事在过去一两年我们看到 AI在语言图像视频上的极速爆发仿佛一夜之间AI已经无所不能了但当你开始思考 AI是否真的理解世界能否真的预测未来

是否能够像人类一样在世界中行动你会发现现在的大模型其实依然还停留在 “表层智能”的一个阶段而世界模型向我们提供了真正能够走向“深层智能”的可能性它让AI从“看到世界”走向“理解世界” 从“预测句子”走向“预测未来” 从“生成画面”走向“在世界里行动”

这不仅会改变机器人制造业自动驾驶内容产业也会改变我们和数字世界的关系甚至改变我们对“智能”本身的理解当然世界模型的道路还很漫长它面临巨大的技术挑战也伴随着新的风险目前我们依然不知道哪一条路线会最终胜出但是我们知道的是当AI能够真正理解世界模拟世界

在世界里面试错和行动的时候它距离“通用智能” 也就是我们一直在寻找的那个终极目标又会近了一大步而这也许就是AI时代真正的拐点而我们现在正在见证它的开端最后我们还想补充的是因为世界模型本身还是一个没有被学界和产业完全统一的定义所以我们这一期的内容

并不是想给世界模型下一个“标准答案” 而是希望从我们的视角为大家梳理出一个理解世界模型的框架不同的团队不同方向的每一条路线背后其实都牵涉到大量具体的技术细节方法选择以及仍然在快速演化的新尝试接下来我们也会持续地围绕着这个主题做更深入的拆解和系列内容

也感谢大家收看本期视频以上就是这期的全部内容了你们的点赞关注和评论是支持我们《硅谷101》做好深度科技和商业内容的最佳动力我是陈茜那我们就下期视频再见啦拜

Loading...

Loading video analysis...