mt logoMyToken
ETH Gas
EN

李飞飞团队厘清“世界模型”概念,Sora只能算渲染器

Favoritecollect
Shareshare

2026年6月3日,World Labs团队与斯坦福大学教授李飞飞联合发布了一篇概念分析文章,标题直白到几乎没有修饰:《世界模型的功能分类法》。文章开篇第一句话就戳破了一个行业默契:“世界模型是当今人工智能领域最重要、也最被滥用的术语之一。”

这句话的背景,但凡关注过AI行业的人都不陌生。

2024年2月,OpenAI发布视频生成模型Sora,技术报告标题赫然写着“视频生成模型作为世界模拟器”。NVIDIA机器人总监Jim Fan当时在LinkedIn上留下一句后来被反复引用的评论:Sora本质上是一个“只允许无操作作为唯一动作的世界模型”。另一头,据公开报道,特斯拉AI团队在公开场合多次将全自动驾驶系统内部的预测组件称为“世界模型”或“世界模拟器”。游戏引擎、3D生成工具、具身智能模型,各类产品和技术都被塞进同一个筐里,贴上了同一张标签。

一个视频生成器,一个自动驾驶预测网络,一个机器人控制模型,一个物理引擎,它们有什么共同点?几乎没有。但它们都被叫做“世界模型”。

这场持续两年多的概念混乱,终于有人试图系统性地梳理清楚。李飞飞团队这次没有发布新模型,没有公布新基准,没有演示任何产品功能。他们做了一件更基础的事:回到部分可观马尔可夫决策过程这一理论源头,把所有市面上被称作“世界模型”的系统,归约为同一个认知循环的三种不同功能投影。

三种投影分别是:渲染器、模拟器、规划器。在World Labs的分类框架下,Sora及其同类视频生成模型,属于渲染器。

一个术语为什么能装下如此多彼此矛盾的含义

要理解这场混乱的根源,需要先追问一个更基础的问题:当一家公司在说“我们在做世界模型”时,它到底在说什么?

对OpenAI来说,Sora的目标是“理解并在视频中呈现物理世界”。从技术报告看,Sora通过学习海量视频数据中的统计规律,能够生成符合视觉常识的画面,杯子掉在地上会碎,纸飞机脱手会飞,人在走路时双腿交替摆动。这些画面看起来“懂物理”。

对特斯拉来说,“世界模型”是FSD系统中预测道路参与者在未来数秒内运动轨迹的神经网络。它需要输出精确的3D位置、速度、朝向,供路径规划模块计算安全的驾驶决策。这个模型不需要输出像素,它输出的是向量和概率分布。

对机器人公司来说,“世界模型”是让机械臂能够预判“如果我把这个杯子向左推5厘米,它会倒吗”的内部模拟机制。它需要理解物体属性、接触力学和稳定性,输出的是动作可行性评估。

三类公司的目标完全不同。视频生成公司关心像素保真度,自动驾驶公司关心物理状态预测的精度,机器人公司关心动作后果的可推演性。它们都在做“世界模型”,但做的根本不是同一件事。

World Labs在文章中直指问题核心:这些系统之所以都被冠以同一个名字,是因为它们确实都承载了“理解世界”的某一个侧面。但它们各自只完成了完整认知循环中的一个环节,却被营销语言、媒体报道和资本叙事包装成了完整的世界模型。

概念混乱的另一个推手是术语本身的张力。“世界模型”这个词自带宏大叙事属性,听上去比“视频生成模型”或“视频预测模型”更有想象空间,更能支撑高估值和融资故事。当技术能力无法匹配公众期待时,概念沦为宣传工具就成了必然。

回到1960年代,完整的“世界模型”应该是什么

World Labs的分类框架建立在一个看似古老的理论基础上:部分可观马尔可夫决策过程。

这个框架描述的是一个智能体与环境交互的完整循环。智能体处于某种环境状态中,它执行一个动作,动作改变环境状态,智能体通过传感器获得部分观测,观测触发内部状态更新,更新后的认知驱动下一个动作。循环往复。

在这个框架下,“世界模型”的完整功能应该包含三个环节:从状态生成观测(人眼看到或传感器采集到的像素、点云等),从动作和当前状态推演下一状态(预测物理变化),从观测和目标生成动作(决策规划)。

语言模型学习的是文本序列的统计规律,世界模型学习的则是空间和时间的统计特性。光照如何在不同材质表面反射,物体在重力作用下如何运动,刚体碰撞后能量如何传递,这些才是世界模型要捕捉的规律。

World Labs团队在文章中指出,当前市面上所有被称作“世界模型”的系统,实际上只是上述完整循环中某一个功能环节的投影。有的系统只做“从状态到观测”的渲染,有的只做“从动作到下一状态”的状态推演,有的只做“从观测到动作”的规划。它们各自截取了循环的一段弧线,却被各自贴上了代表完整圆形的标签。

这个分析框架的价值在于,它提供了一个超越营销话术的比较坐标系。不管一家公司怎么包装自己的产品,只要把它放回POMDP循环里,看它输入什么、输出什么、缺什么环节,它的能力边界就暴露无遗。

渲染器、模拟器、规划器,三种投影的能力边界

World Labs的分类法中,第一类被定义为“渲染器”。它的核心目标是生成面向人类视觉感知的高保真像素输出。输入是某种环境状态的表征(可以是文本描述、3D场景参数或隐式编码),输出是一帧一帧的连续画面。

渲染器优化的方向是视觉逼真度而非物理精确度。World Labs文章明确指出,渲染器生成的建筑可能“摇摇欲坠”,因为它并不真正解算结构力学方程;它生成的液体泼溅可能看起来很真实,但液体体积、流速和冲击力可能与真实物理量完全不对应。所以这类模型不能用于建筑设计,不能用于机器人训练,不能用于需要物理上精确模拟的任务。

Google的Genie 3、各类文本转视频模型、以及几乎所有AI视频生成工具,都属于这一类别。Sora当然也在其中。

第二类是“模拟器”。它的核心目标不是生成给人看的画面,而是生成可供后续计算使用的精确状态。输入是当前环境状态和外部作用力(或动作),输出是物理和几何上忠实于真实世界规律的下一状态。模拟器输出的状态可以用来做应力分析、能耗计算、碰撞检测,也可以作为渲染器的输入来生成可视化画面,但它的核心价值在于状态本身的可计算性。

NVIDIA Omniverse是这类系统的典型代表。它不是AI原生模型,而是一个融合了传统物理引擎和AI加速计算的数字孪生平台。World Labs在文章中评价,模拟器是连接渲染和规划的桥梁,但高质量3D物理标注数据的稀缺是主要瓶颈。据World Labs在文章中估计,用于训练这类模型的数据,比互联网上可获取的视频数据少几个数量级。

第三类是“规划器”。它的输入是观测数据(摄像头画面、激光雷达点云、触觉传感器读数等)和目标指令,输出是下一步该执行什么动作。VLA(视觉-语言-动作)模型和World Action Models都属于这一类。

三大分类之间的差异,不是技术路线的细微分歧,而是根本性的功能分化。渲染器输出像素给人看,模拟器输出状态给机器算,规划器输出动作给执行器跑。一个系统可以同时具备多种能力,但当大多数被叫做“世界模型”的系统本质上只做渲染时,把“渲染”等同于“理解世界”就是一种严重的认知错配。

一场持续两年的争论,Sora到底是不是世界模型

2024年2月,OpenAI发布Sora,技术报告标题直接写上了“视频生成模型作为世界模拟器”。这一用词当即引发学术界和开发者社区的激烈争论。

支持者认为,Sora生成的视频展示了3D空间一致性、物体持久性和对物理交互的某种直观理解。一块被咬过的汉堡会留下齿痕,一只狗在雪地里跑会溅起雪花,这些细节似乎表明模型学到了一些物理规律。

反对者的核心论据来自强化学习领域对世界模型的经典定义:一个世界模型必须能够基于动作进行状态转移预测。也就是说,给定当前状态和一个动作输入,模型应该输出动作之后的下一个状态。Sora做不到这一点。用户无法告诉Sora“从左边推开那个杯子”,然后观测杯子是否会倒、往哪个方向倒、碎片飞到哪里去。

Jim Fan的评论精准抓住了这个矛盾:“Sora本质上是一个世界模型,只是它只允许无操作(no-op)作为唯一动作。”这句话的意思是,Sora确实在预测环境随时间的变化,但这个变化过程不受任何外部干预,只能沿着视频数据中固有的因果链展开。它不是在做交互推演,而是在做被动观测序列的续写。

Reddit的r/MachineLearning版块上,不少强化学习研究者表达了更尖锐的批评:不能基于动作进行状态转移预测的系统,不能叫世界模型,只能叫视频预测模型。

World Labs的分类框架为这场争论提供了一个定论式的回答。在POMDP循环中,动作是驱动状态转移的关键输入,缺失这一输入的系统只是完整认知循环中“观测生成”环节的投影。Sora属于渲染器,不是完整的世界模型,更不是世界模拟器。

但这不意味着Sora没有价值。渲染器解决的是一个不同的问题:如何生成符合人类视觉预期的画面。这个问题本身就极其困难,也有巨大的商业价值。问题在于,把渲染能力包装成“理解世界”的能力,会误导技术决策者和投资者,让人误以为这些模型已经具备了物理推演或具身交互的能力。

概念澄清的产业价值

厘清“世界模型”的定义边界,不是一场学术上的咬文嚼字。它直接影响技术选型、投资判断和公众对AI能力的认知水位。

对于一家正在评估是否将某个“世界模型”用于机器人训练的制造企业来说,搞清楚这个模型到底是渲染器、模拟器还是规划器,是避免数百万美元试错的必要前提。一个只能生成视频画面的模型,无论画面多么逼真,都不能替代对物体受力、运动轨迹和碰撞后果的精确计算。

对于投资机构来说,区分三类投影意味着可以更准确地识别项目所处的技术栈位置。一个自称“世界模型”的初创公司,如果产品本质上是一个渲染器,它的竞争对手是视频生成公司,而不是数字孪生平台或机器人控制模型。这直接决定了市场规模的估算方式和对标公司的选取。

对于学术界来说,清晰的分类是建立可比基准的前提。如果“世界模型”这个术语继续被泛化,研究者就难以定义什么算改进、什么算突破,同行评议将建立在歧义的基础上。

World Labs在文章中也指出,概念澄清不是为了制造对立。未来的发展方向将是三类投影的融合。一个真正理解杯子物理属性的模型,应该能同时渲染它的视觉外观、模拟它被推倒时的物理过程、并规划机械手如何稳定地抓取它。但在技术发展到那一步之前,认清各自的边界比畅想融合更有现实意义。

据World Labs在文章中估计,以NVIDIA Omniverse为代表的模拟器及数字孪生技术,瞄准的是工厂、仓库、供应链等领域超过万亿美元的潜在市场。这个数字来自厂商自身的判断,至于市场何时能真正达到这个规模,取决于模拟器能否突破高质量3D物理数据稀缺的瓶颈。

对于当前阶段的AI行业来说,最重要的认知或许很简单:能生成逼真视频,不等于理解物理世界;能被叫做世界模型,不等于真的在模拟世界。穿透营销语言,审视一个系统在POMDP循环中到底接受什么输入、输出什么结果、缺少哪个环节,是对技术能力边界最诚实的判断方式。

Disclaimer: This article is copyrighted by the original author and does not represent MyToken’s views and positions. If you have any questions regarding content or copyright, please contact us.(www.mytokencap.com)contact
More exciting content is available on
X(https://x.com/MyTokencap)
or join the community to learn more:MyToken-English Telegram Group
https://t.me/mytokenGroup