刚刚,李飞飞亲自下场定义世界模型
鱼羊 发自 凹非寺
量子位 | 公众号 QbitAI
世界模型火,火到都有点乱了。
单单一个定义,就越来越众说纷纭:视频生成模型可以是世界模型,能生成游戏的语言模型也被叫世界模型,还有人把物理引擎也塞进这个筐里……
乱,乱得李飞飞本人都有点看不下去了。刚刚,她亲自撰文,给世界模型来了个清晰的功能分类。

用词毫不客气:世界模型是当今人工智能领域最重要也最被滥用的术语之一。
古希腊人无法就世界的构成达成共识,因为“世界”从来不是一个单一的实体。人工智能也继承了同样的问题,而此时,这个领域恰恰最需要的就是精准性。
至少,要先分清三件事:
渲染、模拟、规划。
话不多说,赶紧一起来做笔记。
世界模型的三大功能
李飞飞首先拆析了世界模型的技术意义。
智能体(人、机器人或系统)会采取行动,这些行动会影响世界的状态。
所谓“状态”,是对某一特定时刻世界所发生的一切的完整描述,包括每一个物体、每一个位置、每一个速度和每一个属性。
观察是主体对这种世界的客观实在的局部感知。行动是主体对这种实在的回应。
主体→行动→状态→观察→返回,赋予了“世界模型”以技术意义。现在被称为世界模型的各种事物,实际上是同一个循环的不同投射。
具体到功能上,李飞飞认为,世界模型具有渲染、模拟、规划三大功能。
其中,模拟器获得关注最少,但最关键,是连接渲染和规划的桥。

渲染器
渲染器输出给人看的观察结果,核心指标是视觉保真度。
谷歌的Genie 3,以及李飞飞自家World Labs的RTFM,都属于渲染器。
这些模型本身并不具备对三维结构的明确理解。它生成的是观众看到的画面,而不是实际存在的画面。
比如,AI生成的无人机航拍镜头中,建筑物从空中俯瞰可能完美无瑕,但如果你开车穿过下面的城市,就会发现它们摇摇欲坠。

李飞飞认为,渲染器是目前商业上最成熟的技术。比如Nano Banana,就是风靡全球的代表。
局限性在于,渲染器优化的是视觉上的逼真度,而非物理上的精确度。其输出结果非常吸睛,但无法用于建筑设计或机器人训练这样与现实世界结合更紧密的场景。
规划器
规划器输入观察和目标,输出下一步动作。
VLA模型和新一代世界动作模型都属于规划器,这些系统决定了机器人在非结构化世界中应该做什么。
规划器最吸引人,也最具发展潜力。具身智能就与此紧密相关,而大量热钱也正在涌入这一环节。
但李飞飞指出,近年来很多令人印象深刻的机器人演示,都局限于高度受限的实验室环境,目标对象范围狭窄,任务周期短,无法在真实世界部署所需的复杂性、可变性和持续时间下进行验证。
模拟器
模拟器输出可计算、可交互的状态,强调几何、物理、动态一致性。
模拟器要求几何结构经得起检验,在物理上符合物理定律,其动力学行为符合世界运行的方式。

模拟器同时服务于两个用户群体:
建筑师、设计师、电影制作人和游戏开发者等专业人士需要超越视觉逼真性的精确度。
强化学习智能体、机器人控制器和自动驾驶等领域则将模拟器作为训练场,以大规模地与世界交互,测试那些在现实中危险、昂贵或不可能运行的场景。
李飞飞认为,模拟是连接渲染和规划的桥梁。
如果说语言是对世界的抽象,像素是对世界的投影,那么几何、物理和动力学就是世界本身。
而模拟器,正是视觉外观(对于渲染器而言)和动作后果(对于规划器而言)得以生成的结构骨架。
仿真模型可以将自身的理解转化为像素图像供人类使用,并预测实体智能体的行为。机器人训练、自动驾驶测试、建筑可视化、工程设计和药物研发等都依赖于某种仿真技术。
其商业应用前景极其广阔,比如英伟达的Omniverse平台,就瞄准了这一超万亿美元的潜在市场。

问题在于,能用来训练模型器的数据太少了:具有明确几何形状、材料属性和物理标注的三维数据比渲染器训练所用的互联网视频少几个数量级。
模拟本身就与现实存在差异,而生成式模拟器还引入了新的风险:AI生成的东西可能看起来正确,但细究起来又有很多不符合物理的地方。
大规模多物理场模拟(刚体、可变形物体、流体、布料相互作用……)的成本更是比单域模拟高出几个数量级。
World Labs自家产品Marble旨在突破模拟环节的瓶颈:它支持文本、图像、视频或空间草图等多模态输入,生成可探索3D环境,并输出Gaussian splats和可供物理引擎操作的碰撞网格。
但李飞飞也强调:Marble仅仅是这一领域漫长发展历程的开端。
边界正在消融
李飞飞在这篇文章中的另一个关键观点是:三类模型正在相互融合。
渲染一个世界、模拟一个世界、在一个世界中行动,所需要的知识,在很大程度上是同一套知识。
举个例子:
如果一个模型真正理解一个杯子是如何放在桌子上的,包括其几何结构、材料属性、受力反应等等,那么它就应该能够从任意角度渲染这个杯子,模拟杯子被推动时发生什么,并规划一只手如何把它拿起来。
这三类能力,其实是对同一种底层理解的三种投影。
近期研究已经证明,至少在概念上,一个预训练视频渲染器可以作为联合世界预测和行动预测的骨干网络。
这暗示了渲染器和规划器之间的一座桥梁:
让同一个模型既想象接下来会发生什么,也想象接下来应该做什么。
Marble从单个模型中同时输出Gaussian splats和碰撞网格,就是渲染器和模拟器之间边界消融的一个体现。
每一个层级都在从被动输出,走向交互系统。渲染器正在变得以行动为条件。模拟器正在生成更可控、更可编辑的世界。规划器则正在从单纯反应,走向真正的审慎思考。
这个逻辑终点,是一个统一的世界模型——
一个基础模型,既能够渲染照片级真实的视图,也能生成物理准确的结构,并规划行动序列。
核心的挑战仍然是数据。
渲染器拥有海量互联网视频,但模拟器和规划器却严重缺乏3D资产和机器人演示数据。
追求视觉美感,可能会牺牲机器人或高保真模拟所需要的精度。如何在单一架构中调和这些矛盾,是今天世界模型研究最核心的开放问题。
但李飞飞乐观地表示:方向已经很清楚了。
三条本来相互独立的研究线索,如今各自已经驱动并塑造了数十亿美元级别的产业。而现在,它们开始表现得像同一件事。
当它们的边界共同塌缩,这种变化将重塑一个更大的问题:机器智能,和它所处的物理世界之间的关系。
这就是空间智能的漫长弧线。语言给了机器一种谈论世界的方式,而世界模型,将是机器最终理解、想象、推理并与世界互动的方式。
原文链接:
https://x.com/drfeifei/status/2062247238143996275
大家都在看
-
背债38亿被逼卖广场!老王死磕不赖账,拆掉帝国守住底线! 商海潮水退去,究竟谁在裸泳?有人连夜遁逃,有人金蝉脱壳,偏有位七旬老汉死磕到底。八年时间,两千亿身家灰飞烟灭,一手缔造的万达帝国拱手让人,如今更因连带担保背上38.6亿被执行债务。首富光环碎了一地,王健林 ... 商业之最06-04
-
马斯克,又开始圈地了! #时政观察员#马斯克的S-1读了又读,从发射成本讲到星链收支,从月球基地扯到星际文明,读到最后,却发现少了三个最重要的字—— “圈地权” ,而这或许才是让SpaceX成为史上最伟大房地产公司的秘密。你留意到了吗? ... 商业之最06-04
-
未来两周密集催化落地!商业航天迎来兑现窗口,不是单纯题材炒作 郑重声明:本文所有事件、时间节点、产业逻辑均来源于官方公开信息、企业发射计划、政府产业公示、行业招标公告,仅做产业客观复盘与市场逻辑科普,不推荐任何个股、不给出买卖点位、不预测股价涨跌。行业项目存在延 ... 商业之最06-04
-
刚刚,李飞飞亲自下场定义世界模型 鱼羊 发自 凹非寺量子位 | 公众号 QbitAI世界模型火,火到都有点乱了。单单一个定义,就越来越众说纷纭:视频生成模型可以是世界模型,能生成游戏的语言模型也被叫世界模型,还有人把物理引擎也塞进这个筐里……乱, ... 商业之最06-04
-
超市货架最中间的商品,为什么永远卖得最好?这不仅是商业阴谋 你去逛超市的时候,有没有发现一个奇怪的规律:无论你买洗发水、买零食还是买罐头,那些摆在货架正中央、视线平齐位置的牌子,往往都是你最后放进购物车的那个。你以为是你眼光好,选了“性价比之王”?其实,你只是 ... 商业之最06-04
-
九龙坡最"意难平"的商业——杨家坪中迪广场,一手好牌打得稀烂! 说到重庆商业的"意难平",杨家坪中迪广场认第二,估计没人敢认第一。你就想想——正儿八经卡在杨家坪步行街核心位置,隔壁就是西城天街、大洋百货,轻轨2号线杨家坪站步行两分钟,这地段放全重庆都是顶流! ... 商业之最06-04
-
钟楚红除了《纵横四海》,还有哪些巅峰期港片值得补看 很多人走进影院看《纵横四海》4K重映,是为了重温那场著名的轮椅舞,和钟楚红饰演的美人红豆。但这里藏着一个容易被忽略的认知缺口:这部1991年的电影,其实是她巅峰期的收官之作。在1985年到1991年的黄金六年里,港 ... 商业之最06-03
-
贾跃亭再被恢复执行26亿:九年“下周回国”,他到底欠了多少钱? 【本文仅在今日头条发布,谢绝转载】本文作者——陆仰川|资深媒体人6月1日,天眼查法律诉讼信息显示,乐视控股(北京)有限公司及其实际控制人贾跃亭新增一则恢复执行信息,执行标的26.1亿余元,执行法院为北京市第 ... 商业之最06-03
-
你我都能看到的现实,照见“最大”和“伟大”的企业。 文|了然热谈打开任何一份商业榜单,排在最前面的永远是那些数字最耀眼的公司:千亿营收、万亿市值、百万员工。我们早已习惯用规模定义成功,用体量衡量价值,却很少停下来问一句:这些“最大”的企业,真的“伟大” ... 商业之最06-03
-
八年散尽千亿商业版图,负债36亿的王健林,输了帝国却赢了体面 商界大浪淘沙,潮退方见人心。地产行业深度调整的八年间,无数民营企业家身陷债务危机,有人转移资产、远走他乡,有人甩下烂摊子让市场与百姓买单。唯独72岁的王健林,用八年时间亲手拆解自己缔造的千亿万达帝国,直 ... 商业之最06-03
相关文章
- 昆明卤菜“金马大战”遇冷场,排队神话终破灭,竟因直播间一句
- 别用管理上的勤奋,掩盖经营上的懒惰
- 中路财神王亥:华夏商业始祖,被世人遗忘的正财神,经商之人必拜
- 商业帝王李嘉诚,他最狠的不是赚钱,而是“看不懂”的选择
- 普通人的胜利把”:罗布森·沃尔顿的商业天才与人生底色
- 全球帝国:1美元神话成就辉煌!
- 胶卷相机的生死对决:柯达为什么死了,富士为什么活了?
- 贝索斯:创新与远见铸就的商业传奇
- 王健林的面相变化,说明了他的命运轨迹,体现了行事风格特点
- 天涯社区的商业模式是怎样的
- 帕乔利密码,商业史上最伟大的发明,帮你识破财务造假
- C罗41岁仍狂揽3亿美金!福布斯最高收入运动员榜单他已6次登顶
- 中国首富沉浮录:四十年财富赛道大洗牌(1)
- 商业航天+军工,最硬的上游:陶瓷基板、MLCC、功率半导体龙头
- 商业巨子的人性解码:为啥洞见者,常成“殉道者”?
- 触类旁通
- 葛昱菲:商业的终极回归---数字化以物易物
- 江苏淮安,到底骗了多少人?居然拥有10个“中国之最”!
- 荷兰人不敢狂了,高盛调研ASML,中国光刻机订单成最重一点
- 心软之人勿看!拿捏一个人最狠毒的6种手段,让你赢得体面
热门阅读
-
世界上最小比基尼,几根绳子也能叫比基尼 07-14
-
性主题餐厅 一个让人面红耳赤的地方 07-14
-
胡文海事件真相,以暴制暴杀了村干部等14人 07-14
-
好日子香烟价格,多款不同系列价格口感介绍 07-14
