资本竞逐世界模型:热潮、分歧与未竟之路
每经记者:可杨 每经编辑:魏官红
“什么是真实?你怎么定义真实?”这是电影《黑客帝国》里一句发人深省的追问。
2026年的世界模型,正在经历一个相似的时刻——如何界定定义与共识。
2026年,图灵奖得主杨立昆(Yann LeCun)与谢赛宁联合创立的AMI Labs(先进机器智能实验室),完成超10亿美元融资;李飞飞的World Labs(其创立的科技公司)同样拿到数亿美元融资;英伟达正式推出Cosmos平台;智源研究院在智源大会上发布悟界Physis v0.1……

新华社
全球顶尖资本与顶尖大脑一拥而上,但有一个问题尚未有答案:当我们在谈论世界模型时,我们到底在谈论什么?
李飞飞与World Labs团队发表了一篇文章,指出当前业界谈论世界模型时存在严重的概念混淆:一个能生成绚丽但物理上不可能的火焰的视频模型、一个即兴创作可玩游戏的语言模型、一个能准确模拟燃烧过程的物理引擎,都在使用这同一个名词。
近日,智源研究院院长王仲远坦言:“世界模型的定义到底是什么,大家还没有达成共识。”形成共识,路线方能收敛。在一个融资热度高达数十亿美元的赛道里,共识是一个必须回答的大前提。
“通用”是最根本的驱动力
李飞飞团队关于世界模型概念的文章,再度引发行业对于世界模型定义的热议。与此同时,在近期刚刚结束的智源大会上,智源研究院也表态,要为世界模型“正本清源”。
世界模型并不是一个新概念。它的出现可以追溯到1943年,心理学家最早提出了相关判断。2018年,这一概念扩展至智能世界,一篇题为《World Models》(世界模型)的论文引发了学术热潮。
如今这波世界模型热潮的起点,与Sora(美国人工智能研究公司OpenAI发布的人工智能文生视频大模型)的诞生密切相关。
2024年春节,Sora横空出世,OpenAI彼时介绍Sora是“World Simulator”(世界模拟器),以此为标志,世界模型受到了更广泛的关注。
在Sora生成的视频里,液体在流动,光影在变化,模型根据视频数据摸索出了某些物理世界的规律,通过上一帧推测猜出下一帧,随着猜对的比例越来越高,它看似越来越懂物理世界。
李飞飞的文章里用了一个词描述这类模型的本质:渲染器(Renderer)。她认为,渲染器优化的是视觉可信度,不是物理准确性。“它们的输出很美,但你无法信任它们去设计一栋建筑或训练一个机器人。”
具身智能的热潮则为世界模型添了一把猛火。
在很长一段时间里,VLA(视觉—语言—动作模型)被视为具身智能模型突破的核心路径,但因高度依赖成本高昂且产出极低的真实成功动作数据,并且无法直接利用海量缺乏动作标注的互联网视频,其面临严重的数据瓶颈。
世界模型提供了新的利用数据的方法,它的训练目标不是模仿正确动作,而是理解动作和结果之间的因果关系。在这个逻辑下,失败轨迹、无标注视频在世界模型的框架里都变成有价值的训练素材。
机器人尝试把一个杯子从桌上拿起来,手指位置偏了,杯子倒了。这段视频在VLA训练体系里可能是废品,但在世界模型的框架里,失败本身变成了信息。
智源研究院理事长黄铁军解释了为什么这一次的热潮和上一次不同:“现有VLA技术,在制造或抓取等特定场景完成任务是可以的。但我们希望具身智能是通用的,像人一样,在任何一个场景下遇到不同的问题都可以去解决,这样的模型现在还没有。”
通用,是这场热潮最深处的驱动力。
世界模型路在何方
热情一致,路线分歧,甚至彼此冲突。对于世界模型学什么、用什么方法学,当前业界有几条主流的路径。
杨立昆的JEPA(联合嵌入预测架构)是其中一条代表路径。它追求几何和动力学上的准确性,而非视觉可信度,认为视频里大量的像素信息是不可预测且无意义的,一段视频中可能包含大量的冗余信息,把模型容量浪费在学习这些统计噪声上,是资源浪费。
但问题在于,不生成可视化结果,很难直观判断模型究竟理解了什么,模型对物理世界的理解可能会“变形”。
另一条代表路径是由视频生成模型逐步迈向世界模型,它的核心主张是,如果一个模型能够生成足够准确的下一帧视频,它就已经学到了世界运行的某种规律。
清华大学计算机系教授朱军认为,和世界最相关的数据就是视频数据,它是最容易、最方便而且记录量最大的关于世界的数据。
但矛盾在于,视频生成的目标和动作生成的目标是不同的。视频生成越好,不代表动作预测越好,反之亦然。视觉可信度和物理准确性之间,有一道还没有被弥合的鸿沟。
王仲远举例说明:视频生成模型可以生成一群猪在天上和飞机一起飞,“因为视频生成模型采用大量科幻电影训练,目标本身就不是真实物理世界基座模型,只是通过大量视频学习能够捕捉到一定的世界知识”。
第三条路径认为,预测必须参与改变动作,闭环才有价值,这暗含着“性价比”也是考量因素。
星源智联合创始人孙振国的逻辑是,如果世界模型只是作为旁路的训练约束,训练开销可能远超性能提升,还不如探索VLA这种更高效的范式。
他希望世界模型参与改变动作本身:机器人即将执行一个动作时,先在内部模拟这个动作的后果,如果预测结果不理想,修正动作,再模拟,再修正,直到满意再执行,最终可以变成一个自进化的智能体。
要改变采集数据的方式
以上所有路线都要面临同一个问题——数据。
视频数据和语言数据之间有一个无法靠堆量解决的不对称问题。语言本身是一种高度浓缩的信息载体,但在视频中,绝大部分像素是背景,是与物理因果无关的细节。用视频数据训练世界模型,意味着模型需要在数百万像素里挑出真正有用的信息。
此外,物理理解不是靠观察就能学会的,它来自干预——真实世界的物理规律发生在人类和物体之间的交互中,一个孩子知道玻璃杯摔在地上会碎,不只是因为他看过,更因为他可能失手摔过,感受过力的传导,听过声音,看过碎片的飞溅方向。
昆仑万维旗下Skywork首席科学家刘扬描述了视觉信息的一个具体盲区:“我把一个杯子从桌子上拿起来,这个杯子有没有粘在桌子上导致我拿不起来?这个杯子里面的水到底是开水、温水还是冷水,视觉信息都没有办法去表达。”
智象未来创始人梅涛此前向《每日经济新闻》记者描述了他们正在走的路,即以少量真实操作数据为种子,用视频大模型进行数据增广,同样一段操作,生成在不同背景、不同光照、不同物体颜色下的大量变体,用于模型训练。
但同时也要注意,因为人类掌握的物理知识不够完备,仿真始终存在缺陷。
黄铁军认为,要改变采集数据的方式本身,而不是在现有方式上堆量。他表示,世界模型阶段需要在线的、实时的数据,让采集寄生在真实生产生活上。比如,工人正常作业时佩戴传感设备,数据自然产生,采集成本会大幅下降。
同时,当前数据处理方式是低效的,原因在于所有像素被平等处理。人类视觉系统高效,是因为注意力有选择性。“在晚上什么都看不见,突然有光一闪,人眼是可以捕捉到的,而且这时候触发的只是一个神经元,引发一系列响应,计算量和消耗的能量极低。”黄铁军表示。
王仲远画了一个时间尺度更长的框架。他说,真正催生跨时代世界模型的,可能要等到物理世界的互联网出现,就像数字世界的互联网积累了海量文字数据,催生了大语言模型,将来随着AI(人工智能)硬件越来越多,持续采集大量真实物理世界数据,才有可能形成同等规模的物理数据基础。
而这个基础,今天还不存在。
世界模型仍在经历“盲人摸象”
“现在仍处于世界模型的早期,所有世界模型领域夺冠的模型都还不是未来真正的世界模型。”智源研究院把当前的世界模型分为四类:以语言为中心的世界模型;以像素为中心的世界模型,即视频生成;以三维结构为中心的世界模型,包括3D(三维)重建;以视觉表征为轴心的世界模型。
但王仲远指出,四类模型距离真正面向物理世界的基座模型都有很大的距离。
世界模型离我们究竟还有多远?各方给出的时间判断差距之大,本身就说明了这个领域的真实状态。
银河通用创始人王鹤的预测最乐观,但他针对的是一个非常具体的目标,他认为WAM(World Action Model,世界行动模型)打破数据来源约束之后,具身智能里的核心操作任务将在两年内达到关键里程碑,但前提条件是:行业需要千万小时的高质量数据,以及百亿元级的资金投入,才能成为冲刺的入场券。
黄铁军把目标降到更加具体的层次:“未来两三年,能跟人日常工作相比的世界模型,是有可能出来的。”他解释了这句话的含义:做物理性工作的人的常识性能力,不是科学家的水平,只是在日常生活场景里做出合理的物理判断和动作。
王仲远的判断是至少还需要好几年,“很可能卡在一个地方三五年都没有突破,也有可能突然就突破了”。
他同时给出了一个具体的能力标准:一个小朋友正在睡觉,厨房声音很大,家人只要挥一下手,大家就知道应该关门。这种基于当前物理状态、不需要语言的直觉式预测和决策,是基本能力门槛。
在连评测标准都没有共识的领域里,时间表本身就是一个没有统一参照系的数字。王仲远也谈到了这一点:“世界模型目前缺乏非常严谨的评测框架和体系。现在很多世界模型的评测都是以视频生成评测为重点,但不代表完整的未来世界模型作为基座模型的核心能力。”目前智源研究院正在构建世界模型的评测基准,核心问题只有一个:能否对下一个物理状态做出正确预测。
黄铁军用“盲人摸象”来描述世界模型现在的状态:“现在各类视觉模型都是在往一个真正的世界模型靠近的过程,可能都抓住了其中某一个方面的特征,但又没有抓住全部,就跟盲人摸象一样,摸着耳朵说是大象,摸着腿也说是大象。”
不过,在盲人摸象的故事里,大象是确定存在的,只需要把各部分拼在一起。世界模型的问题则在于,完整的大象究竟是什么样子,目前没有人真正见过,也没有一套公认的方法验证你是否已经摸到了它。
朱军的一句话,或许道出了这个领域某种更深的困境:在复杂的、开放的场景里,很多时候我们并没有清晰或单一的目标,可能优化的是一个多维度的东西。
如何把适应物理世界这件事写成一个可优化的目标函数,本身就是一个没有被解决的根本问题。
在描述世界表象与理解世界本质之间,是世界模型仍在攀爬的距离。
每日经济新闻
大家都在看
-
资本竞逐世界模型:热潮、分歧与未竟之路 每经记者:可杨 每经编辑:魏官红“什么是真实?你怎么定义真实?”这是电影《黑客帝国》里一句发人深省的追问。2026年的世界模型,正在经历一个相似的时刻——如何界定定义与共识。2026年,图灵奖得主杨立昆(Yann ... 世界之最06-24
-
世界上最和平的分裂,一国分裂成了两国,现在两国关系却非常亲密 二十世纪末的欧洲地图上,曾上演过不少国家解体的戏码。南斯拉夫陷入长达十年的内战泥潭,苏联十五个加盟共和国在仓促间各奔东西,唯独中欧腹地的捷克斯洛伐克走出了一条令国际社会瞩目的路。这场被史学界称作"天鹅 ... 世界之最06-24
-
2小时千万点赞!C罗封神让全网沸腾!记者:禁区内他仍是世界最佳 #世界杯我来评# 世界杯的赛场从不缺新星闪耀、热血对决,但总有老将以极致的自律与热爱,打破岁月桎梏,续写足坛不朽传奇。在美加墨世界杯小组赛第二轮的焦点之战中,葡萄牙队迎来强势反弹,以5-0的悬殊比分大胜乌兹 ... 世界之最06-24
-
罗伯逊:阿利松一直都是世界最佳门将,希望他明天不要零封 苏格兰将在本届世界杯小组赛第三场对阵巴西,队长罗伯逊出席了赛前新闻发布会,本文是发布会的第一部分。我们刚刚采访了史蒂夫,他表示希望这会成为你和球队人生中最美好的一个夜晚。你是否也这样看待这场比赛,把它 ... 世界之最06-24
-
贝格:厄德高是世界上最好的球员之一,也是我见过最棒的人之一 北京时间6月23日,世界杯小组赛,挪威对阵塞内加尔,最终挪威3-2击败了塞内加尔,赛后挪威球员贝格接受了NRK的采访。谈队长厄德高“首先,我爱马丁(厄德高)。他是我最好的朋友之一,我们一起经历了很多,也相识很 ... 世界之最06-24
-
当今世界最先进的10款军用无人机盘点:无人作战正在改变天空 从“高空长航时侦察”到“察打一体”,再到与有人战机协同的“忠诚僚机”,军用无人机早已不只是镜头上的侦察平台。它们正在承担远程监视、海上巡逻、电子侦察、精确打击和有人—无人协同等任务。下面这10款无人机, ... 世界之最06-23
-
世界深度排名前三的河流,长江位居第二,最深处在西陵峡 河流是最常见的自然地理实体之一,一般我们在比较河流大小的时候,会以其长度、流域面积、流量等数据进行比较,今天我们换一个角度,以最大深度来看,那么全世界最大深度排名前三的河流又有哪些?下面就一起来了解一 ... 世界之最06-23
-
攻克多项重大关键技术,世界最前沿!我国首台机组,自主知识产权 内容提要广东阳江抽水蓄能电站(简称阳江抽蓄电站)位于广东省阳春市与电白县交界处的八甲山区。阳江抽蓄电站是我国单机容量最大、钢筋混凝土衬砌水道水头最高的抽水蓄能电站,是我国超高水头、40万kW级抽水蓄能机组 ... 世界之最06-23
-
佛得角逼平两个世界冠军,这里有全非洲最舒适的夏天? 2026年美加墨世界杯上,首次参赛的佛得角队先后0-0逼平西班牙、2-2逼平乌拉圭,两战积2分成为本届最大黑马。而早在世界杯预选赛上,这个在地图上小到几乎看不见的国家佛得角共和国(The Republic of Cabo Verde)已 ... 世界之最06-23
-
世界上有3件事最愚蠢,一是把钱借出去,等别人主动还······ 大家好我是芸芸,每天给大家带来最新动态 ,内容随缘更,每篇都掏干货;如果你觉得这些信息对生活有用,就点个关注~人这一辈子,吃过的亏、栽过的跟头,大多不是因为不够聪明,而是因为太过心软、太过天真,总喜欢 ... 世界之最06-23
相关文章
- 被问认为当今世界最强大的领导人是谁时,特朗普点名印度总理莫迪
- 这个世界最稀缺的,从来不是聪明,而是长期坚持
- 世界上最伟大的三个字
- 达瓦萨里:尽管输球,但我们仍然是世界上最强大的球队之一
- 多萨里谈0-4西班牙:我们也是世界上最优秀球队之一 下场会更强大
- 世界排名升至第一!标枪女皇严子怡首次登顶,望开启漫长王朝统治
- 你认为世界上最伟大的人是谁
- 八颗牙微笑机器人:世界上最伟大的演讲露几颗牙?
- 深圳城市指数在新加坡世界城市峰会发布
- 四成美国人不相信美国还能撑250年,仅约30%的受访者认为美国是世界上最伟大的国家
- 世界上最可怕是人性的丑陋。任何关系在利益面前,都不堪一击
- 世界上最有“价值’’的足球运动员梅西
- 世界最大拉力隧道锚正式进洞
- 世界上最苦的两个人,一个是父亲,一个是母亲。。。
- 世界上最不起眼的小国,却创造了一个足球奇迹,令人刮目相看
- 99.99%!中国造出"世界上最纯净的硅",量子芯片终于有"米"下锅了
- 当今世界最强10支国家足球队排行榜,你觉得它们谁最有可能夺冠?
- 世界上 "最" 有力的一句话!
- 历史性突破!中国有了世界排名前10的大学,美国人也拦不住了
- 真相第54篇:低调的世界顶尖名校!苏黎世联邦理工,实力不容小觑
热门阅读
-
挑战极限!中国人又创造了一项世界之最 01-07
-
世界最漂亮的十大美女,盛世美颜,你喜欢哪一位? 04-10
-
盘点一下世界之最,最长丁丁竟然有60㎝!! 04-26
-
全球最值钱的五大货币,竟然没有人民币和美元 05-10
-
莉娜·安德森 - 世界上最美丽的成人模特 09-25
