本文来自微信公众号:潮涌AI(ichaoyongai)。
AI的下一波浪潮,无疑就是物理AI和世界模型。
但在热潮之下,整条赛道同样暗藏多重待解的行业困局,有关技术路线、训练数据、算力成本、虚实迁移适配度、商业化落地周期等痛点,仍需多方齐力攻破。
7月3日,北京智源人工智能研究院院长王仲远在“2026全球数字经济大会人工智能融合应用发展论坛”上发表了《世界模型:面向真实物理世界的下一代基座模型》主题演讲,直接分享了关于智源研究院在世界模型方向的一些思考,以及最新的研究进展。
以下是王仲远演讲实录,经潮涌AI整理发布:
01 世界模型不是新概念,但现在是关键节点
世界模型这个概念,其实并不是全新的。
早在1943年,心智模型就被广泛认为是世界模型最早期的理论源头。
到了上世纪90年代,随着强化学习的兴起,世界模型被引入到计算机科学领域。这几年,大语言模型的能力遇到了一些极限,也让世界模型又一次被广泛提及和讨论。
智源研究院是国内最早提出并且开展世界模型研究的科研机构。早在2024年的智源大会,智源就提出了世界模型是通往物理世界的一个关键路径。
去年智源大会,智源正式发布了“悟界”系列大模型,旨在解决人工智能从数字世界迈向物理世界的关键能力,构建面向物理世界的基座模型。
02 悟界·Emu:多模态世界基座模型
2024年10月,智源发布了悟界·Emu3,去年10月底发布了悟界·Emu3.5,这是多模态的世界基座模型。
悟界·Emu通过一个非常极简的范式,实现了文字、视频、图像的统一学习,同时实现了多模态理解任务和多模态生成的统一学习。这个原创成果在今年1月份登上了Nature的正刊,创造了国产多模态大模型的众多纪录。
和传统的大语言模型不同,视频是真实世界最有效的载体。
视频里面包含时间、空间、物理、因果关系和意图等多种要素,而且是能够海量获取的数据载体。
对比上一代模型,悟界·Emu3.5的视频训练总时长有了50余倍的提升,并且采用了自回归的架构,能够大规模复用现有的计算基础设施。
随着悟界·Emu3.5的成功训练,我们相信找到了多模态的范式。在训练的过程中,智源也感受到人工智能正在经历一场深刻的范式变革——
下一个物理状态的预测,这就是世界模型的核心本质。
03 四类世界模型技术路线,都不一定是真正的基座模型
过去一年,世界模型可以说是异常火热。
智源梳理了一下现有跟世界模型相关的技术路线,大致分为四类:
第一类是以语言为中心的世界模型,包括VLM、VLA,模型在文本空间中预测下一个词,学到的是语言描述的世界,并不能理解背后的物理后果;
第二类是以像素为中心的世界模型,像Sora和Seedance等视频生成类模型,在视觉空间中学习视频或图像,学到的是像素描述的世界;
第三类是以三维结构为中心的世界模型,包括3D重建以及李飞飞团队的World Labs Marble模型,不过模型重建3D空间不等于理解世界,几何结构也不代表物理状态;
第四类是以视觉表征为中心的世界模型,比如杨立昆的JEPA系列模型,预测的是视觉表征的压缩,但视觉嵌入演化不等于物理规律演化。
智源认为,这四类都不一定是真正意义上的世界基座模型。
作为下一代的基座模型,必须是全模态,并且以下一个物理状态预测为核心,能够真正感知、理解真实物理世界的时间、空间、物理规律和物理常识,并且具备交互的能力。
可以说,完全符合这些条件的世界基座模型,目前还没有诞生。
因此,我们认为,世界模型仍处于研究的早期阶段,还需要开展大量的科研探索工作。
04 悟界·Physis:隐空间建模的新思路
智源提出了以隐空间进行建模的新思路,这就是悟界·Physis。
通过隐空间建模,能够真正实现全模态输入和下一个物理状态的预测,从而真正实现物理正确和通用泛化的能力。
悟界·Physis已经初步具备了世界模型的关键特性,但我要强调,这仍然处于研究的早期阶段。
对比视频生成类的世界模型,悟界·Physis具备更好的对真实物理状态的理解和展示,同时具备物理正确性、动作因果可溯、长程一致、通用泛化的能力。
当物体已经离开当前的画面,依然能够在隐空间中持续存在、运动并且交互。
这对于各种下游任务,比如具身智能、严肃工业、物理仿真、科学预测等场景,都非常重要。
05 具身智能的四大难题,智源从数据和模型入手
具身智能领域,当前依然面临着四大挑战:硬件不成熟、数据短缺、模型能力弱、落地应用难。
智源从数据和模型入手,为行业提供一套开源的解决方案。
过去一年里,智源构建了全栈具身智能的技术体系,并实现了数据采集和标准化。智源先后向行业开源了悟界·RoboBrain和悟界·RoboOS模型,并且已经在很多具体场景应用。
随着落地应用的深入,智源发现以VLM和VLA构建的一类世界模型,还有非常强的局限性,泛化和推演能力依然显著不足。
因此,我们认为,下一代的世界基座模型,很有可能是具身大脑有所突破的一个关键路径。
06 悟界·RoboBrain Orca :具身大脑的突破
智源正在构建的悟界·RoboBrain Orca ,是以“下一个物理状态预测”为核心的具身大脑模型。
对比世界基座模型,智源融合了更多Ego-Centric交互数据,使它能够强化世界模型的具身表征,来提升少样本以及跨场景泛化的能力。
悟界·RoboBrain Orca 能够对多种结果进行预测,来加强具身大脑的关键决策路径。目前,悟界·RoboBrain Orca 已经在多个真机部署上展现了非常强悍的能力。
下一步,智源计划进一步提升悟界·RoboBrain Orca 的参数量和训练数据,来提升其作为具身大脑关键突破的潜力。
当下,智源研究院已经跟行业内超过50余家的机构开展了合作。
智源热切地期待和行业里更多的机构,共同推动世界模型以及具身智能技术和产业的发展。
“2026全球数字经济大会人工智能融合应用发展论坛”由全球数字经济大会组委会主办,北京市经济和信息化局、朝阳区人民政府承办,中关村科技园区朝阳园管理委员会(北京市朝阳区科学技术和信息化局)、北京数智云科信息科技有限公司、北京信息化协会、北京人工智能产业联盟、北京数智聚联企业管理有限责任公司协办。