智源研究院院长王仲远：世界模型——面向真实物理世界的下一代基座模型

本文来自微信公众号：潮涌AI（ichaoyongai）。

AI的下一波浪潮，无疑就是物理AI和世界模型。

但在热潮之下，整条赛道同样暗藏多重待解的行业困局，有关技术路线、训练数据、算力成本、虚实迁移适配度、商业化落地周期等痛点，仍需多方齐力攻破。

7月3日，北京智源人工智能研究院院长王仲远在“2026全球数字经济大会人工智能融合应用发展论坛”上发表了《世界模型：面向真实物理世界的下一代基座模型》主题演讲，直接分享了关于智源研究院在世界模型方向的一些思考，以及最新的研究进展。

以下是王仲远演讲实录，经潮涌AI整理发布：

01 世界模型不是新概念，但现在是关键节点

世界模型这个概念，其实并不是全新的。

早在1943年，心智模型就被广泛认为是世界模型最早期的理论源头。

到了上世纪90年代，随着强化学习的兴起，世界模型被引入到计算机科学领域。这几年，大语言模型的能力遇到了一些极限，也让世界模型又一次被广泛提及和讨论。

智源研究院是国内最早提出并且开展世界模型研究的科研机构。早在2024年的智源大会，智源就提出了世界模型是通往物理世界的一个关键路径。

去年智源大会，智源正式发布了“悟界”系列大模型，旨在解决人工智能从数字世界迈向物理世界的关键能力，构建面向物理世界的基座模型。

02 悟界·Emu：多模态世界基座模型

2024年10月，智源发布了悟界·Emu3，去年10月底发布了悟界·Emu3.5，这是多模态的世界基座模型。

悟界·Emu通过一个非常极简的范式，实现了文字、视频、图像的统一学习，同时实现了多模态理解任务和多模态生成的统一学习。这个原创成果在今年1月份登上了Nature的正刊，创造了国产多模态大模型的众多纪录。

和传统的大语言模型不同，视频是真实世界最有效的载体。

视频里面包含时间、空间、物理、因果关系和意图等多种要素，而且是能够海量获取的数据载体。

对比上一代模型，悟界·Emu3.5的视频训练总时长有了50余倍的提升，并且采用了自回归的架构，能够大规模复用现有的计算基础设施。

随着悟界·Emu3.5的成功训练，我们相信找到了多模态的范式。在训练的过程中，智源也感受到人工智能正在经历一场深刻的范式变革——

下一个物理状态的预测，这就是世界模型的核心本质。

03 四类世界模型技术路线，都不一定是真正的基座模型

过去一年，世界模型可以说是异常火热。

智源梳理了一下现有跟世界模型相关的技术路线，大致分为四类：

第一类是以语言为中心的世界模型，包括VLM、VLA，模型在文本空间中预测下一个词，学到的是语言描述的世界，并不能理解背后的物理后果；

第二类是以像素为中心的世界模型，像Sora和Seedance等视频生成类模型，在视觉空间中学习视频或图像，学到的是像素描述的世界；

第三类是以三维结构为中心的世界模型，包括3D重建以及李飞飞团队的World Labs Marble模型，不过模型重建3D空间不等于理解世界，几何结构也不代表物理状态；

第四类是以视觉表征为中心的世界模型，比如杨立昆的JEPA系列模型，预测的是视觉表征的压缩，但视觉嵌入演化不等于物理规律演化。

智源认为，这四类都不一定是真正意义上的世界基座模型。

作为下一代的基座模型，必须是全模态，并且以下一个物理状态预测为核心，能够真正感知、理解真实物理世界的时间、空间、物理规律和物理常识，并且具备交互的能力。

可以说，完全符合这些条件的世界基座模型，目前还没有诞生。

因此，我们认为，世界模型仍处于研究的早期阶段，还需要开展大量的科研探索工作。

04 悟界·Physis：隐空间建模的新思路

智源提出了以隐空间进行建模的新思路，这就是悟界·Physis。

通过隐空间建模，能够真正实现全模态输入和下一个物理状态的预测，从而真正实现物理正确和通用泛化的能力。

悟界·Physis已经初步具备了世界模型的关键特性，但我要强调，这仍然处于研究的早期阶段。

对比视频生成类的世界模型，悟界·Physis具备更好的对真实物理状态的理解和展示，同时具备物理正确性、动作因果可溯、长程一致、通用泛化的能力。

当物体已经离开当前的画面，依然能够在隐空间中持续存在、运动并且交互。

这对于各种下游任务，比如具身智能、严肃工业、物理仿真、科学预测等场景，都非常重要。

05 具身智能的四大难题，智源从数据和模型入手

具身智能领域，当前依然面临着四大挑战：硬件不成熟、数据短缺、模型能力弱、落地应用难。

智源从数据和模型入手，为行业提供一套开源的解决方案。

过去一年里，智源构建了全栈具身智能的技术体系，并实现了数据采集和标准化。智源先后向行业开源了悟界·RoboBrain和悟界·RoboOS模型，并且已经在很多具体场景应用。

随着落地应用的深入，智源发现以VLM和VLA构建的一类世界模型，还有非常强的局限性，泛化和推演能力依然显著不足。

因此，我们认为，下一代的世界基座模型，很有可能是具身大脑有所突破的一个关键路径。

06 悟界·RoboBrain Orca ：具身大脑的突破

智源正在构建的悟界·RoboBrain Orca ，是以“下一个物理状态预测”为核心的具身大脑模型。

对比世界基座模型，智源融合了更多Ego-Centric交互数据，使它能够强化世界模型的具身表征，来提升少样本以及跨场景泛化的能力。

悟界·RoboBrain Orca 能够对多种结果进行预测，来加强具身大脑的关键决策路径。目前，悟界·RoboBrain Orca 已经在多个真机部署上展现了非常强悍的能力。

下一步，智源计划进一步提升悟界·RoboBrain Orca 的参数量和训练数据，来提升其作为具身大脑关键突破的潜力。

当下，智源研究院已经跟行业内超过50余家的机构开展了合作。

智源热切地期待和行业里更多的机构，共同推动世界模型以及具身智能技术和产业的发展。

“2026全球数字经济大会人工智能融合应用发展论坛”由全球数字经济大会组委会主办，北京市经济和信息化局、朝阳区人民政府承办，中关村科技园区朝阳园管理委员会（北京市朝阳区科学技术和信息化局）、北京数智云科信息科技有限公司、北京信息化协会、北京人工智能产业联盟、北京数智聚联企业管理有限责任公司协办。