en

新闻中心

国际教育项目提供商和创新教育实践者

首页 > 新闻中心 > 业界讯息

下一个10万亿赛道是什么?一文讲透物理AI与世界模型

编辑:SDC数字传媒硕士MBA项目管理中心 发布时间:2026-04-30

2026年CES展上,英伟达CEO黄仁勋再次语出惊人:物理AI将开启一个10万亿美元级别的市场。他把这个赛道称为“AI的下一波浪潮”——如果说ChatGPT教会了AI理解人类语言,那么物理AI,就要让AI真正理解并操控我们身处的这个物理世界。

什么是物理AI?什么是世界模型?这听起来似乎特别遥远,事实上却与每个人都息息相关?本文将用最通俗的方式,拆解这两个概念、盘点国内外玩家都在如何布局这条“10万亿赛道”。

640 (6).png

1物理AI与世界模型

物理AI:让AI不再“纸上谈兵”


我们熟悉的ChatGPT、DeepSeek等语言模型都属于“数字AI(Digital AI)”——即仅在“虚拟空间”里运行,处理文字、图片、数据,输出信息或内容,不直接与物理世界产生物理交互的AI。物理AI(Physical AI)则不一样,它的目标是让AI控制物理实体(机器人、自动驾驶汽车、机械臂等),在真实世界中完成感知-决策-行动的闭环。

如果你需要AI帮你下棋,数字AI会告诉你“怎么走”;物理AI则可以直接代替你执棋、移动棋子、甚至摆棋盘——前提是它必须理解物理规律——杯子掉地上会碎、汽车踩油门会加速、抓取物体要用合适的力度。

简单说:物理AI = AI大脑 + 机器人/汽车/机器等物理身体。

640 (7).png

世界模型:为物理AI打造“仿真训练场”

想让AI安全地在真实世界行动,不能让它拿真车、真机器人去“撞墙试错”。于是世界模型应运而生——一个尽可能真实模拟物理世界的数字仿真环境。在这个虚拟世界里,有重力、摩擦力、碰撞、光影、材质……自动驾驶AI可以在里面开上千万公里,机器人可以反复练习抓鸡蛋而不用担心打碎。

如此一来,世界模型的质量,直接决定了物理AI的上限。一个好的世界模型,能让AI在虚拟中学会的技能零误差迁移到现实。目前最顶尖的世界模型,能做到连续10分钟无物理偏差的虚拟漫游——听起来很短,但已经是从0到1的突破。

640 (8).png

2

最核心应用:

自动驾驶和机器人

世界模型最广泛、最核心的两大应用就是:具身智能机器人和自动驾驶。其中,机器人的市场空间被认为比自动驾驶更大。

▌自动驾驶:

落地速度最快。特斯拉、理想、小鹏等车企已经在用世界模型生成各种极端场景(突然窜出的行人、暴雨夜的抛锚车),来训练自动驾驶系统。

▌具身智能机器人:

极形态是家庭服务机器人。目前工厂里的机械臂、仓储AGV(Automated Guided Vehicle,自动导引车,即在仓库中执行物料搬运任务的自动化机器人)只是第一步。

黄仁勋预测,未来将有数十亿机器人进入我们的生活。

640 (9).png

3

自动驾驶:

物理AI的“试验场”

在众多物理AI的应用方向中,自动驾驶被公认为最先大规模落地的那一个,这里就展开聊一聊。

目前什么样?很多人已经用上了

如果你开过近两年的新能源车,大概率体验过辅助驾驶。根据NE时代统计,2026年2月国内L2级以上辅助驾驶车型渗透率已达到69.28%。车道保持、自适应巡航、自动变道、自动泊车……这些功能对很多车主来说已经不是什么新鲜概念。

但L2是“辅助”,L3及以上才算“自动驾驶”,L2的车由人负责监控,系统只在有限场景下工作;L3则在特定条件下由系统承担驾驶责任,真正的L3级刚刚迈过从0到1的门槛。

640 (10).png

现在的辅助驾驶演化路径

早期的自动驾驶走的是“模块化”路线:系统里塞满了工程师手写的成千上万条逻辑规则——看到行人就刹车,前车打转向灯就减速……这种方式在封闭高速上勉强够用,但一进城就各种卡壳(因为场景更复杂)。

近两年的主流方案是“端到端”神经网络,就是用大量人类驾驶视频去“教”AI开车,让它自己摸索出什么路况该怎么做,而不是靠人一条条写规则。系统直接从摄像头输入图像,输出方向盘角度和油门刹车信号,中间不再分模块。这种架构带来的最大优势,是让车辆在面对夕阳反光、积水倒影等传统算法难以定义的场景时,也能做出接近人类的判断。

不过这种技术有个本质局限:它仍然是在“模仿”人类驾驶行为,最多只能做到和人类一样好,很难突破人类的上限。

640 (11).png

为什么物理AI是发展方向?

目前的辅助驾驶系统,本质上还是在“看到之后才反应”。而物理AI要做的,是让车辆拥有“因果推理”能力——比如看到前方有一个球滚到路上,系统不仅识别出它是一个皮球,还要理解它后面很可能跟着一个追逐的孩子,从而提前减速而非等孩子出现后再急刹。

黄仁勋将自动驾驶汽车称为“目前能看到的最庞大、最成熟的具身智能机器人”。在他看来,物理AI的核心是让系统理解现实世界中的因果关系与物理规律,而自动驾驶正是一座绝佳的试验场。

640 (12).png

世界模型如何与自动驾驶结合?

为了实现因果推理,自动驾驶需要一个“世界模型”——一个高保真的虚拟驾驶环境,让AI在其中进行近乎无限的模拟训练,学习应对各种极端、罕见场景,再将这种能力迁移到实车上。当前自动驾驶面临的核心瓶颈之一正是数据:靠真实路采难以覆盖所有突发情况,成本高且效率低。英伟达的Cosmos世界基础模型,正是为解决这一问题而生,让开发者能以20,000小时驾驶数据为起点,生成海量高质量的合成场景来加速训练。

物理AI成熟后,自动驾驶会怎样?

行业内已形成共识:智能驾驶正在演进到第三个阶段——“生成式智驾”3.0阶段。通过世界模型和强化学习,AI可以在虚拟环境中自主进化,做出超越人类的驾驶决策。2026年北京车展上,地平线、Momenta、轻舟智航等头部方案商集体转向物理AI路线,蔚来、理想、小鹏、吉利等车企也已将世界模型和技术落地到量产系统。这条赛道的竞争,正从“比谁算力高”转向“比谁更懂物理世界”。

640 (13).png

4

两条技术路线:

Google vs 李飞飞

目前世界模型的研发主要有两条路线,代表人物分别是Google和“AI教母”李飞飞。

Google路线

核心思路是自建一个完整的虚拟世界,让AI在里面不断试错、迭代。这条路线的优势是对真实数据依赖少,可以闭环自演进;劣势是虚拟世界的真实性难以保证。国内极佳世界、蚂蚁零食等公司走的就是这个方向。

李飞飞路线

专注于从2D图片或视频生成3D内容,优势是适合VR/AR、游戏、影视等娱乐场景;劣势是缺乏物理交互,无法形成闭环。这条路线主要在3D内容生成平台中应用。

业内普遍认为,Google路线会先落地出实际成果,因为它直接服务于物理AI的训练需求。而李飞飞路线的价值更多在内容创作领域,两者未来可能互补。

640 (14).png

5

最大的发展瓶颈:

数据从哪里来?

你可能会想:数据为什么是问题?不就是几个摄像头的事儿吗?

理论上,确实不少行业已经积累了相当可观的“数据富矿”

▌地产、建筑与家装:

地产数字孪生(如Nucleus4D)、施工运维数字孪生(如布依格集团)、建筑信息模型(BIM)、城市信息模型(如广联达CIM平台),以及城市级3D建筑数据集(如BuildingWorld),已积累了丰富的行业数据,可训练机器人理解各类室内外空间。大型家装企业(如群核科技)则储存了丰富的室内数据,包括门窗开关、家具碰撞、材质光滑度等,是训练机器人理解室内环境的绝佳素材。

▌游戏与影视:

腾讯、阿里、昆仑万维等已开源或发布3D世界模型,生成海量交互式视频数据。

▌工业数字孪生:

如五一视界(51WORLD)等提供高真实度的合成数据底座。

做垂直领域的“近水楼台”,确实可能先拿到通用世界模型的入场券。

然而,这些富矿远不足以支撑真正的物理AI。 世界模型需要的数据,远比想象中更“挑剔”。

640 (15).png

什么数据才值钱?

▌基础动作数据:

比如走路、抓取、切菜等,目前此类数据并不稀缺,极佳世界的模型甚至能做到零样本学习——从未见过的厨房,也能直接上手切菜、叠衣服。

▌稀缺数据

极端场景、突发情况、物理一致性的数据。比如自动驾驶中突然遇到对向车灯晃眼、路上突然滚出一个轮胎;机器人遇到门把手卡涩、地毯打滑……这些“长尾数据”才是训练鲁棒模型的关键。

▌重复劳动数据:

类似于工厂里工人反复拧螺丝,价值很低,因为模型很容易就学“饱和”了。

640 (16).png

数据采集的高昂成本,目前高质量数据来源包括:

▌点云、3D高斯:

点云是由海量三维坐标点构成的集合,每个点记录空间位置及颜色、强度等属性,用于立体建模与感知;3D高斯则是用无数个三维高斯分布(椭球体)拟合场景,通过优化每个高斯的参数实现高质量实时渲染。

二者成本都是分高昂,但能提供精确的几何信息。

▌原子级物理模拟:

用大型计算机模拟一万个原子的运动轨迹,成本极高,但数据极其珍贵(比如研究物体碎裂的微观机理)。

实际训练中,主流做法是融合训练——先用大量低成本2D数据做基础训练,再结合点云、3D高斯,并加入物理约束(比如“杯子不能穿过桌子”)进行精调。

6

产业链格局:

哪些企业已经在布局?

公司层面

根据权威的World Arena排名(世界模型综合能力排行):

阿里:业内普遍认为阿里的世界模型为目前最高水准

极佳世界:紧跟阿里,排在第二

腾讯、韩世杰等也在前15名

具身大模型 vs 世界模型公司

具身大模型的核心是VLA(视觉-语言-行动),相当于机器人的“小脑”。

世界模型是VLA的上游,提供训练数据。

目前格局是:做世界模型的大公司都在布局VLA(比如阿里、Google),但做VLA的公司(比如各家车企)还没涉足大世界模型。理想、长安等车企现阶段是采购上游世界模型的数据,但不排除未来自研。

7

算力和存力:

需求指数级增长

世界模型对算力的需求远大于文字大模型:语言模型处理的是一维的字符流,而世界模型要理解的是三维空间中的几何、材质、光照、物理规律等信息——信息密度不在一个量级。

做一个简单的对比:一个中等精度的3D模型文件(如GLB格式)通常有几十到几百MB,而一本几十万字的纯文本小说只有几MB。也就是说,一个3D场景的信息量,轻松抵得上几十本甚至上百本书。

640 (17).png

目前世界模型的参数量多在百亿级别,而语言模型已经在万亿级了,可见优质训练数据严重不足。一旦数据问题解决,训练和推理算力需求都会大幅飙升,不过推理算力仍将长期稀缺。

同时,存储要承载海量的3D世界内容,存力需求同步暴涨。这也催生了一个新机会:专业数据标注和处理公司。因为世界模型需要的是加入物理规律、专业知识的“智慧数据”,不是简单画几个框就能完成的。

8

写在最后

我们正站在一个临界点上:

数字AI已经让我们惊叹于它的“智商”;

物理AI即将让我们震惊于它的“动手能力”。

世界模型是这场变革的“虚拟摇篮”,数据是它的“母乳”,算力是它的“氧气”。物理AI的“ChatGPT时刻”可能比你想象中来得更快,你准备好了吗?

分享: