下一个10万亿赛道是什么?一文讲透物理AI与世界模型
2026年CES展上,英伟达CEO黄仁勋再次语出惊人:物理AI将开启一个10万亿美元级别的市场。他把这个赛道称为“AI的下一波浪潮”——如果说ChatGPT教会了AI理解人类语言,那么物理AI,就要让AI真正理解并操控我们身处的这个物理世界。
什么是物理AI?什么是世界模型?这听起来似乎特别遥远,事实上却与每个人都息息相关?本文将用最通俗的方式,拆解这两个概念、盘点国内外玩家都在如何布局这条“10万亿赛道”。

1物理AI与世界模型
物理AI:让AI不再“纸上谈兵”
我们熟悉的ChatGPT、DeepSeek等语言模型都属于“数字AI(Digital AI)”——即仅在“虚拟空间”里运行,处理文字、图片、数据,输出信息或内容,不直接与物理世界产生物理交互的AI。物理AI(Physical AI)则不一样,它的目标是让AI控制物理实体(机器人、自动驾驶汽车、机械臂等),在真实世界中完成感知-决策-行动的闭环。
如果你需要AI帮你下棋,数字AI会告诉你“怎么走”;物理AI则可以直接代替你执棋、移动棋子、甚至摆棋盘——前提是它必须理解物理规律——杯子掉地上会碎、汽车踩油门会加速、抓取物体要用合适的力度。
简单说:物理AI = AI大脑 + 机器人/汽车/机器等物理身体。

世界模型:为物理AI打造“仿真训练场”
想让AI安全地在真实世界行动,不能让它拿真车、真机器人去“撞墙试错”。于是世界模型应运而生——一个尽可能真实模拟物理世界的数字仿真环境。在这个虚拟世界里,有重力、摩擦力、碰撞、光影、材质……自动驾驶AI可以在里面开上千万公里,机器人可以反复练习抓鸡蛋而不用担心打碎。
如此一来,世界模型的质量,直接决定了物理AI的上限。一个好的世界模型,能让AI在虚拟中学会的技能零误差迁移到现实。目前最顶尖的世界模型,能做到连续10分钟无物理偏差的虚拟漫游——听起来很短,但已经是从0到1的突破。

2
最核心应用:
自动驾驶和机器人
世界模型最广泛、最核心的两大应用就是:具身智能机器人和自动驾驶。其中,机器人的市场空间被认为比自动驾驶更大。
▌自动驾驶:
落地速度最快。特斯拉、理想、小鹏等车企已经在用世界模型生成各种极端场景(突然窜出的行人、暴雨夜的抛锚车),来训练自动驾驶系统。
▌具身智能机器人:
极形态是家庭服务机器人。目前工厂里的机械臂、仓储AGV(Automated Guided Vehicle,自动导引车,即在仓库中执行物料搬运任务的自动化机器人)只是第一步。
黄仁勋预测,未来将有数十亿机器人进入我们的生活。

3
自动驾驶:
物理AI的“试验场”
在众多物理AI的应用方向中,自动驾驶被公认为最先大规模落地的那一个,这里就展开聊一聊。
目前什么样?很多人已经用上了
如果你开过近两年的新能源车,大概率体验过辅助驾驶。根据NE时代统计,2026年2月国内L2级以上辅助驾驶车型渗透率已达到69.28%。车道保持、自适应巡航、自动变道、自动泊车……这些功能对很多车主来说已经不是什么新鲜概念。
但L2是“辅助”,L3及以上才算“自动驾驶”,L2的车由人负责监控,系统只在有限场景下工作;L3则在特定条件下由系统承担驾驶责任,真正的L3级刚刚迈过从0到1的门槛。

现在的辅助驾驶演化路径
早期的自动驾驶走的是“模块化”路线:系统里塞满了工程师手写的成千上万条逻辑规则——看到行人就刹车,前车打转向灯就减速……这种方式在封闭高速上勉强够用,但一进城就各种卡壳(因为场景更复杂)。
近两年的主流方案是“端到端”神经网络,就是用大量人类驾驶视频去“教”AI开车,让它自己摸索出什么路况该怎么做,而不是靠人一条条写规则。系统直接从摄像头输入图像,输出方向盘角度和油门刹车信号,中间不再分模块。这种架构带来的最大优势,是让车辆在面对夕阳反光、积水倒影等传统算法难以定义的场景时,也能做出接近人类的判断。
不过这种技术有个本质局限:它仍然是在“模仿”人类驾驶行为,最多只能做到和人类一样好,很难突破人类的上限。

为什么物理AI是发展方向?
目前的辅助驾驶系统,本质上还是在“看到之后才反应”。而物理AI要做的,是让车辆拥有“因果推理”能力——比如看到前方有一个球滚到路上,系统不仅识别出它是一个皮球,还要理解它后面很可能跟着一个追逐的孩子,从而提前减速而非等孩子出现后再急刹。
黄仁勋将自动驾驶汽车称为“目前能看到的最庞大、最成熟的具身智能机器人”。在他看来,物理AI的核心是让系统理解现实世界中的因果关系与物理规律,而自动驾驶正是一座绝佳的试验场。

世界模型如何与自动驾驶结合?
为了实现因果推理,自动驾驶需要一个“世界模型”——一个高保真的虚拟驾驶环境,让AI在其中进行近乎无限的模拟训练,学习应对各种极端、罕见场景,再将这种能力迁移到实车上。当前自动驾驶面临的核心瓶颈之一正是数据:靠真实路采难以覆盖所有突发情况,成本高且效率低。英伟达的Cosmos世界基础模型,正是为解决这一问题而生,让开发者能以20,000小时驾驶数据为起点,生成海量高质量的合成场景来加速训练。
物理AI成熟后,自动驾驶会怎样?
行业内已形成共识:智能驾驶正在演进到第三个阶段——“生成式智驾”3.0阶段。通过世界模型和强化学习,AI可以在虚拟环境中自主进化,做出超越人类的驾驶决策。2026年北京车展上,地平线、Momenta、轻舟智航等头部方案商集体转向物理AI路线,蔚来、理想、小鹏、吉利等车企也已将世界模型和技术落地到量产系统。这条赛道的竞争,正从“比谁算力高”转向“比谁更懂物理世界”。

4
两条技术路线:
Google vs 李飞飞
目前世界模型的研发主要有两条路线,代表人物分别是Google和“AI教母”李飞飞。
Google路线
核心思路是自建一个完整的虚拟世界,让AI在里面不断试错、迭代。这条路线的优势是对真实数据依赖少,可以闭环自演进;劣势是虚拟世界的真实性难以保证。国内极佳世界、蚂蚁零食等公司走的就是这个方向。
李飞飞路线
专注于从2D图片或视频生成3D内容,优势是适合VR/AR、游戏、影视等娱乐场景;劣势是缺乏物理交互,无法形成闭环。这条路线主要在3D内容生成平台中应用。
业内普遍认为,Google路线会先落地出实际成果,因为它直接服务于物理AI的训练需求。而李飞飞路线的价值更多在内容创作领域,两者未来可能互补。

5
最大的发展瓶颈:
数据从哪里来?
你可能会想:数据为什么是问题?不就是几个摄像头的事儿吗?
理论上,确实不少行业已经积累了相当可观的“数据富矿”
▌地产、建筑与家装:
地产数字孪生(如Nucleus4D)、施工运维数字孪生(如布依格集团)、建筑信息模型(BIM)、城市信息模型(如广联达CIM平台),以及城市级3D建筑数据集(如BuildingWorld),已积累了丰富的行业数据,可训练机器人理解各类室内外空间。大型家装企业(如群核科技)则储存了丰富的室内数据,包括门窗开关、家具碰撞、材质光滑度等,是训练机器人理解室内环境的绝佳素材。
▌游戏与影视:
腾讯、阿里、昆仑万维等已开源或发布3D世界模型,生成海量交互式视频数据。
▌工业数字孪生:
如五一视界(51WORLD)等提供高真实度的合成数据底座。
做垂直领域的“近水楼台”,确实可能先拿到通用世界模型的入场券。
然而,这些富矿远不足以支撑真正的物理AI。 世界模型需要的数据,远比想象中更“挑剔”。

什么数据才值钱?
▌基础动作数据:
比如走路、抓取、切菜等,目前此类数据并不稀缺,极佳世界的模型甚至能做到零样本学习——从未见过的厨房,也能直接上手切菜、叠衣服。
▌稀缺数据
极端场景、突发情况、物理一致性的数据。比如自动驾驶中突然遇到对向车灯晃眼、路上突然滚出一个轮胎;机器人遇到门把手卡涩、地毯打滑……这些“长尾数据”才是训练鲁棒模型的关键。
▌重复劳动数据:
类似于工厂里工人反复拧螺丝,价值很低,因为模型很容易就学“饱和”了。

数据采集的高昂成本,目前高质量数据来源包括:
▌点云、3D高斯:
点云是由海量三维坐标点构成的集合,每个点记录空间位置及颜色、强度等属性,用于立体建模与感知;3D高斯则是用无数个三维高斯分布(椭球体)拟合场景,通过优化每个高斯的参数实现高质量实时渲染。
二者成本都是分高昂,但能提供精确的几何信息。
▌原子级物理模拟:
用大型计算机模拟一万个原子的运动轨迹,成本极高,但数据极其珍贵(比如研究物体碎裂的微观机理)。
实际训练中,主流做法是融合训练——先用大量低成本2D数据做基础训练,再结合点云、3D高斯,并加入物理约束(比如“杯子不能穿过桌子”)进行精调。
6
产业链格局:
哪些企业已经在布局?
公司层面
根据权威的World Arena排名(世界模型综合能力排行):
阿里:业内普遍认为阿里的世界模型为目前最高水准
极佳世界:紧跟阿里,排在第二
腾讯、韩世杰等也在前15名
具身大模型 vs 世界模型公司
具身大模型的核心是VLA(视觉-语言-行动),相当于机器人的“小脑”。
世界模型是VLA的上游,提供训练数据。
目前格局是:做世界模型的大公司都在布局VLA(比如阿里、Google),但做VLA的公司(比如各家车企)还没涉足大世界模型。理想、长安等车企现阶段是采购上游世界模型的数据,但不排除未来自研。
7
算力和存力:
需求指数级增长
世界模型对算力的需求远大于文字大模型:语言模型处理的是一维的字符流,而世界模型要理解的是三维空间中的几何、材质、光照、物理规律等信息——信息密度不在一个量级。
做一个简单的对比:一个中等精度的3D模型文件(如GLB格式)通常有几十到几百MB,而一本几十万字的纯文本小说只有几MB。也就是说,一个3D场景的信息量,轻松抵得上几十本甚至上百本书。

目前世界模型的参数量多在百亿级别,而语言模型已经在万亿级了,可见优质训练数据严重不足。一旦数据问题解决,训练和推理算力需求都会大幅飙升,不过推理算力仍将长期稀缺。
同时,存储要承载海量的3D世界内容,存力需求同步暴涨。这也催生了一个新机会:专业数据标注和处理公司。因为世界模型需要的是加入物理规律、专业知识的“智慧数据”,不是简单画几个框就能完成的。
8
写在最后
我们正站在一个临界点上:
数字AI已经让我们惊叹于它的“智商”;
物理AI即将让我们震惊于它的“动手能力”。
世界模型是这场变革的“虚拟摇篮”,数据是它的“母乳”,算力是它的“氧气”。物理AI的“ChatGPT时刻”可能比你想象中来得更快,你准备好了吗?

AACSB商业会员
ICDE会员机构
ACE会员
粤公网安备44030502005513号