首页 > 新闻中心 > 业界讯息

下一个10万亿赛道是什么？一文讲透物理AI与世界模型

编辑：SDC数字传媒硕士MBA项目管理中心 发布时间：2026-04-30

2026年CES展上，英伟达CEO黄仁勋再次语出惊人：物理AI将开启一个10万亿美元级别的市场。他把这个赛道称为“AI的下一波浪潮”——如果说ChatGPT教会了AI理解人类语言，那么物理AI，就要让AI真正理解并操控我们身处的这个物理世界。

什么是物理AI？什么是世界模型？这听起来似乎特别遥远，事实上却与每个人都息息相关？本文将用最通俗的方式，拆解这两个概念、盘点国内外玩家都在如何布局这条“10万亿赛道”。

640 (6).png

1物理AI与世界模型

物理AI：让AI不再“纸上谈兵”

我们熟悉的ChatGPT、DeepSeek等语言模型都属于“数字AI（Digital AI）”——即仅在“虚拟空间”里运行，处理文字、图片、数据，输出信息或内容，不直接与物理世界产生物理交互的AI。物理AI（Physical AI）则不一样，它的目标是让AI控制物理实体（机器人、自动驾驶汽车、机械臂等），在真实世界中完成感知－决策－行动的闭环。

如果你需要AI帮你下棋，数字AI会告诉你“怎么走”；物理AI则可以直接代替你执棋、移动棋子、甚至摆棋盘——前提是它必须理解物理规律——杯子掉地上会碎、汽车踩油门会加速、抓取物体要用合适的力度。

简单说：物理AI = AI大脑 + 机器人/汽车/机器等物理身体。

640 (7).png

世界模型：为物理AI打造“仿真训练场”

想让AI安全地在真实世界行动，不能让它拿真车、真机器人去“撞墙试错”。于是世界模型应运而生——一个尽可能真实模拟物理世界的数字仿真环境。在这个虚拟世界里，有重力、摩擦力、碰撞、光影、材质……自动驾驶AI可以在里面开上千万公里，机器人可以反复练习抓鸡蛋而不用担心打碎。

如此一来，世界模型的质量，直接决定了物理AI的上限。一个好的世界模型，能让AI在虚拟中学会的技能零误差迁移到现实。目前最顶尖的世界模型，能做到连续10分钟无物理偏差的虚拟漫游——听起来很短，但已经是从0到1的突破。

640 (8).png

最核心应用：

自动驾驶和机器人

世界模型最广泛、最核心的两大应用就是：具身智能机器人和自动驾驶。其中，机器人的市场空间被认为比自动驾驶更大。

▌自动驾驶：

落地速度最快。特斯拉、理想、小鹏等车企已经在用世界模型生成各种极端场景（突然窜出的行人、暴雨夜的抛锚车），来训练自动驾驶系统。

▌具身智能机器人：

极形态是家庭服务机器人。目前工厂里的机械臂、仓储AGV（Automated Guided Vehicle，自动导引车，即在仓库中执行物料搬运任务的自动化机器人）只是第一步。

黄仁勋预测，未来将有数十亿机器人进入我们的生活。

640 (9).png

自动驾驶：

物理AI的“试验场”

在众多物理AI的应用方向中，自动驾驶被公认为最先大规模落地的那一个，这里就展开聊一聊。

目前什么样？很多人已经用上了

如果你开过近两年的新能源车，大概率体验过辅助驾驶。根据NE时代统计，2026年2月国内L2级以上辅助驾驶车型渗透率已达到69.28%。车道保持、自适应巡航、自动变道、自动泊车……这些功能对很多车主来说已经不是什么新鲜概念。

但L2是“辅助”，L3及以上才算“自动驾驶”，L2的车由人负责监控，系统只在有限场景下工作；L3则在特定条件下由系统承担驾驶责任，真正的L3级刚刚迈过从0到1的门槛。

640 (10).png

现在的辅助驾驶演化路径

早期的自动驾驶走的是“模块化”路线：系统里塞满了工程师手写的成千上万条逻辑规则——看到行人就刹车，前车打转向灯就减速……这种方式在封闭高速上勉强够用，但一进城就各种卡壳（因为场景更复杂）。

近两年的主流方案是“端到端”神经网络，就是用大量人类驾驶视频去“教”AI开车，让它自己摸索出什么路况该怎么做，而不是靠人一条条写规则。系统直接从摄像头输入图像，输出方向盘角度和油门刹车信号，中间不再分模块。这种架构带来的最大优势，是让车辆在面对夕阳反光、积水倒影等传统算法难以定义的场景时，也能做出接近人类的判断。

不过这种技术有个本质局限：它仍然是在“模仿”人类驾驶行为，最多只能做到和人类一样好，很难突破人类的上限。

640 (11).png

为什么物理AI是发展方向？

目前的辅助驾驶系统，本质上还是在“看到之后才反应”。而物理AI要做的，是让车辆拥有“因果推理”能力——比如看到前方有一个球滚到路上，系统不仅识别出它是一个皮球，还要理解它后面很可能跟着一个追逐的孩子，从而提前减速而非等孩子出现后再急刹。

黄仁勋将自动驾驶汽车称为“目前能看到的最庞大、最成熟的具身智能机器人”。在他看来，物理AI的核心是让系统理解现实世界中的因果关系与物理规律，而自动驾驶正是一座绝佳的试验场。

640 (12).png

世界模型如何与自动驾驶结合？

为了实现因果推理，自动驾驶需要一个“世界模型”——一个高保真的虚拟驾驶环境，让AI在其中进行近乎无限的模拟训练，学习应对各种极端、罕见场景，再将这种能力迁移到实车上。当前自动驾驶面临的核心瓶颈之一正是数据：靠真实路采难以覆盖所有突发情况，成本高且效率低。英伟达的Cosmos世界基础模型，正是为解决这一问题而生，让开发者能以20,000小时驾驶数据为起点，生成海量高质量的合成场景来加速训练。

物理AI成熟后，自动驾驶会怎样？

行业内已形成共识：智能驾驶正在演进到第三个阶段——“生成式智驾”3.0阶段。通过世界模型和强化学习，AI可以在虚拟环境中自主进化，做出超越人类的驾驶决策。2026年北京车展上，地平线、Momenta、轻舟智航等头部方案商集体转向物理AI路线，蔚来、理想、小鹏、吉利等车企也已将世界模型和技术落地到量产系统。这条赛道的竞争，正从“比谁算力高”转向“比谁更懂物理世界”。

640 (13).png

两条技术路线：

Google vs 李飞飞

目前世界模型的研发主要有两条路线，代表人物分别是Google和“AI教母”李飞飞。

Google路线

核心思路是自建一个完整的虚拟世界，让AI在里面不断试错、迭代。这条路线的优势是对真实数据依赖少，可以闭环自演进；劣势是虚拟世界的真实性难以保证。国内极佳世界、蚂蚁零食等公司走的就是这个方向。

李飞飞路线

专注于从2D图片或视频生成3D内容，优势是适合VR/AR、游戏、影视等娱乐场景；劣势是缺乏物理交互，无法形成闭环。这条路线主要在3D内容生成平台中应用。

业内普遍认为，Google路线会先落地出实际成果，因为它直接服务于物理AI的训练需求。而李飞飞路线的价值更多在内容创作领域，两者未来可能互补。

640 (14).png

最大的发展瓶颈：

数据从哪里来？

你可能会想：数据为什么是问题？不就是几个摄像头的事儿吗？

理论上，确实不少行业已经积累了相当可观的“数据富矿”

▌地产、建筑与家装：

地产数字孪生（如Nucleus4D）、施工运维数字孪生（如布依格集团）、建筑信息模型（BIM）、城市信息模型（如广联达CIM平台），以及城市级3D建筑数据集（如BuildingWorld），已积累了丰富的行业数据，可训练机器人理解各类室内外空间。大型家装企业（如群核科技）则储存了丰富的室内数据，包括门窗开关、家具碰撞、材质光滑度等，是训练机器人理解室内环境的绝佳素材。

▌游戏与影视：

腾讯、阿里、昆仑万维等已开源或发布3D世界模型，生成海量交互式视频数据。

▌工业数字孪生：

如五一视界（51WORLD）等提供高真实度的合成数据底座。

做垂直领域的“近水楼台”，确实可能先拿到通用世界模型的入场券。

然而，这些富矿远不足以支撑真正的物理AI。世界模型需要的数据，远比想象中更“挑剔”。

640 (15).png

什么数据才值钱？

▌基础动作数据：

比如走路、抓取、切菜等，目前此类数据并不稀缺，极佳世界的模型甚至能做到零样本学习——从未见过的厨房，也能直接上手切菜、叠衣服。

▌稀缺数据

极端场景、突发情况、物理一致性的数据。比如自动驾驶中突然遇到对向车灯晃眼、路上突然滚出一个轮胎；机器人遇到门把手卡涩、地毯打滑……这些“长尾数据”才是训练鲁棒模型的关键。

▌重复劳动数据：

类似于工厂里工人反复拧螺丝，价值很低，因为模型很容易就学“饱和”了。

640 (16).png

数据采集的高昂成本，目前高质量数据来源包括：

▌点云、3D高斯：

点云是由海量三维坐标点构成的集合，每个点记录空间位置及颜色、强度等属性，用于立体建模与感知；3D高斯则是用无数个三维高斯分布（椭球体）拟合场景，通过优化每个高斯的参数实现高质量实时渲染。

二者成本都是分高昂，但能提供精确的几何信息。

▌原子级物理模拟：

用大型计算机模拟一万个原子的运动轨迹，成本极高，但数据极其珍贵（比如研究物体碎裂的微观机理）。

实际训练中，主流做法是融合训练——先用大量低成本2D数据做基础训练，再结合点云、3D高斯，并加入物理约束（比如“杯子不能穿过桌子”）进行精调。

产业链格局：

哪些企业已经在布局？

公司层面

根据权威的World Arena排名（世界模型综合能力排行）：

阿里：业内普遍认为阿里的世界模型为目前最高水准

极佳世界：紧跟阿里，排在第二

腾讯、韩世杰等也在前15名

具身大模型 vs 世界模型公司

具身大模型的核心是VLA（视觉-语言-行动），相当于机器人的“小脑”。

世界模型是VLA的上游，提供训练数据。

目前格局是：做世界模型的大公司都在布局VLA（比如阿里、Google），但做VLA的公司（比如各家车企）还没涉足大世界模型。理想、长安等车企现阶段是采购上游世界模型的数据，但不排除未来自研。

算力和存力：

需求指数级增长

世界模型对算力的需求远大于文字大模型：语言模型处理的是一维的字符流，而世界模型要理解的是三维空间中的几何、材质、光照、物理规律等信息——信息密度不在一个量级。

做一个简单的对比：一个中等精度的3D模型文件（如GLB格式）通常有几十到几百MB，而一本几十万字的纯文本小说只有几MB。也就是说，一个3D场景的信息量，轻松抵得上几十本甚至上百本书。

640 (17).png

目前世界模型的参数量多在百亿级别，而语言模型已经在万亿级了，可见优质训练数据严重不足。一旦数据问题解决，训练和推理算力需求都会大幅飙升，不过推理算力仍将长期稀缺。

同时，存储要承载海量的3D世界内容，存力需求同步暴涨。这也催生了一个新机会：专业数据标注和处理公司。因为世界模型需要的是加入物理规律、专业知识的“智慧数据”，不是简单画几个框就能完成的。

写在最后

我们正站在一个临界点上：

数字AI已经让我们惊叹于它的“智商”；

物理AI即将让我们震惊于它的“动手能力”。

世界模型是这场变革的“虚拟摇篮”，数据是它的“母乳”，算力是它的“氧气”。物理AI的“ChatGPT时刻”可能比你想象中来得更快，你准备好了吗？

上一条：比利时首位！列日大学文森特·热南教授荣获“德尔伯特·A·费舍尔研究学者奖”

下一条：“PU”芯片家族群像

分享：