CVPR 2026:英伟达特斯拉Waymo齐聚,中国公司主讲物理AI
速览
在CVPR 2026会议上,英伟达、特斯拉和Waymo等行业巨头与中国科技公司共同探讨了物理AI的前沿发展。其中,中国公司因率先实现物理AI的闭环飞轮而成为焦点。这一进展标志着中国在具身智能与物理世界交互领域取得了突破性进展,引发了国际科技界的广泛关注。
AI 深度解读
背景
在2026年CVPR(IEEE/CVF Conference on Computer Vision and Pattern Recognition)期间,AI赛道最热门的概念“物理AI”(Physical AI)成为行业焦点。尽管自动驾驶公司、车企、大模型玩家及投资人对此概念已达成广泛共识,但真正的技术分水岭在于:谁能率先拿出完整的技术栈、论文、代码,并在量产实车上验证其有效性。
在CVPR首次开设的“具身智能基座模型部署研讨会”(Embodied AI Workshop系列第七届)上,这一竞争格局初现端倪。该研讨会汇聚了全球物理AI第一梯队的顶尖玩家,包括特斯拉(Tesla)、英伟达(Nvidia)、Waymo,以及唯一一家受邀的中国企业——小鹏(XPeng)。小鹏集团通用智能中心负责人刘先明与特斯拉AI软件副总裁Ashok Elluswamy、Waymo副总裁Dragomir Anguelov等同台分享,标志着小鹏在物理AI领域的技术实力获得了国际顶级学术与产业界的认可。
核心内容
小鹏在CVPR 2026上首次完整展示了其物理世界基座模型的技术图谱,核心在于提出并验证了“第二代VLA(Vision-Language-Action,视觉-语言-动作模型)”与“世界模型”协同进化的技术路线。
1. 技术路线:VLA与世界模型的融合 传统观点常将VLA路线与世界模型路线视为对立,但小鹏认为二者应结合。
- VLA负责“如何行动”:基于人类动作中丰富的高层语义(感知、推理、意图、风险判断等),解决决策问题。但人类监督信号在时间上稀疏,难以覆盖每一次物理状态转移。
- 世界模型负责“行动后世界如何变化”:借鉴大语言模型“下一个Token预测”范式,通过在海量未标注视频上进行下一帧或下一状态的密集预测,学习物理世界的动力学与因果结构。
- 协同进化:小鹏的物理世界基座模型既是第二代VLA,也是世界模型。通过稀疏的人类意图监督与密集的物理预测信号结合,确保系统在复杂环境下的可控性与安全性,赋予自动驾驶更深层的物理感知与逻辑推理能力。
2. 核心技术与论文成果 小鹏团队近期发布了一系列学术论文,解析世界模型的三大关键能力:主动思考、可控生成和长时序推演。
- X-World:基于视频扩散生成技术构建的可控多视角生成式世界模型。能在给定动作条件下生成符合物理约束的未来视频,已投入闭环仿真测试、在线强化学习和数据生成环节。
- X-Foresight:基于预测式世界模型的视觉-动作因果预测网络。在统一的token空间内联合预测未来的多视角画面与自车动作,为VLA决策提供支撑,倒逼模型理解车辆、行人运动规律与场景因果链条。
- X-Cache:面向少步自回归世界模型的跨段块级缓存技术。在不牺牲画质的前提下,减少约70%的重复计算,对去噪主干实现最高约2.7倍的推理加速。
- X-mind(即将发表):解析模型如何“主动思考”,可视化呈现驾驶决策背后的中间推理过程,提升可解释性。
3. 规模化训练与算力优化
- 数据与模型规模:第二代VLA模型参数量达十亿级,依托上亿段视频片段训练,单版模型训练Token总量突破4万亿,数据与模型规模居行业第一梯队。
- 云端算力效率:截至2026年3月的一年内,小鹏智算集群单GPU训练效率提升1010%,单任务训练效率暴涨4360%,GPU硬件利用率从40%提升至90%。
- 车端算力挖掘:通过芯片、编译器、模型软硬件深度协同自研,将车端模型推理速度整体提升12倍。
- 通用芯片+开源模型:算力利用率22.8%,时延800毫秒。
- 小鹏图灵自研芯片+开源模型:算力利用率35.1%,时延300毫秒。
- 全套自研组合(第二代VLA+图灵芯片):算力利用率飙升至82.5%,推理时延压至80毫秒。
4. 量产验证与迭代速度 第二代VLA正式推送首月,搭载车型辅助驾驶里程占比突破50%。研发团队从去年11月到今年3月,平均每天迭代4版模型,实现了从高速NGP到城市NGP的快速进化。
关键要点
- 终结路线之争:小鹏提出VLA与世界模型并非二元对立,而是通过“稀疏人类意图”与“密集物理预测”结合,构建统一的物理世界基座模型。
- 三大核心能力:优秀的世界模型必须具备主动思考、可控生成和长时序推演能力,这是智能体现及自动驾驶应用的前提。
- 全栈自研优势:小鹏通过自研图灵芯片、编译器及模型架构的深度协同,实现了车端推理时延从800毫秒至80毫秒的质变,算力利用率从22.8%提升至82.5%。
- 纯视觉路线的深化:小鹏的第二代VLA证明了在统一物理世界基座模型、充足算力和世界模型支持下,纯视觉方案能更高效地理解物理世界并解决Corner Case,超越了传统自动驾驶模型。
- 跨域迁移能力:小鹏的世界模型不仅是自动驾驶模型,更是通用的物理世界认知基座,具备向人形机器人、飞行汽车等场景迁移的天然能力。
- 连续的技术积累:从2023年XNet(BEV感知架构),到2025年720亿参数基座模型理论验证,再到2026年VLA与世界模型的完整技术栈及量产数据,小鹏形成了从工程实践到理论突破再到量产落地的连续护城河。
意义与影响
小鹏在CVPR 2026上的展示,不仅是技术层面的突破,更是对“物理AI”话语体系的重新定义。
首先,小鹏率先建立了物理AI的数据飞轮闭环。通过真实路采数据反馈优化世界模型,再通过世界模型生成高质量数据反哺训练,这种连续性积累使其从“造车新势力”向“物理AI公司”跃迁。其目标不再仅为一款车打造AI,而是为整个物理世界打造通用的认知基座。
其次,这一技术路径对行业具有降维打击意义。它证明了智能汽车竞争已进入“模型智商”阶段,而非单纯比拼硬件堆砌。小鹏通过纯视觉+大模型+世界模型的路径,展示了比激光雷达方案更高的上限和更低的边际成本,推动了自动驾驶从规则驱动向数据驱动的根本性转变。
最后,这种技术能力具备极强的跨域迁移潜力。小鹏在自动驾驶中积累的“理解并预判动态物理世界”的能力,可直接应用于人形机器人、飞行汽车等领域,预示着其技术品牌将从汽车扩展至更广阔的具身智能生态。对于消费者而言,这意味着车辆不再仅是代步工具,而是一个持续进化、每月OTA的AI系统,智能驾驶能力已成为购车决策的核心因素。
