智驾路线之争：特斯拉要做机器人，理想和小鹏则是为了短期不掉队

目前的智驾基本上是两条技术路线，一个是VLA（“视觉-语言-动作”模型，一个端到端模型+一个视觉语言模型），另一个是世界模型。

VLA的代表是理想和小鹏，世界模型的代表是特斯拉和华为。

理想所谓的把自动驾驶的大脑分成了“左右脑”，也就是两个系统。

系统1是个快系统，部署了端到端模型，通过输入传感器图像，直接输出油门、刹车、转向指令，基本上可以处理95%的日常驾驶，如直行、跟车、简单转弯）。系统1虽然也需要用海量驾驶视频做预训练，但参数量相对较小，通常在几亿到几十亿参数，车企都能训得起。

系统2是个慢系统，部署了VLM（即：视觉语言模型）。它扮演了驾校教练的角色。这个通用的多模态大模型，能看懂路牌上的文字、理解“前方施工请绕行”、识别交警手势、甚至看见路边有小孩在踢球并推断“球可能滚出来”，因为涉及到多模态大模型的分析和推理，所以反应稍慢，可能有几百毫秒延迟，但智商高、有逻辑。它平时不干预，只在系统1处理不了的复杂路况时介入，也就是应对剩下的 5% 驾驶场景。

VLA的技术路线可以规避从零预训练的高昂成本，也不需要训出完美的直觉，直接外挂一个大脑。VLM可以直接借力通用的AI成果。这种模型不需要只看驾驶视频，它看过全世界的书和图片，天生就知道“救护车是红白色的”、“潮汐车道是什么意思”。对于车企来说，不需要重头教AI认识世界，只需对通用大模型做微调，让它适应驾驶场景即可。

这意味着，理想的VLA路线对数据的利用极其聪明，它不再盲目收集所有视频，而是专注于收集系统2被激活时的数据。当理想的车辆经过一个复杂的菜市场，系统1（直觉）想减速停下，但系统2（逻辑）识别出人群在流动，建议缓慢蠕行。这一次成功的“人机配合”数据被回传，就成了最高价值的后训练数据。这种数据含金量极高，能让模型迅速学会处理极端场景，而不需要暴力堆砌里程。

更重要的是，VLA解决了端到端模型的不可解释性的硬伤。VLA有语言能力，它是可以对话的。如果车突然停了，后台可以看到VLM的思考过程：“识别到前方有各种颜色的障碍物，判断为交通事故现场，建议停车”。这对于车企调试算法和用户信任至关重要。

当然，这也让理想在有限算力下，能用逻辑弥补直觉的不足。从企业经营策略上说，在智驾这个烧钱且竞争激烈的领域，VLA的本质是在试图弯道超车，利用通用大模型的通识能力，快速补齐智驾短板。

特斯拉之所以不明确采用像理想那样的VLA路线，核心在于其对自动驾驶终极形态和解决路径的理解不同。

特斯拉（以及华为）认为，语言（Language）是人类为了交流和描述世界而创造的一种高层次抽象。但它无法完全描述物理世界中所有连续、复杂和细微的信息，比如精确的深度、速度、摩擦力等。

所以特斯拉认为驾驶的本质上是一个物理问题，不是一个语言理解问题。世界模型直接编码和预测物理规律，才能实现更高的物理一致性和精准控制。

VLA路线需要将视觉信息转换成语义，再结合知识推理，最终转换成控制动作。这个“视觉→语言→动作”的转换过程步骤多，容易引入延迟和幻觉，甚至误差。特斯拉的端到端模型则追求“视觉→动作”的极致直连，延迟更低、效率更高。

这也意味着，特斯拉必须用“暴力”来训练一个完美的“直觉”。特斯拉自建的 D1 芯片和 Dojo 超级计算机是为了训练这种纯物理、非语言驱动的超大模型而设计的。其他车企基本没有这个算力。

如果特斯拉做成了，那特斯拉的机器人也就成了；而理想和小鹏虽然号称自己是AI公司，但VLA路线的成功只是在智驾上领先一步，离机器人的成功还远得很。

基于上述逻辑，传统盈利的车企，在汽车制造的供应链、规模化和技术积累上的优势一直存在。传统车企在底盘调教、NVH（噪声、振动与声振粗糙度）、整车安全性上的积累，是新势力难以在短期内逾越的。丰田、大众等车企在采购原材料、零部件时的议价能力，以及分摊研发成本的能力，远超年销几十万辆的新势力。

随着开源框架能力的提升，端到端模型和VLM的短板也可以在短期内赶上（甚至可以借助第三方的头部解决方案）。

彩电冰箱大沙发的玩法已经不是真正的竞争力了，因为彩电冰箱大沙发的本质是供应链整合能力的体现，而非核心技术创新。一旦某种配置被用户验证喜欢（如零重力座椅），传统车企凭借强大的供应链话语权，可以以更低的成本迅速铺开。消费者对舒适性配置的阈值在提高，单纯靠堆料就很难再产生溢价。

这就意味着，造车新势力和传统车企再次回到同一起跑线，从投资的角度上，对理想和小鹏的估值，短期内不宜叠加机器人和AI的溢价。

智驾路线之争：特斯拉要做机器人，理想和小鹏则是为了短期不掉队

干货知识更多>>