目前的智驾基本上是两条技术路线,一个是VLA(“视觉-语言-动作”模型,一个端到端模型+一个视觉语言模型),另一个是世界模型。
VLA的代表是理想和小鹏,世界模型的代表是特斯拉和华为。
理想所谓的把自动驾驶的大脑分成了“左右脑”,也就是两个系统。
系统1是个快系统,部署了端到端模型,通过输入传感器图像,直接输出油门、刹车、转向指令,基本上可以处理95%的日常驾驶,如直行、跟车、简单转弯)。系统1虽然也需要用海量驾驶视频做预训练,但参数量相对较小,通常在几亿到几十亿参数,车企都能训得起。
系统2是个慢系统,部署了VLM(即:视觉语言模型)。它扮演了驾校教练的角色。这个通用的多模态大模型,能看懂路牌上的文字、理解“前方施工请绕行”、识别交警手势、甚至看见路边有小孩在踢球并推断“球可能滚出来”,因为涉及到多模态大模型的分析和推理,所以反应稍慢,可能有几百毫秒延迟,但智商高、有逻辑。它平时不干预,只在系统1处理不了的复杂路况时介入,也就是应对剩下的 5% 驾驶场景。
VLA的技术路线可以规避从零预训练的高昂成本,也不需要训出完美的直觉,直接外挂一个大脑。VLM可以直接借力通用的AI成果。这种模型不需要只看驾驶视频,它看过全世界的书和图片,天生就知道“救护车是红白色的”、“潮汐车道是什么意思”。对于车企来说,不需要重头教AI认识世界,只需对通用大模型做微调,让它适应驾驶场景即可。
这意味着,理想的VLA路线对数据的利用极其聪明,它不再盲目收集所有视频,而是专注于收集系统2被激活时的数据。当理想的车辆经过一个复杂的菜市场,系统1(直觉)想减速停下,但系统2(逻辑)识别出人群在流动,建议缓慢蠕行。这一次成功的“人机配合”数据被回传,就成了最高价值的后训练数据。这种数据含金量极高,能让模型迅速学会处理极端场景,而不需要暴力堆砌里程。
更重要的是,VLA解决了端到端模型的不可解释性的硬伤。VLA有语言能力,它是可以对话的。如果车突然停了,后台可以看到VLM的思考过程:“识别到前方有各种颜色的障碍物,判断为交通事故现场,建议停车”。这对于车企调试算法和用户信任至关重要。
当然,这也让理想在有限算力下,能用逻辑弥补直觉的不足。从企业经营策略上说,在智驾这个烧钱且竞争激烈的领域,VLA的本质是在试图弯道超车,利用通用大模型的通识能力,快速补齐智驾短板。
特斯拉之所以不明确采用像理想那样的VLA路线,核心在于其对自动驾驶终极形态和解决路径的理解不同。
特斯拉(以及华为)认为,语言(Language)是人类为了交流和描述世界而创造的一种高层次抽象。但它无法完全描述物理世界中所有连续、复杂和细微的信息,比如精确的深度、速度、摩擦力等。
所以特斯拉认为驾驶的本质上是一个物理问题,不是一个语言理解问题。世界模型直接编码和预测物理规律,才能实现更高的物理一致性和精准控制。
VLA路线需要将视觉信息转换成语义,再结合知识推理,最终转换成控制动作。这个“视觉→语言→动作”的转换过程步骤多,容易引入延迟和幻觉,甚至误差。特斯拉的端到端模型则追求“视觉→动作”的极致直连,延迟更低、效率更高。
这也意味着,特斯拉必须用“暴力”来训练一个完美的“直觉”。特斯拉自建的 D1 芯片和 Dojo 超级计算机是为了训练这种纯物理、非语言驱动的超大模型而设计的。其他车企基本没有这个算力。
如果特斯拉做成了,那特斯拉的机器人也就成了;而理想和小鹏虽然号称自己是AI公司,但VLA路线的成功只是在智驾上领先一步,离机器人的成功还远得很。
基于上述逻辑,传统盈利的车企,在汽车制造的供应链、规模化和技术积累上的优势一直存在。传统车企在底盘调教、NVH(噪声、振动与声振粗糙度)、整车安全性上的积累,是新势力难以在短期内逾越的。丰田、大众等车企在采购原材料、零部件时的议价能力,以及分摊研发成本的能力,远超年销几十万辆的新势力。
随着开源框架能力的提升,端到端模型和VLM的短板也可以在短期内赶上(甚至可以借助第三方的头部解决方案)。
彩电冰箱大沙发的玩法已经不是真正的竞争力了,因为彩电冰箱大沙发的本质是供应链整合能力的体现,而非核心技术创新。一旦某种配置被用户验证喜欢(如零重力座椅),传统车企凭借强大的供应链话语权,可以以更低的成本迅速铺开。消费者对舒适性配置的阈值在提高,单纯靠堆料就很难再产生溢价。
这就意味着,造车新势力和传统车企再次回到同一起跑线,从投资的角度上,对理想和小鹏的估值,短期内不宜叠加机器人和AI的溢价。