过去几年,智能驾驶领域的竞争焦点经历了显著转变。
初期,竞争主要围绕硬件展开,包括是否配备激光雷达、部署多少摄像头以及算力达到多少 TOPS。随后,随着大模型时代的到来,竞争转向了端到端、VLA(视觉-语言-行为)以及 World Model(世界模型)等技术路径。
如今,越来越多的企业认识到,仅仅拥有更大的模型已不足以形成代际优势,真正决定技术上限的是模型、数据、算力和芯片之间能否构建一个持续迭代的闭环。
这正是许多汽车制造商选择自主研发的原因。
特斯拉几乎涵盖了从数据采集、训练基础设施、FSD 模型到 Dojo 超级计算机及自研芯片的整个链条。在中国,小鹏、蔚来以及理想等品牌也在不断向更底层技术延伸。
在今年推出的 L8 和 L9 车型上,理想汽车已采用了自研的马赫 M100 芯片。这款采用数据流架构的芯片被理想汽车视为人工智能领域的重要技术方向。此外,理想汽车还在马赫 M100 上运行了其自研的马赫 VLA 模型。
然而,对于整个行业而言,更值得关注的问题并非“是否进行自研”,而是这些投入究竟能解决哪些实际问题。
带着这个疑问,我们与理想汽车自动驾驶负责人詹锟以及芯片负责人谢炎进行了深入交流。他们分享了理想汽车对下一代自动驾驶技术路线的判断,并阐述了自研芯片、数据体系以及 AI 基础设施背后的设计理念。以下为部分访谈纪要,经过编辑整理:
问:为在第四季度达到特斯拉 FSD V14 的效果,理想汽车还需要在哪些方面努力?
**詹锟:**我认为追赶 FSD 有两个层面的考量。
首先是基础体验,具体体现在三个方面:安全性、效率和舒适度是否能达到 FSD 的同等水平。FSD 在安全性方面表现出色,效率和舒适度也相当高,这是其基本功。即使不处理极端的驾驶场景,也能在这些基本功上达到同等水平。
其次是能力层面,这一点也极具挑战。例如,特斯拉能够识别并礼让特殊车辆,能够精准感知在极窄空间内的通行情况,并且能识别交警的指挥,这些能力都非常强大。
在能力层面,存在架构升级的机会。为何一些公司没有,而特斯拉却拥有这些能力?这可能源于过去的范式限制,也可能与架构或数据有关。我们在这些方面进行了大量的探索。
问:我理解马赫 VLA 是一套技术体系,而非单个模型。例如,Mind-Edge 是服务于智能座舱的端侧模型。那么,当前的智能驾驶模型中是否还包含“L”(Language,语言)这一部分?
**詹锟:**当前自动驾驶的架构普遍趋向于将 VLA(视觉-语言-行为模型)与 World Model(世界模型)整合。
从长远来看,所有技术路径都会朝这个方向发展。无论是 VLA 还是 World Model,其内部的 Prompt(提示)都需要用到语言。因此,语言必不可少,关键在于如何运用它。
在机器智能领域,我认为基于视觉(Vision Based)的 approach 是更合理的,它能更好地理解空间、感知三维空间并服务于环境。语言当然也有其价值,在理解环境、交通规则、指令以及进行复杂的决策思考方面都至关重要。
从长远来看,基于视觉和语言的原生基础模型,可能是未来的发展趋势。
**谢炎:**如果目标是实现 L3、L4 级别的自动驾驶,需要解决更广泛的问题,那么模型就必须具备类似人类的思考能力。届时,语言的重要性将日益凸显,这也解释了为何未来需要巨大的算力。
如果模型仅具备视觉和动作(Vision and Action)能力,即使拥有海量数据,在遇到分布外(out-of-distribution)的情况时也会束手无策。即使是动物学会了所有常见情景,面对从未见过的情况也可能完全不知所措,无法做出正确的选择。
我们认为,越是朝着 L3、L4 级别迈进,所要解决的问题就越接近那 90%、95%、98% 之后的问题——那些前所未见的问题,需要模型具备类似人类的思考能力。而实现这种推理和思考能力的关键来源是语言模型。例如,当一名警察做出手势时,你需要理解其意图是让你通行还是停止,这并非仅仅通过收集或生成数据就能解决。
问:随着理想汽车车队规模的不断扩大,从内部来看,数据的边际效应是否开始出现衰减?你们是如何定义有价值的数据的?
**詹锟:**首先,数据的规模必须足够庞大,其本质是为了收集更多的 Corner Case(长尾场景)。目前,业界有多种方法可以在车端部署高效的 neural trigger(神经网络触发器),用以判断当前场景是困难场景还是简单场景,并将关键数据回传。这也是特斯拉目前表现强大的重要原因之一。
其次,数据质量至关重要,主要体现在行为质量上。当前,业界逐渐趋向于端到端的范式,无论是 VLA(视觉-语言-行为模型)、World Model(世界模型)还是 Vision-Action(视觉-动作模型),都可以实现,但关键在于你必须清晰地知道 Action(行为)的质量。行为的干净程度和一致性非常重要。
至于数据规模增大后边际效应是否衰减,首先,只要模型能力不断提升,只要我们追求达到满分,其增长曲线必然是“对数曲线”,呈现缓慢衰减的趋势,而非线性增长,这在任何 AI 公司都是如此。尽管越到后期,数据收敛的速度确实会放缓,但我们希望通过规模效应来加速这一过程。
问:马赫 M100 能够支持多种 AI 场景的运行。从五年后或再往后两代产品的角度来看,理想汽车车内的算力中心是否有望全部采用自研的马赫芯片?
**谢炎:**虽然业内存在“舱驾一体”的说法,但我们认为舱驾一体的核心在于 AI 算力部分,其他部分是否一体化则不那么关键。因为座舱系统和 AI 智能驾驶系统可以完全独立,但 AI 算力可以集中处理,从而提高分配效率。
我们的路线图最终设想是构建一个集中的车内 AI 计算中心,所有 AI 任务都可以在这个中心进行计算。这类似于在笔记本电脑上运行 OpenClaw,AI 计算并非在笔记本本地进行,而是在 Token Provider Server(Token 供应服务器)上完成,车内的情况也类似,会有一个 Token Server(Token 服务器)。
这个 Token Server 的优势在于:第一,效率极高。第二,能够实现不同任务之间的隔离,互不干扰。例如,智能驾驶任务的确定性——无论是内存还是带宽,都能保证不受其他任务的干扰,这是软硬件协同设计才能实现的结果。
问:是否因为 M100 采用了数据流架构的 AI 推理芯片,所以相较于其他厂商的自动驾驶芯片,它对带宽的需求较低,但对片上存储的需求更高?
**谢炎:**我们对带宽的要求确实较低,但这并非设计 SRAM 容量(非显存)的直接原因。目前 HBM(高带宽内存)非常流行,许多人认为带宽越高越好。然而,计算、带宽、SRAM 等都需要晶体管来实现,最终的设计是基于成本、综合性能等多种因素考量后的一种选择。
不同的架构设计,仅仅依靠一两个指标进行简单对比,既不合理也不专业。这就像拳击比赛,身高和体重都有各自的优势,但并非单一指标决定胜负,最终比拼的是这项运动的整体表现。
问:为何当前的大算力芯片方案,例如英伟达、小鹏、理想自研的芯片,都没有实现芯片级的舱驾融合,反而高通在低算力芯片上做了这件事?这是什么原因?
**谢炎:**从本质上讲,座舱(舱)和智能驾驶(驾)是两个独立的系统。特别是对于高端的 L3 向 L4 级别发展,智能驾驶需要一个更高确定性的系统,内存需要专属,计算资源需要专属,此时融合的意义就大大减小了。因为资源无法进行实时切换,实时切换会降低确定性。如果方向是越来越趋向于独占资源,那么融合的价值就不大了——你只是将芯片集成在一起,但资源仍然是两份,并不能带来成本的降低,甚至可能影响效率。
您可以观察到,目前所谓的舱驾融合系统,它们本质上还是分开的。如果无法实现 A 任务和 B 任务的即时切换,那么将两个芯片集成到一块芯片中,晶体管数量可能不变,仅仅节省了封装成本。对于中低端芯片而言,这部分成本是可以节省的,但节省幅度有限。
我的观点是,随着智能驾驶技术越来越高端化,舱驾融合这件事的意义可能并不大。如果将这些芯片做得更近,在同一块板上实现高度集成化的方案是可以的,不一定非要集成到一块芯片中,也可以是多块芯片集成在同一块板上。
问:自研芯片需要具备哪些条件,例如销量、营收和研发投入?当前自动驾驶迭代速度很快,芯片要实现持续迭代,需要什么样的条件?
**谢炎:**芯片的初期投入确实不菲,可能每年需要数亿元。
第一个条件是达到一定的营收规模。对于车企而言,年营收达到 1000 亿元以上,研发投入至少占 10%,即每年有几十亿到上百亿的投入,才足以支撑芯片的研发。第二个条件是,你研发的芯片所解决的问题,必须能够切实提升你的产品能力。
许多人认为芯片需要巨大的出货量才行。其实,芯片的成本与面积密切相关。一辆车上的智能驾驶芯片,例如 L7/L8/L9 的 AD Max 方案使用了两颗马赫 M100,总面积约为 800 平方毫米。而一款高端手机芯片的面积大约为 100 平方毫米,因此一辆车的智能驾驶芯片面积相当于 8 部高端手机芯片的总和。
如此计算下来,几十万辆车的晶圆面积需求非常大,足以摊薄成本。因此,成本不能仅凭单颗芯片的数量来衡量。
问:动态数据流编译器到底难在哪里?攻克它花了多长时间?
**谢炎:**在芯片流片之前,甚至在设计阶段,我们就已经开始着手编译器工作了,在芯片流片前,就已经成功运行了许多模型。
数据流是一种完全不同的架构,它所要解决的问题与超级计算机或大规模计算机集群要解决的问题非常相似——当规模扩展到几十万台计算机、上百万个核心时,它们之间的通信和协作,无法依靠一个中央管理员来统一调度。传统的冯·诺依曼架构的调度方式在这种规模下是不可行的,这是一个超大规模的并行调度问题。


资深玩家分享
GG扑克平台汇聚了来自世界各地的扑克爱好者,形成一个活跃的玩家社区。在这里,您可以与其他玩家共享经验、交流心得,共同提升牌技,享受扑克带来的乐趣。
赛事分析师
GG扑克APP提供便捷的游戏体验,您可随时随地参与精彩赛事,追踪最新资讯,并与其他玩家互动。我们的平台持续更新精彩内容与热门话题,确保您始终掌握扑克界的最新动态。
策略导师
GG扑克平台致力于打造一个集资讯、互动、娱乐于一体的综合性扑克娱乐生态。我们不仅关注竞技层面,也注重为玩家提供一个友好、专业的交流环境,让每一位扑克爱好者都能在这里找到归属感。