365文库

再度跟风特斯拉，中国车企押注端到端

2024-08-14 02:17 财经科技来源：网易新闻

来源丨创业邦（ID：ichuangyebang）

作者丨潘磊

编辑丨海腰

图源丨midjourney

“今天L4公司都在痛苦地犹豫是否该转入端到端，我个人的建议是别犹豫，赶紧改，后面那个才是大家伙”。

这是小鹏汽车董事长何小鹏，最近从美国考察游历一番后，对智驾进入“端到端时代”的最新判断。

在大约两周前的小鹏汽车技术发布会上，何小鹏更是兴奋地宣布，2024年就是智能驾驶的拐点。

他认为，“大模型+端到端”已经把智驾能力进展从以前的按“年”计算，提升到按天计算。

换句话说，这就是对智驾领域的一次洗牌，要么跟上，要么出局。

何小鹏从特斯拉获得启发符合逻辑——事实上正是特斯拉FSD在去年率先搞出“端到端”技术方案，并把这个看上去晦涩难懂的术语变成了智驾圈的流行语。

所谓“端到端”，就是把之前与自动驾驶有关的感知、决策和执行等相对分散的核心模块整合在一起，从传感器端输入信号开始，中间经历一个AI大模型，再到输出端发出信号控制车辆。

这就及其考验那个能够搞定“感知决策执行一体化”的AI大模型的水平。

作为一个“学习系统”，贯通感知决策执行的AI大模型，能够通过从传感器获得的原始数据中不断“学习”，并自动生成人们想要的那种结果输出。

这被认为智能驾驶“拟人化”的开始。

在特斯拉FSD V12版本之前，这种智驾系统拥有和其他同类系统差不多的通病——比如在复杂路况中，智驾系统突如其来的刹车会带来一种明显的“机械感”，从而让用户恐慌。

但是到了引入端到端的V12版本后，这套系统看上去拥有了一些“博弈”能力，比如能够更加丝滑地应对加减速和转向控制。

而在这之前，智驾系统每遇到一个场景，就需要工程师专门通过代码给出解决方案，然后才能搞定一个所谓的Corner case。

FSD V12版本引入端到端后，相当于拥有了一定的自我学习能力，工程师无需再为无法预知、无法穷尽的Corner case逐个编写代码了，所以代码从30多万行缩减为仅有3000多行。

何小鹏说，他相信2025年就将是完全自动驾驶的“ChatGPT 时刻”。

中国车企早已开始跟风端到端

“小鹏是全球唯二实现端到端大模型量产落地的车企”。

在7月底的“小鹏汽车AI智驾技术发布会”上，何小鹏表示，“端到端大模型”让小鹏智驾技术进步实现了前所未有的加速。“每2天迭代一次版本”。

此时距离小鹏汽车官宣智驾进入端到端时代仅2个月。

但看上去，小鹏正在加速把智驾系统从“全国都能开”，进化成“全国都好用”，即不限城市、不限路线、不限路况。

这是一个惊人的跃迁。

因为在这之前，智驾系统的PK，基本都是围绕“开城”来展开。

“开城”的本质是，车企的智驾技术人员在目标城市完成场景数据收集和填充，然后“灌进”智驾系统，从而实现城市NOA（领航辅助驾驶）。

但这种高阶辅助驾驶上限很低，很难上升到L3或者更高级别。

因为存在不少需要人类接管的场景，比如小区内部、收费站等。

解决这类问题，就需要工程师根据特定场景写代码，从而解决所谓的Corner case。

显而易见，这种场景无穷无尽。

何小鹏说，在这种规则下，智能驾驶再搞十年也看不到尽头。

但引入端到端和大模型之后，这个瓶颈迎刃而解。

小鹏为此调整了组织架构，以更加聚焦于端到端+大模型的组合。

跟何小鹏的看法类似还有理想汽车董事长兼CEO李想。

他在今年6月初的2024中国汽车重庆论坛上提出了一个问题，即人类开车为什么不涉及学习Corner case？

在他看来，如果不解决这个问题，那么自动驾驶团队每天干的活，就是靠人工去调试各种Corner case，而且会发现你放的人越多，Corner case就越多，距离实现真正的自动驾驶就越远。

他给出的方案也是端到端加上VLM视觉语言模型，以及一个生成式世界模型组成的全新自动驾驶技术架构。

李想表示，这是理想在过去一段时间内，最重要的一个技术突破。

基于此，理想汽车将会在今年三季度向所有用户正式推送全国无图NOA。

他还相信，无监督的L4级自动驾驶至少3年内就能实现。

理想也成立了“端到端自动驾驶”实体组织，据称整体规模超过200人。

蔚来汽车也把感知和规控团队合并为大模型团队，探索用端到端和世界大模型实现高阶智能驾驶。

梳理来看，这些变化都发生在今年年初特斯拉发布FSD V12版本之后，也意味着特斯拉率先引入的端到端大模型技术再次引领智驾新趋势。

另外，华为在去年9月就发布了“盘古汽车大模型”，可在数字孪生空间生成复杂场景样本，让自动驾驶学习训练周期从2周以上缩短到2天内。

再次陷入Corner case怪圈？

特斯拉FSD的最新版本为中国车企提供了有关端到端和大模型的启示，实现自动驾驶的路径近在眼前。

这让“摸着特斯拉的石头过河”，再次成为可能。

但其中的问题在于，特斯拉究竟是如何做到这一点的，却是一个不传之秘。

何小鹏坦承，大模型迭代过程中会出现“不稳定”现象。

在5月份，他也提到了有关“端到端”的不确定性。

他认为所有大模型上都有不确定因素，重要的是如何去构建你的控制器，就像控制刹车一样，构建针对黑盒的安全系统。

看上去即便是端到端，也在进入一个更加复杂化，甚至是自我束缚的囚徒困境。

这甚至已经从特斯拉CEO埃隆·马斯克处获得了证实。

6月中旬的特斯拉2024年年度股东大会上，马斯克承认FSD面临新的挑战。

他称，改进一个模型可能解决一个问题，但同时可能引入一个新问题。

看上去，这跟引入端到端之前的那种Corner case无法完全解决的情况很接近。

而且随着人类接管的减少，评估模型性能的难度在增加。

这是另一个悖论——接管减少表明性能优秀，但另一方面也表明随着模型变“大”，其更新也将会变慢，表现得不像一个能给自动驾驶带来颠覆性变革的路径。

而最近公布的一个交通事故表明，特斯拉的一台车在开启FSD模式下撞死了一个摩托车手。

就在7月底，Truist Securities分析师威廉·斯坦因在体验特斯拉FSD时险些撞车。

巧合的是，华为终端董事长、智能汽车解决方案BU董事长余承东近日也表示，FSD上限挺高，但下限也很低。

“华为工程师去测试（FSD），路上停着静止不动的白色货车或者绿色货车，都不减速直接撞过去了，可能识别成白云或者树木了”。

这种情况被称为“AI幻觉”，据称有30%的错误率。

另外，前图森未来创始人，现Bot.Auto创始人侯晓迪近期也针对端到端，发表了一些不一样的观点。

侯晓迪认为，端到端是一种新思路，但是否为最先进，目前尚无定论。

同时，端到端的“技术黑盒”具有不可解释性，无法带来确定的安全感。

基于此，端到端并非一个一头输入信息，另一头就能输出结果的“自动工厂”，还具有不确定性，不要过度神话。

极越CEO夏一平则认为，现在还没有100%的端到端，都是营销噱头。

端到端背后

是包括算力在内的体系PK

根据马斯克的说法，预计今年年底将会在中国和欧洲落地FSD。

其实在这之前，有关FSD将会成为智驾领域“鲶鱼”的说法就已经层出不穷。

但从中国主流车企对“端到端”的追随来看，FSD已经开始对中国智驾的技术路线产生深远影响。

这也再次验证了特斯拉的视觉方案更加接近“第一性原理”——正如李想所说，人类驾车就不涉及学习Corner case的问题。

因为人眼就类似于传感器，大脑作为神经网络对接收到的信号进行推理判断后，做出反应并执行。

车路云一体化，以及高精地图方案，也因此都有各自的短板。

到目前为止，特斯拉还未使用激光雷达。

对此余承东表示，特斯拉的优点在于车辆多、数据多，FSD做的不错。

但经过在美国和加拿大的测试对比后，他认为华为的体验略优一些。

“特斯拉没用激光雷达，我们用了，弥补了感知能力”。

目前华为备受关注的ADS3.0也是端到端“类人”智驾，采用的是GOD感知神经网络，以及 PDP(Prediction-Decision- Planning, 预测决策规控)决策规划网络，这被称为两段式端到端。

跟特斯拉FSD输入传感器数据，直接输出路径规划的一个模型相比，华为的“两段式”端到端区分了感知和规控，更容易定位，从而增加了可解释性。

但真正具有颠覆性的自动驾驶技术架构终局，就是生成式端到端大模型。

这对于包括算力在内的基础设施来说，是一个极大的考验。

对于特斯拉来说，逡巡多年才实现端到端多模块融合的背后，是其DOJO超算中心高达35000块英伟达H100GPU的算力资源。

根据马斯克的说法，到今年年底特斯拉将拥有8.5万块英伟达H100GPU用于训练人工智能。

换句话说，特斯拉FSD端到端的背后，是一个巨型体系在支撑。

何小鹏表示，他已经在AI训练上投入了35亿费用。

但作为对比，马斯克声称今年将花费100亿美元用于AI的训练和推理，光是向英伟达购买AI芯片就要花费30--40亿美元。

他甚至表示，任何支出达不到每年100亿美元水平或者无法高效部署的公司，都无法在市场上竞争。

按他的标准，没有任何一家中国车企能够跟特斯拉竞争。

这很大程度上属于事实——中国车企甚至连H100GPU都无法买到。

华为显然能够提供一些替代品，这也为未来的自动驾驶时代竞争提供了足够的悬念。

热门文档

142阅读 | 4收藏

161阅读 | 8收藏

66阅读 | 2收藏

150阅读 | 5收藏

270阅读 | 9收藏

App功能展示

海量免费资源

文档在线修改

图片转文字

限时免广告

多端同步存储

格式轻松转换