JavaScript is required

2023年终系列:大模型这把火,烧到了自动驾驶

近日,CES国际消费电子展在美国拉斯维加斯开幕,人工智能稳居C位,智能座舱与智能驾驶已成汽车行业新技术的风向标。

如果说,上一届CES还是元宇宙的天下,那2024 CES可谓AI大模型的舞台。汽车制造商对外展示了AI与智能化结合的诸多新技术,生成式AI加速上车,成为宝马、奔驰和大众等车企的共同重点。

越来越多的人意识到,AI大模型与智能网联的结合将逐渐成为现实。业界都称2023年是AI元年,AI大模型用野蛮且颇具爆发力的方式进入各行各业,未来3-5年,AI大模型将成为推动汽车智能化的重要变量。

特别是在智驾领域,虽然AI大模型还存在实践层面的诸多难题,但自动驾驶的数据生成、标注、模型训练、云端仿真等一系列流程都有了进一步优化的空间。

无论是当下大热的城市NOA,或是L3级以上的高阶自动驾驶,都能从大模型直接受益。阿里巴巴首席执行官曾提出,“AI时代,所有产品都值得用大模型重做一遍”,这一思路,同样适用于自动驾驶。

01

自动驾驶算法迎拐点

算法、算力和数据是人工智能的三大要素,传统自动驾驶算法体系,将自动驾驶分为感知、决策、规划与控制三部分,模块化完成自动驾驶的算法任务。

AI大模型的出现,给自动驾驶算法迎来新的拐点,神经网络加快自动驾驶感知算法发展,小模型向大模型迭代,对上述三个板块都有不同维度的影响。

2021年,特斯拉展示了基于BEV+Transformer的自动驾驶感知新范式,在取得了不错的实践效果后,我国自动驾驶领域也掀起一股BEV+Transformer浪潮,车企和科技公司纷纷加码,推动大模型走向自动驾驶的“平民化”。

BEV的全称,是基于多视角摄像头的鸟瞰图感知(Bird's-eye-view Perception),是将传统自动驾驶2D图像视角(Image View)加测距的感知方式,转换为在鸟瞰图视角下的3D感知。

Transformer,则是人工智能领域的热门算法,在智能驾驶场景中发挥出传统CNN算法所不能企及的感知能力,如拥有更高的图像识别能力、更灵活的泛化性能,且和CNN相比,可可实现多模态数据的处理。

业界把BEV Transformer视为自动驾驶的iPhone时刻, 它几乎颠覆了自动驾驶这一赛道在过去十几年的技术和逻辑积累,也包括特斯拉自己的旧有优势,也被新的模式“自我革新”。

去年,毫末智行发布了国内首个自动驾驶生成式大模型DriveGPT,中文名叫雪湖·海若。

一方面,DriveGPT的底层模型,采用GPT生成式预训练大模型,只是与ChatGPT使用自然语言进行输入与输出不同,DriveGPT输入是感知融合后的文本序列,输出是自动驾驶场景文本序列,即将自动驾驶场景Token化,形成“Drive Language”——

也就是说,ChatGPT最拿手的逻辑推理和预测判断,被DriveGPT整合到了自动驾驶领域,最终完成自车的决策规控、障碍物预测以及决策逻辑链的输出等任务。

另一方面,DriveGPT也引入了RLHF(人类反馈强化学习)技术,对自动驾驶认知决策模型进行持续优化,现阶段主要用于解决自动驾驶的认知决策问题,终极目标,是实现端到端自动驾驶。

科技公司很敏锐地嗅到这一趋势。

在百度等大厂,AI大模型成为资源加码的重点,甚至深入渗透到自动驾驶业务。也是在去年,百度对智能驾驶事业群(IDG)进行了组织架构调整,旗下智能交通事业部(ACE),也就是此前被李彦宏视为自动驾驶杀手锏的车路协同,被划归到智能云事业群(ACG)。

02

端到端,自动驾驶新形态?

随着AI大模型脱颖而出,自动驾驶技术也逐渐具备端到端进化的可能性,AI大模型正在重塑自动驾驶技术路线。

自动驾驶端到端,是有别于模块化架构的解决方案。现阶段,使用较多的自动驾驶的模块化算法解决方案,把自动驾驶任务拆解成多个不同的模块,把对应的模块任务交给不同的模块进行处理。

端到端的最本质的变化,是将多个小模型融合成一个大模型,直接从输入到输出做训练,做到感知和决策一体化,避免了各个模块相互独立时的冗余计算。

特斯拉开了端到端尝试的先河——

号称其FSD V12将实现端到端自动驾,感知决策一体化,将“感知”和“决策”融合到一个模型中,模型架构迎来革命性的变化。马斯克表示,FSD V12全程可通过AI来实现,其中,任何一行此前靠程序员编写的道路识别、行人识别等代码,可实现全部由神经网络来完成。

业界有不少声音,认为特斯拉开创的端到端将是自动驾驶的终极形态,也是AI大模型结合自动驾驶的最优解,从去年开始,国内公司也开始朝着端到端路线发力。

值得一提的是,目前国内还没有公司能做到真正的“端到端”,即使是在大模型领域走在前面的毫末智行,其DriveGPT仍然分为感知大模型和认知大模型两部分。

毫末智行CEO顾维灏也曾表示,DriveGPT的目标是实现端到端自动驾驶,现阶段,主要用于解决自动驾驶的认知决策问题,后续会进一步加速纯视觉方案能力的提升和成本下降,实现数据规模从量变到质变,将毫末多个大模型的能力整合到DriveGPT。

同济大学汽车学院教授朱西产也在一次演讲里表示,特斯拉FSD V12虽然在技术路线上引起震动,让业界开始关注到AI端到端,但关于特斯拉目前能否做到AI端到端,他个人认为,现在来说并不完全是,准确来讲,这应该是BEV Transfomer+Occupacy+GNN(制图网络)的组合。

不过,决定端到端模型性能上限的,一个是数据,另一个是算力。有意思的是,这两个都是特斯拉的强项。

Dojo是特斯拉用于云端训练AI模型的超级计算机,主要服务于特斯拉的自动驾驶任务。自动驾驶算法的变革,带来产业链革新,云端训练是这场革新的重要部分。

这也意味着,马斯克手里不仅有算力、有数据、有AI模型、还有超强的云端训练能力。

03

智驾芯片竞争加速

地平线是国内最先布局BEV Transformer的芯片企业之一,去年年初,该公司提出基于BEV Transformer的端到端算法框架,并将这套架构的部分模块应用于征程5芯片,包括纯视觉BEV动静态环境感知,以及基于Transformer的道路关联关系识别。

年末,地平线发布最新产品征程6,能够覆盖从低阶到高阶的智能驾驶需求,其中征程6旗舰专门针对城区高阶智能驾驶场景,算力高达560 TOPS,并且支持BEV+Transformer等行业模型。

不只地平线,其它国内头部智驾芯片公司都在布局BEV Transformer,黑芝麻智能已将开发的BEV模型部署到旗下华山二号A1000芯片上。公开资料显示,黑芝麻智能的BEV框架主要分三部分:

第一部分是特征提取,对每一路输入的图像,提取其图像特征;第二部分是BEV的特征生成,包含空间的融合和时间的融合;第三部分是目标检测。

BEV Transformer倒逼自动驾驶芯片走向大算力,“舱驾一体”则推动自动驾驶芯片走向新架构。

舱驾一体的核心,是将座舱域和智驾域高度整合,集成到一个高性能计算单元中,支持智能驾驶和智能座舱功能。相较于行泊一体和舱泊一体,舱驾一体架构的集成度更高,当然对软硬件的要求也更高。

BEV Transformer带来自动驾驶感知范式的变化,以及算法复杂度和数据规模的提升,舱驾一体的趋势带来跨域融合+中央计算式的革新,两者互相影响,成为未来AI大模型落地的驱动力。

据悉,黑芝麻支持舱驾一体的C1200将在2024年、2025年量产,该公司首席营销官杨宇欣曾在交流时表示,舱泊、舱驾是两个域的融合,黑芝麻芯片可以支持四个域的融合。

越来越多的智驾芯片供应商意识到,从智能驾驶,到舱驾一体跨域融合,将成为国产芯片弯道超车的绝佳机会。

未来1-3年,将有更多头部公司选择这样的思路,一方面是将多颗芯片的功能融合成单芯片,另一方面,则是在性价比方面下功夫。

点击查看全文
评论赞0分享
轨迹
自动驾驶2023

欢迎关注我们!

上海恩翌信息科技有限公司
1NE时代-小恩
188-1775-0862
沪ICP备17041240号-4