JavaScript is required

百度王亮:和“初速度”相比,智能驾驶的“加速度”更重要

3月16日,中国电动汽车百人会论坛(2024)上, 百度智能 驾驶事业群组( IDG)首席研发架构师,技术委员会主席 亮做了主题发 言。

在他看来,当下市场上还缺乏能为用户带来体验“跨沟”级别影响力的智能驾驶优秀供给,在产品和研发端,与“初速度”相比,智能驾驶的“加速度”更加重要。

《智车引擎》整理了 现场演讲,略有删改,以飨读者。

以下为演讲全文:

大家好!我是百度智能驾驶事业群组的王亮,负责智能驾驶的Tier1业务,很荣幸和大家探讨技术驱动创新。

今天分享的主题是:“Vision Takes All视觉基础大模型重构自动驾驶技术的实践”。 这三个单词,代表了我们技术研发团队的愿景,我们希望用计算机视觉技术解决所有无人驾驶里面的感知问题。

过去一年,在自然语言处理领域,以文心一言、ChatGPT为代表的大语言模型呈现了振奋人心的智慧,让我们看到了实现通用人工智能的曙光和路径。当下,我们正处在一个以大模型为核心的人工智能新时代。

最近一段时间,智能驾驶的热度同样节节攀升,但是和大语言模型相比,今天的智能驾驶的发展、普及还处在早期,消费者对于智驾的理解还比较浅,智驾功能距离成为消费者购车的头部考虑因素还欠些火候。

我们认为其中一个很重要的原因,当下市场上还缺乏能为用户带来体验“跨沟”级别影响力的优秀供给。 如何借鉴语言大模型背后的技术理念、重构自动驾驶技术,加速智能驾驶企业跨沟是我和团队持续探索和践行的问题,今天借机把我们的思考和经验与大家做一个分享。

我们认为,未来具备体验跨沟潜力的智驾产品需要满足四个必要条件:

1、支持复杂城市道路的点到点领航辅助驾驶,发展城市智驾对提升用户智驾使用率非常关键。数据显示,在用车时长上,城市场景占比90%,同时每天仅有20%多的用户出行会通过高速,而城市道路占比为100%。

2、领航辅助驾驶功能的时空覆盖范围要广,不能仅限于个别样板间城市,要全国都能开。

3、当智驾大规模渗透数量快速增长的同时,如何提升产品质量值得高度关注,用户使用智驾产品要有安心感,能对系统产生信任和依赖,在不同路段和时段使用体验方差要小。这点,可以用我们比较熟悉的MPI,即平均人工介入的里程指标来度量。

4、智驾产品通过用户的使用和反馈系统,能够高频的迭代演进,给用户带来持续的获得感和体验层面的升级,这意味着智驾系统的核心是由人工智能、数据驱动的AI算法构建的,拥有自身的数据飞轮驱动自进化。

今天同时满足四个必要条件的智驾产品,严格意义上市场上还没有,各家都在努力的卷功能、卷体验。

今天的智驾产品,研发过程和交付绝对不是一锤子买卖,上市仅是起点。

如何在后续用户的使用过程中,通过反馈驱动产品力持续提升是技术路线选择的关键考虑因素,其中,比初速度重要的因素是“加速度”,这个跟时间相关的变量。

初速度,决定了产品原型的研发速度, 激光雷达确实占优,厘米级精度的三维测距能力能让感知算法实现的难度大幅降低,工程师很快就能上手完成自动驾驶的闭环。

相比而言,视觉的初速度就慢得多,从二维象素恢复三维信息是计算机视觉领域十几年、几十年几代科研人员在力图解决的难题,但一旦技术进入轨道,图像里天然蕴含的信息量优势会在其在迭代加速度上比所有主动光传感器都敏捷、都迅猛。同时,配合大模型、AI算法,视觉能达到的能力天花板也更高。

我们的观点是,强大的视觉技术是智驾产品能够实现体验跨沟的充分必要条件,视觉能力的高低决定了产品能否走到竞争的终局。 一旦看清楚、想清楚这个问题,从战略聚焦的角度,我们决定把数据资源、模型参数量、训练算力、研发人力资源都All in到演进速度更快、算法上限更高的视觉路线上。

在大模型时代,指导AI研发的一条规律就是OpenAI在2020年提出的Scaling Laws概念,中文可以分成规模法则。

规模法则简单解释一下,随着数据大小、模型大小和用于训练的计算点数的增加,模型的性能就会提高,为了获得最佳性能,所有三个因素必须同时放大。

下面让我们跟随规模法则进一步理解我们的路线选择和视觉能力能够领先的致胜之道。

首先,为什么选择视觉?

我们从激光雷达和视觉的环境采样粒度对比一下。这里分别罗列了目前最主流的城市领航辅助驾驶使用的激光雷达、下一代我们认为业内最强尚未量产的激光雷达,以及目前在极越上使用的普通800万象素摄像头,他们从分辨率、最大频率、点频几个指标参数上可以简单计算出不同传感器的采样比。

摄像头的采样密度是今天主流激光雷达的160倍,到了明天最好的激光雷达上市之后我们的密度仍然是它的20倍。

刚才说了一些可量化的数据指标,还有不可量化的数据指标。俗话说,一图胜千言,图像中蕴藏的信息要比激光雷达点云中丰富。

但过去几年,算法从规则过渡到机器学习、数据驱动、车端模型的数量快速增长,在有限算力的资源下任务和模型增加带来很多显性问题,其中包括主干网络就是backbone这个核心主干网络它的参数量涨不起来、算力竞争让各个单一模型的参数量都受到限制。

二是计算存在冗余,多任务之间的主干往网络他们在特征提取的步骤中有大量的计算是冗余的,每个都在做,对算力是一种侵蚀。

最后,多学习任务之间是隔离的,我们难以学习图像的通用表征,各任务需要长期补充大规模人工标注的数据,来弥补模型泛化能力的不足。

于是,我们下决心改变云端和车端的感知架构,用一个多任务共享的统一基础感知模型代替原来模型的主干网络,在我们的预训练阶段Pretraining阶段,使用多元的图像数据,训练基础大主干网络,来学习图像的通用表征,这里的数据不再只限于自动驾驶场景下的数据,包括物联网的数据,包括叠加公开数据集的图像数据,都可以参与到这一步来。

这一步优化了我们基础大模型(Foundation Model)的参数,这个模型的参数规模可以做到原来左边这种小的backbone的数十倍甚至百倍。

在Finetuning阶段,可以锁定主干网络参数,使用来自于业务一线精标的业务数据充分优化各个任务head参数,这一阶段相比预训练可以更高频的去迭代,消耗的算力和数据资源也更小,团队研发也更加敏捷。

说起视觉方案,很多人问我,大家觉得纯视觉车端不要激光雷达了是不是很低成本的方案,这里给大家分享一下我的一个认知,我觉得肯定不是这样的。 支撑百度自动驾驶大模型发展的背后是我们在自动驾驶领域持续高强度的研发投入,刚才说到规模法则里面很重要的一条是算力,多大算力决定你的模型能走多远,在当前的训练算力方面,我们在智驾这个项目上投入的总算力资源达到了2.2eflops的量级,同时我们为了用户的体验提升、用户体验跨沟,我们现在对算力的使用是上不封顶的。

所以大家可以看到,虽然我们去掉了激光雷达使用纯视觉,对消费者来说,他可以更低的成本去享受科技带来的便利。但是在背后我们的研发团队、客户投入了相当大的成本去促成这件事情,但是我们认为绝对是值得的。

以上就是我对视觉大模型重构自动驾驶技术的分享。谢谢大家!

点击查看全文
评论赞0分享
轨迹
百度电动汽车百人会

欢迎关注我们!

上海恩翌信息科技有限公司
1NE时代-小恩
188-1775-0862
沪ICP备17041240号-4