CVPR 2024之端到端、占据栅格、世界模型TOP

NE时代智能车 更新于2024-07-01 21:29:09

近日,CVPR 2024自动驾驶国际挑战赛(Autonomous Grand Challenge)的比赛结果揭晓。

本届挑战赛参赛共吸引来自28个国家和地区的483个团队参赛,覆盖全球五大洲,共计产生了超3000份参赛方案。来自北京大学、清华大学、哈佛大学、牛津大学、慕尼黑工业大学、新加坡国立大学等高校的研究团队,与NVIDIA、AMD等企业的代表共同角逐。

聚焦自动驾驶领域的前沿方向及“热点”“难点”问题,本次大赛设置了三大方向的七个赛道:

一、路径规划:端到端自动驾驶(End-to-End Driving at Scale)、CARLA自动驾驶挑战(CARLA Autonomous Driving Challenge)、大语言模型在自动驾驶中的应用(Driving with Language)

二、感知:占据栅格和运动估计(Occupancy and Flow)、多模态三维视觉定位(Multi-View 3D Visual Grounding)、及无图驾驶(Mapless Driving)

三、预测:世界模型(Predictive World Model)

01.

端到端自动驾驶

端到端自动驾驶共有143个团队参加比赛。其中英伟达得分最高(0.9274),其次是国内重卡智能驾驶初创企业零一汽车,得分0.8626。从第三名后,得分差之毫厘,距之千里。在去年赢得 3D 占用率预测的基础上,英伟达凭借其 Hydra-MDP 模型在今年的“大规模端到端驾驶”类别中再次名列前茅。

英伟达提交的论文是Hydra-MDP: End-to-end Multimodal Planning with Multi-target Hydra-Distillation。这表明了生成式人工智能在构建自动驾驶汽车(AV)开发中物理 AI 部署应用程序方面的重要性。该技术还可应用于工业环境、医疗保健、机器人等领域。

开发自动驾驶汽车的竞赛不是短跑,而更像是一场永无止境的铁人三项赛,三个不同但关键的部分同时运行:人工智能训练、模拟和自动驾驶。每个都需要自己的加速计算平台,并且为这些步骤专门构建的全栈系统共同构成了一个强大的三合一体,可实现持续的开发周期,始终提高性能和安全性。

为此,英伟达提出,首先在 NVIDIA DGX 等 AI 超级计算机上训练模型。然后,在进入车辆之前,使用 NVIDIA Omniverse 平台并在 NVIDIA OVX 系统上运行,在仿真中对其进行测试和验证,最后,NVIDIA DRIVE AGX 平台通过模型实时处理传感器数据。

英伟达认为,现有的端到端方法通常尝试通过后处理来考虑闭环评估,这并不简化,与完全端到端相比,可能会导致其他信息丢失。同时,基于规则的规划者在处理不完美的感知输入时表现不佳。这些不完美的输入会降低基于规则的规划在闭环和开环评估指标下的性能,因为它们依赖于预测的感知结果而非真实标签(GT)。

Hydra-MDP基于一种新的教师-学生知识蒸馏(KD)架构。学生模型使用训练期间的环境观测,而教师模型使用真实标签(GT)数据。Hydra-MDP在边缘案例数据量不足的情况下,使用基于规则的专家模型作为教师,将规则知识蒸馏给神经网络规划器,实现了端到端的高精度路径规划。

零一汽车的论文是End-to-End Autonomous Driving Using Vision Language Model。零一汽车本次参赛采用的是纯视觉方案,接收来自一个前向摄像头、自我历史、导航信号和文本提示的输入,通过各种编码器和LLM模块,生成轨迹和文本。

零一汽车计划于2025年实现端到端大模型上车,2026年实现运营场景落地,并在2030年左右实现高阶自动驾驶大规模商业化落地。

02.

占据栅格和运动估计

占据栅格和运动估计共有97个团队参加比赛。浪潮信息位居榜首,澳门大学/嬴彻科技、上汽集团、华为 / 香港中文大学(深圳)、西安交通大学、小米等皆榜上有名。

浪潮信息AI团队所提交的“F-OCC”算法模型以48.9%的出色成绩斩获占据栅格和运动估计(Occupancy & Flow)赛道第一名。继22、23年在纯视觉和多模态等自动驾驶感知方向,多次登顶nuSences 3D目标检测榜单后,该AI团队面向Occupancy技术再一次实现突破,实现了对高度动态及不规则的驾驶场景更精准的3D感知及运动预测。

模型整体选择基于前向投影的感知架构,并采用高效且性能良好的FlashInternImage模型。同时,通过对整体流程进行超参调优、算子加速等优化,在占据栅格(Occupancy)和运动估计(Flow)均获得最高分的同时,提升了模型的运算效率,加快了模型迭代与推理速度。在实际应用场景中,这种改进使得模型能够更快速、高效地处理大规模3D体素数据,使得自动驾驶车辆能更好地理解环境,进而提升决策的准确度和实时性。

03.

世界模型

世界模型共有69个团队参加比赛。中国科学技术大学、华为/香港中文大学排名靠前。

自动驾驶应用需要集成感知、预测和规划,其中涉及语义、3D几何和时间信息的特征。然而,传统的预训练方法面临着巨大的挑战,因为它们依赖于昂贵的手动标注(如语义类标签、边界框和轨迹)或需要高精度的城市高清地图,限制了它们在大规模未标记数据集上的可扩展性。为了解决这些问题,研究人员提出了一种新的预训练任务:视觉点云预测,为了从历史视觉输入中预测未来的点云。这对于自动驾驶系统的规划和决策至关重要。视觉点云预测提供了两个主要优势:1、协同学习:该任务要求模型同时学习语义、3D结构和时间动态。2、自监督训练:视觉点云预测不需要昂贵的带注释的数据而是在未标记的LiDAR序列上使用自监督训练,使其更具可扩展性。

中国科学技术大学首先利用具有多个摄像头视图的高质量自动驾驶数据集进行自监督训练。接下来,论文改进竞争基线来预测未来的点云。具体而言,论文使用预训练的BEV编码器作为特征提取器,并增强BEV编码器中的时间对齐模块。然后,利用Latent Rendering算子来提取更有特色和代表性的特征,并改进Transformer Decoder内部的注意机制。最后输出预测的未来点云。其ViDAR++在OpenScene私有测试集上实现了CD@overall(倒角距离)0.6615。

华为/香港中文大学的论文总结了在cpr-2024自主系统基础模型研讨会上举行的世界预测模型挑战赛的第二名解决方案:引入D2-World,一个新的世界模型,通过解耦动态流有效地预测未来的点云。具体来说,过去的语义占用是通过现有的占用网络(例如,BEVDet)获得的。在此之后,占用结果作为单阶段世界模型的输入,以非自回归的方式生成未来的占用。为了进一步简化任务,在世界模型中执行动态体素解耦。该模型通过体素流对现有观测值进行扭曲,从而生成未来的动态体素,同时通过姿态变换可以很容易地获得剩余的静态体素。因此在Openscene预测世界模型基准上实现了最先进的性能,获得了第二名,并且训练速度比基线模型快300%以上。

总共0条评论

轨  迹 
NE资讯
NE资讯
NE智能车
NE数据
NE活动

快讯

欢迎关注我们!

版权所有  :上海恩翌信息科技有限公司

联  系   人 :NE时代 小恩

联系电话 :188-1775-0862

备案许可号 :沪ICP备17041240号-4