在2025年的CES电子消费展上,吉利汽车展示了其在AI智能汽车领域的最新技术成果,以及吉利的AI技术是如何增强车辆的环境感知能力、理解用户需求并自主执行任务。影视飓风Tim现场对话吉利汽车集团副总裁吉利汽车研究院院长李传海及吉利汽车研究院首席人工智能科学家陈勇,深度解答吉利在智能汽车AI领域的技术布局。
影视飓风Tim(左)-吉利汽车集团副总裁李传海(右)
AI技术,特别是以深度学习为核心的技术,通过模拟人类大脑的学习和思考过程,使机器能够处理复杂的数据和信息,从而做出更加智能的决策。阿尔法狗(AlphaGo)和ChatGPT等AI应用的成功,是AI技术突破与发展的有力证明。当前AI正从数字世界走向物理世界,也标志着具身智能时代的到来。
对此,吉利汽车认为具身智能应具备感知多模态信息、长短期记忆、推理决策、情感理解和表达等能力,能够通过与环境交互不断提升对世界模型的认知,并完成从感知到执行的闭环。未来发展方向也应注重融合人机交互、情感智能和自主学习升级,使智能体更接近人类智能。
01.
智能汽车如何发展成出行智慧生命体
目前的智能汽车已经具备了类似人的智能雏形,不仅能够执行传统驾驶任务,还能理解和响应模糊指令,具备一定的娱乐互动功能。随着AI技术的进步,智能汽车的发展正逐渐从简单的交通工具转变为具备自我学习、规划任务能力的出行智慧生命体。
图片来源:网络
在运用AI这方面智能汽车具有先天的优势,智能汽车具有大量传感器(摄像头、毫米波雷达、激光雷达)、智能运动控制、底盘控制及智能驾驶能力等,同时电池作为能源供给的关键要素也有强大性能保障,未来固态电池也将进一步提升能量密度。此外,大模型的到来也将补齐智能汽车大脑短板,通过大量学习和训练,实现对复杂环境的感知和认知,以及记忆和情感涌现。
然而,这一过程中也面临诸多挑战,需要不断解决技术问题,坚持正确的创新方向。
吉利认为未来智能汽车将经历三个发展阶段。
◎第一阶段是从智能助手阶段,汽车能辅助完成任务并精准响应;例如银河E5搭载的上帝之眼540°透明底盘,AI心跳拟合技术;星舰7搭载的“星睿AI云动力”,可以通过A1实现全局寻优的智能决策,实现高速用油、低速用电。
◎第二阶段为智能体阶段,汽车具备听觉、视觉、触觉等多模感知能力,能够理解环境进行复杂决策推理并自主执行任务,例如在停车场自动挪车或找车位。
◎第三阶段是生命体阶段,汽车能够洞察需求、自主规划任务、推理和执行,拥有自我意识甚至情感能力,成为一个能够持续成长的生命体。
02.
吉利在人工智能领域做了哪些部署和规划
其实早在2021年吉利就开始研究基础大模型,并建立了专业的团队。2022年构建了行业首个云数智一体的超级智算中心,并投入使用,完成了行业首个智能计算中心管理流程体系认证。
吉利还前瞻性地测试并使用国产GPU,保持着在芯片国产化部署上的领先地位。这些布局为大模型训练奠定了坚实基础,并已应用于产品中,带来了显著的智能化体验迭代速度提升。
在算法模型上面吉利也取得了一些成果,2022年,吉利发布了首个汽车行业的大模型。到了2023年,推出了全场景的星睿AI大模型,并且该模型获得了中国信通院4+级的能力认证。
2024年,吉利还发布了行业首个基于离散token的情感语音合成大模型,该模型在文字转语音的声学建模准确性、自然度、仿生相似度以及风格音调一致性等方面表现优秀,相比之前的SOTA模型有10%的提升,将很快应用于未来的汽车产品中。
此外,吉利还在研发多模态的大模型、全因意图理解的大模型、端到端的大模型以及端侧的大模型,并在探索混合云加速推理框架等技术。
数据是驱动AI模型产品迭代的核心燃料,决定了模型认知的能力上限。吉利已经构建了10T的token数据、40B的汽车领域垂类数据,并建成了合成数据平台,为大模型训练准备了核心燃料。此外,吉利积极参与并推进汽车行业大模型的标准规范制定,牵头编写了相关标准,还制定了智能体的技术要求和评估方法。
关于AI技术的融合与应用,吉利规划了覆盖C端消费者、B端企业服务以及空天地一体的智能生态,形成了“全域AI技术”体系。人工智能时代,吉利就是要基于AI原生OS,构建“全域AI”的技术体系,打造原生的出行智慧生命体。
03.
多模态的数据模型如何无限泛化和保持多样性
目前的传统语音模型在传递情感时存在信息丢失的问题。而吉利研发的全链路融合端到端语音大模型通过多模态信息融合和有监督分层情感token解码相结合的方式,实现了对不同“好的”表达不同情感的认知能力,使交互更加拟人化,能够理解和表达情绪。
多模态端到端的语音大模型在革新人机交互的同时,也意味着AI开始逐渐拥有类似人类的情感感知能力。现在的AI正在通过高质量的数据迭代进化,其中大模型的涌现与数据集的构建密切相关。例如端到端的智能驾驶和语音大模型的研发,都需要大量的高质量数据来驱动进步。
在解决实际道路数据采集的问题上,吉利认为主要的挑战在于数据的数量、分布以及难以获取某些罕见或危险场景的数据,比如在特定天气条件下高速公路上车辆加塞的场景。吉利也正在研究使用合成数据来解决这一问题。
早在2021年,吉利就开始研发基于多模态的世界模型,通过引入几何先验知识与3D高斯泼溅等技术,通过videodecoder模型推理道路的语义信息(如道路结构,交通流等),可以生成各种各样的场景,如雨雪天气、拥堵路况、立体车库等等,实现交通场景的无限泛化生成。
图片来源:DrivingGaussian: Composite Gaussian Splatting for Surrounding Dynamic Autonomous Driving Scenes
但是合成数据与真实数据之间可能会存在风格差异,因此提出了基于AIGC技术的sim2real迁移模型,以保证生成内容的多样性和风格一致性,使其更接近真实世界,满足算法训练的要求。合成数据是完全可用于智能驾驶、智能座舱及具身智能等领域,可以有效解决数据采集周期长、成本高、安全性差等问题,并且通过端云协同的合成数据闭环架构实现周级别的训练迭代,让产品保持常用常新。
除了在智能驾驶领域外,在动力域也有全新一代雷神EM-i超级电混,采用AI算法实现动态精准的能量管理;此外,吉利还发布了全球首个无人漂移技术,通过AI控制实现平稳车身姿态;生态方面,无界空间可接入海量生态应用,如通过AI为用户提供出行建议等。