实验室荣获CVPR自动驾驶国际挑战赛Driving with Language赛道创新奖

       近日,实验室与重庆邮电大学联合团队在CVPR自动驾驶国际挑战赛“Driving with Language”赛道上获得奖金最高的创新奖。此次获奖方案提出的BeVLM算法,是行业首个将智能驾驶BEV(鸟瞰图视角)感知和大语言模型(LLM)进行端到端融合,并通过思维图(GoT)进行上下文理解增强,在公开数据集上取得优异成绩的算法工作。本次获奖充分展示了实验室在AI大模型和智能驾驶领域的优秀研发实力,更体现了依托单位长安汽车近年来持续在智能化“北斗天枢”计划上大力投入。
       近两年,以ChatGPT为代表的LLM技术迅猛发展,在跨领域知识理解和复杂任务推理方面涌现出非凡的能力,解决了自然语言理解领域的模型泛化问题,推进人工智能应用进入爆发期。当前,自动驾驶系统面临的一个重要挑战是缺乏对通用世界知识的理解和推理能力,难以应对各种复杂和罕见的驾驶情境。如何将LLM的能力与自动驾驶系统相结合,已成为业界关注的焦点。
       CVPR自动驾驶国际挑战赛是国际公认的自动驾驶顶级赛事,涵盖了多个前沿科技领域赛道,获得了国际范围内科研和产业界的广泛关注。今年,挑战赛特别设立了“Driving with Language”赛道,要求参赛团队使用LLM进行场景理解,并在感知、预测、决策链路上进行多步推理,最终实现最优驾驶行为。本届挑战赛的“Driving with Language”赛道吸引了来自14个国家和地区的152支队伍参赛,其中包括剑桥大学、慕尼黑工业大学、浙江大学等知名高校团队,以及英伟达、AMD、腾讯、长安等领先企业队伍,是本届赛事中参赛队伍最多的赛道。
       经过为期两个月的激烈竞赛,全球152支队伍累计提交了978次结果。最终经组委会评审,实验室与重庆邮电大学联合团队提出的BeVLM方案在众多参赛方案中脱颖而出,荣获赛道最高奖(奖金最多)——创新奖。BeVLM方案创新地将BEV感知和LLM进行多模态端到端融合训练,使BEV特征与LLM的语言特征对齐,从而赋予LLM理解车身周围环境元素空间关系的能力。该方案采用思维图技术,建立感知、预测、决策的逻辑链条,使大语言模型能够模拟人类驾驶的推理过程,完成自动驾驶任务。在所有提交结果的最终评分榜单中,BeVLM取得了排名第二的成绩 0.7759,与第一名的0.7799同列0.775~0.780区间,是唯二的总分高于0.775的方案。
       实验室积极响应国家AI+战略指引,积极拥抱AI大模型在智能驾驶领域的技术范式变革。由实验室官陶吉博士筹备组建的智驾AI大模型技术研发团队,目前已启动基于端到端大模型和多模态大模型的新一代智能驾驶技术方案的攻坚工作,旨在实现由大数据和大模型驱动的AI原生智能驾驶核心技术的突破,为用户提供更安全、更舒适、更智能的驾驶体验。
       本次获奖,充分展示了实验室在智能驾驶大模型领域的快速行动和领先地位,也标志着实验室做好了进入AI大模型和智能驾驶3.0技术竞争时代的准备。