温哥华当地时间6月21日,2023年国际计算机视觉与模式识别会议(cvpr)公布了最佳论文等奖项。上海人工智能实验室、武汉大学和商汤科技联合发表的自动驾驶通用模型相关论文从9155篇论文中脱颖而出,获得本届cvpr最佳论文奖。这是近十年来,计算机视觉三大顶级国际会议(cvpr、iccv、eccv)上第一篇以中国学术机构作为第一单位的最佳论文。
cvpr在学术界和产业界都有重要影响力。根据谷歌学术指标2022年列出的全球最有影响力的六大科学期刊/会议中,cvpr位列第四,仅次于《自然》《新英格兰医学杂志》《科学》。
(相关资料图)
入围本届cvpr最佳论文候选名单的作品来自谷歌、上海人工智能实验室、斯坦福大学、康奈尔大学等知名企业和科研机构。最终,上海人工智能实验室联合团队的研究成果《以路径规划为导向的自动驾驶》摘取cvpr 2023最佳论文奖。这篇论文首次提出感知决策一体化的自动驾驶通用大模型uniad,开创了以全局任务为目标的自动驾驶大模型架构先河, 为自动驾驶技术与产业发展指出了新方向。
uniad:业界首个感知决策一体化的自动驾驶大模型
上海人工智能实验室青年科学家李弘扬介绍,作为一种高度复杂的技术,自动驾驶不仅需要多个学科领域的知识和技能,包括传感器硬件、机器学习、多模态融合等,还需要适应不同国家和地区的道路规则和交通文化,与车辆及行人进行良好的交互。自动驾驶系统包含三大主任务——感知、预测和规划。当前,业界主流的方案架构是分别采用不同的模块来处理这些任务,但由于各模块并非以驾驶为最终目标进行优化,自动驾驶系统的整体性能提升受到了很大限制。
在uniad中,研究人员首次将感知、预测和规划等三大类主任务、六小类子任务(目标检测、目标跟踪、场景建图、轨迹预测、栅格预测和路径规划)整合到统一的基于transformer的端到端网络框架下,实现了全栈关键任务驾驶通用模型。在nuscenes真实场景数据集中,uniad的所有任务均达到“领域最佳性能”(state-of-the-art),尤其是预测和规划效果远超之前的最佳方案。其中,多目标跟踪准确率提升20%,车道线预测准确率提升30%,预测运动位移和规划的误差分别降低38%和28%。
在晴天直行场景中,uniad可以感知左前方等待的黑色车辆,预测其未来轨迹(即将左转驶入自车的车道),并立即减速以避让,待黑车驶离后再恢复正常速度直行。
在雨天转弯场景中,即便面对视野干扰较大且场景复杂的十字路口,它也能通过分割模块生成十字路口的整体道路结构,并完成大幅度的左转。
在夜晚视野变暗的情况下,它能感知到前车并完成先静止、后左转的规划。
本届cvpr上,上海人工智能实验室有12篇论文入围“highlight(亮点)”名单,覆盖视觉基础模型、通才模型、三维视觉、底层视觉、视频检索、物体检测、姿态估计、自动驾驶等相关领域的研究。其中,uniad相关工作获最佳论文奖、三维物体数据集研究工作入围最佳论文候选。
栏目主编:黄海华
本文作者:俞陶然