登录
首页 >  科技周边 >  人工智能

OmniDrive: 一个关于大模型与3D驾驶任务对齐的框架

来源:51CTO.COM

时间:2024-05-06 15:36:15 472浏览 收藏

“纵有疾风来,人生不言弃”,这句话送给正在学习科技周边的朋友们,也希望在阅读本文《OmniDrive: 一个关于大模型与3D驾驶任务对齐的框架》后,能够真的帮助到大家。我也会在后续的文章中,陆续更新科技周边相关的技术文章,有好的建议欢迎大家在评论留言,非常感谢!

从一个新颖的3D MLLM架构开始,该架构使用稀疏查询将视觉表示提升和压缩到3D,然后将其输入LLM。

题目:OmniDrive: A Holistic LLM-Agent Framework for Autonomous Driving with 3D Perception Reasoning and Planning

作者单位:北京理工大学,NVIDIA,华中科技大学

开源地址:GitHub - NVlabs/OmniDrive

多模态大语言模型(MLLMs)的发展导致了对基于LLM的自动驾驶的兴趣不断增长,利用它们强大的推理能力。利用MLLMs强大的推理能力来改进规划行为是具有挑战性的,因为它们需要超越2D推理的完整3D情境意识。为了解决这一挑战,本工作提出了OmniDrive,这是一个关于智能体模型与3D驱动任务之间强大对齐的全面框架。框架从一个新颖的3D+MLLM架构开始,该架构使用稀疏查询将观察表达提升和压缩到3D,然后将其输入LLM。这种基于查询的表达允许我们联合编码动态对象和静态地图元素(例如,交通道路),为3D中的感知-行动对齐提供了一个简洁的世界模型。进一步提出了一个新的基准,其中包括全面的视觉问答(VQA)任务,包括场景描述、交通规则、3D基础、反事实推理、决策制定和规划。广泛的研究表明,OmniDrive在复杂的3D场景中具有出色的推理和规划能力。

网络结构

OmniDrive: 一个关于大模型与3D驾驶任务对齐的框架

OmniDrive: 一个关于大模型与3D驾驶任务对齐的框架

实验结果

OmniDrive: 一个关于大模型与3D驾驶任务对齐的框架

OmniDrive: 一个关于大模型与3D驾驶任务对齐的框架

OmniDrive: 一个关于大模型与3D驾驶任务对齐的框架

OmniDrive: 一个关于大模型与3D驾驶任务对齐的框架

OmniDrive: 一个关于大模型与3D驾驶任务对齐的框架

终于介绍完啦!小伙伴们,这篇关于《OmniDrive: 一个关于大模型与3D驾驶任务对齐的框架》的介绍应该让你收获多多了吧!欢迎大家收藏或分享给更多需要学习的朋友吧~golang学习网公众号也会发布科技周边相关知识,快来关注吧!

声明:本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
相关阅读
更多>
最新阅读
更多>
课程推荐
更多>