首页 > 科技周边 > 人工智能

IDEA研究院发布DINO-X目标检测视觉大模型

时间：2025-01-16 15:27:58 389浏览收藏

欢迎各位小伙伴来到golang学习网，相聚于此都是缘哈哈哈！今天我给大家带来《IDEA研究院发布DINO-X目标检测视觉大模型》，这篇文章主要讲到等等知识，如果你对科技周边相关的知识非常感兴趣或者正在自学，都可以关注我，我会持续更新相关文章！当然，有什么建议也欢迎在评论留言提出！一起学习！

IDEA研究院发布DINO-X：一款突破性通用视觉大模型，实现开放世界目标检测

传统的小型计算机视觉模型难以应对碎片化、多变的长尾需求，限制了其应用规模。而基于Transformer架构的DINO系列视觉大模型，则另辟蹊径，致力于打造兼具精准度、通用性和泛化能力的解决方案。 IDEA研究院于11月22日在深圳举办的IDEA大会上，正式发布了该系列的最新成果——DINO-X通用视觉大模型。

DINO-X实现了真正的物体级别理解，具备开放世界（Open-world）目标检测能力。无需任何用户提示，即可直接检测图像中的所有物体。

IDEA研究院发布DINO-X目标检测视觉大模型

DINO-X的核心优势：

万物识别： 无需人工指引，即可识别各种物体，包括罕见的、出现频率低的物体。在LVIS-minival数据集上，DINO-X Pro取得了59.7%的AP，大幅领先其他算法。其在稀有类别上的AP更是高达63.3%。
卓越泛化能力： 基于超过1亿高质量样本的大规模数据集训练，DINO-X对未知场景和新物体具有极强的适应性，即使面对未曾见过的物体或环境，也能保持高水平的检测性能。
多任务处理： DINO-X整合了多个感知头，支持图像分割、姿态估计、区域描述和基于区域的问答等多种任务。
长尾目标检测优化： 支持文本提示、视觉提示以及视觉提示优化的自定义提示，更好地处理长尾目标检测任务。
开放世界应用： DINO-X的万物识别能力使其能够轻松应对真实世界中的不确定性和开放环境，为具身智能、大规模多模态数据自动标注、视障人士服务等场景提供有力支持。