首页 > 科技周边 > 人工智能

北大彭宇新教授团队开源细粒度多模态大模型Finedefics

时间：2025-02-17 20:34:10 122浏览收藏

珍惜时间，勤奋学习！今天给大家带来《北大彭宇新教授团队开源细粒度多模态大模型Finedefics》，正文内容主要涉及到等等，如果你正在学习科技周边，或者是对科技周边有疑问，欢迎大家关注我！后面我会持续更新相关内容的，希望都能帮到正在学习的大家！

北京大学彭宇新教授团队在细粒度多模态大模型领域取得突破性进展，其研究成果已被ICLR 2025接收并开源。该团队研发的Finedefics模型显著提升了多模态大模型的细粒度视觉识别能力，在六个权威数据集上的平均准确率达到76.84%，超越了现有模型。

挑战与突破：细粒度视觉识别的瓶颈

现有多模态大模型在通用视觉任务中表现出色，但在细粒度视觉识别方面存在不足。细粒度识别要求区分同一大类下的细微差别，例如区分不同鸟类、汽车品牌和型号等。这主要是因为缺乏足够的细粒度标注数据，导致模型难以学习到细微的视觉特征。

Finedefics模型正是为了解决这一难题而生。该团队深入分析了多模态大模型在细粒度识别中所需的三个关键能力：对象信息提取、类别知识储备和对象-类别对齐。研究发现，对象与类别的错位匹配是制约模型性能的关键。

Finedefics：巧妙的对齐策略

Finedefics模型通过两阶段训练策略巧妙地解决了对象-类别对齐问题：

属性描述构建: 利用大语言模型挖掘细粒度属性，例如描述鸟类的羽毛颜色、形状等，并将其与图像特征结合，生成更精细的图像描述。
属性增强对齐: 通过对比学习，将图像特征、属性描述和类别信息进行对齐，强化模型学习细微视觉特征与类别标签之间的对应关系。这包括对象-属性、属性-类别和类别-类别三个层次的对比学习。此外，模型还进行了以识别为中心的指令微调，进一步提升了模型的识别准确性。

显著成果与未来展望

Finedefics在六个权威数据集上取得了显著成果，平均准确率达到76.84%，相比于Idefics2模型提升了10.89%。这表明Finedefics有效地提升了多模态大模型的细粒度视觉识别能力。

资源链接:

论文标题: Analyzing and Boosting the Power of Fine-Grained Visual Recognition for Multi-modal Large Language Models
论文链接: https://openreview.net/forum?id=p3NKpom1VL
开源代码: https://github.com/PKU-ICST-MIPL/Finedefics_ICLR2025
模型地址: https://huggingface.co/StevenHH2000/Finedefics
实验室网址: https://www.wict.pku.edu.cn/mipl

Finedefics的成功为多模态大模型在细粒度视觉识别领域的应用提供了新的方向，也为后续研究提供了宝贵的经验。该团队的研究成果为推动细粒度视觉识别技术的发展做出了重要贡献。

以上就是《北大彭宇新教授团队开源细粒度多模态大模型Finedefics》的详细内容，更多关于产业的资料请关注golang学习网公众号！

产业