首页 > 科技周边 > 人工智能

Florence-VL来了！使用生成式视觉编码器，重新定义多模态大语言模型视觉信息

时间：2024-12-30 16:16:11 429浏览收藏

编程并不是一个机械性的工作，而是需要有思考，有创新的工作，语法是固定的，但解决问题的思路则是依靠人的思维，这就需要我们坚持学习和更新自己的知识。今天golang学习网就整理分享《Florence-VL来了！使用生成式视觉编码器，重新定义多模态大语言模型视觉信息》，文章讲解的知识点主要包括，如果你对科技周边方面的知识点感兴趣，就不要错过golang学习网，在这可以对大家的知识积累有所帮助，助力开发能力的提升。

Florence-VL：基于生成式视觉编码器的多模态大语言模型

马里兰大学与微软研究院合作推出了一种新型多模态大语言模型Florence-VL，该模型利用生成式视觉编码器Florence-2，显著提升了对图像中细节信息的理解能力。这项研究由马里兰大学博士生陈玖海领衔，Bin Xiao担任通讯作者，并由马里兰大学助理教授Tianyi Zhou以及微软研究院研究员Jianwei Yang, Haiping Wu, Jianfeng Gao共同完成。

资源链接:

论文：https://arxiv.org/pdf/2412.04424
开源代码：https://github.com/JiuhaiChen/Florence-VL
项目主页：https://jiuhaichen.github.io/florence-vl.github.io/
在线Demo：https://huggingface.co/spaces/jiuhai/Florence-VL-8B
模型下载：https://huggingface.co/jiuhai/florence-vl-8b-sft

Florence-VL的核心在于采用Florence-2作为视觉编码器。不同于传统的CLIP等模型仅提供单一全局图像表示，Florence-2通过生成式预训练，能够根据不同的任务提示生成多样化的视觉特征，从而更全面地理解图像细节，包括局部信息和像素级信息。 Florence-VL巧妙地利用多个任务提示（例如图像描述、OCR和物体定位），并融合不同深度层的特征，实现了更强大的视觉理解能力。