首页 > 科技周边 > 人工智能

击败Gemini-1.5-Pro、GPT-4V，从容大模型多模态能力跻身全球前三

来源：机器之心

时间：2024-06-28 22:48:54 334浏览收藏

最近发现不少小伙伴都对科技周边很感兴趣，所以今天继续给大家介绍科技周边相关的知识，本文《击败Gemini-1.5-Pro、GPT-4V，从容大模型多模态能力跻身全球前三》主要内容涉及到等等知识点，希望能帮到你！当然如果阅读本文时存在不同想法，可以在评论中表达，但是请勿使用过激的措辞~

近日，云从科技从容大模型在综合评测权威平台 OpenCompass 的多模态评测领域中取得重大进展。最新评测结果显示，云从科技的从容大模型在该体系中的平均得分为 65.5，这一成绩使得从容大模型跻身全球前三，超越了谷歌的 Gemini-1.5-Pro 和 GPT-4v，仅次于 GPT-4o（69.9）和 Claude3.5-Sonnet（67.9）。而在国内市场，从容大模型的成绩也超过了 InternVL-Chat（61.7）和 GLM-4V（60.8），排名首位。

1. OpenCompass 多模态榜单

OpenCompass 大模型开放评测体系是上海人工智能实验室推出的完整开源可复现的评测框架。
OpenCompass 多模态评测方面采用了 8 个具有代表性的数据集，从多种视角客观量化多模态大模型的能力，评估维度覆盖：
- 目标检测
- 文字识别
- 动作识别
- 图像理解和关系推理
- 艺术与设计
- 商业
- 科学
- 健康与医学
- 人文与社会科学
- 技术与工程
- 数学推理
  图 2：从容大模型 - 2.0 多模态能力示例

在本次测评中，从容大模型在其中的 6 个数据集表现优异，排名国内第一（MMbench、MMStar、MathVista、HallusionBench、AI2D、OCRBench），尤其是在 OCRBench 测试集上以 827 分（总分为 1000 分）取得全球最高分，且高于第二名 GLM-4v 13 分，进一步提升从容大模型在文本识别、以文本为中心的视觉问答、面向文档的视觉问答、关键信息提取等业务场景下的适用性。

击败Gemini-1.5-Pro、GPT-4V，从容大模型多模态能力跻身全球前三