首页 > 科技周边 > 人工智能

最强全模态模型Ola-7B横扫图像、视频、音频主流榜单，腾讯混元Research&清华&NTU联手打造

时间：2025-02-18 21:34:41 395浏览收藏

在科技周边实战开发的过程中，我们经常会遇到一些这样那样的问题，然后要卡好半天，等问题解决了才发现原来一些细节知识点还是没有掌握好。今天golang学习网就整理分享《最强全模态模型Ola-7B横扫图像、视频、音频主流榜单，腾讯混元Research&清华&NTU联手打造》，聊聊，希望可以帮助到正在努力赚钱的你。

Ola：一款性能卓越的全模态语言模型，超越现有同类模型！

AIxiv专栏持续报道全球顶尖AI研究成果，如果您有优秀工作，欢迎投稿或联系报道 (liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com)。

Ola模型，由腾讯混元Research、清华大学智能视觉实验室和南洋理工大学S-Lab联合研发，在图像、视频和音频理解方面展现出强大的竞争力。论文共同一作：清华大学刘祖炎博士、南洋理工大学董宇昊博士；通讯作者：腾讯饶永铭高级研究员、清华大学鲁继文教授。

GPT-4o的出现激发了全模态模型的研究热潮。虽然已有开源替代方案，但性能仍逊色于专用单模态模型。Ola模型的核心创新在于其渐进式模态对齐策略，它逐步扩展模型支持的模态，先从图像和文本入手，再逐步加入语音和视频数据，有效降低了训练成本并提升了模型性能。

Ola模型在多个基准测试中显著超越了Qwen2.5-VL、InternVL2.5等主流模型。作为一款仅含70亿参数的全模态模型，它在图像、视频和音频理解方面均取得了突破性进展：

图像理解: 在OpenCompass基准测试中，其在8个数据集上的平均准确率达到72.6%，在所有参数量小于300亿的模型中排名第一，超越GPT-4o、InternVL2.5等。
视频理解: 在VideoMME测试中，Ola在输入视频和音频的情况下，准确率达到68.4%，超越LLaVA-Video、VideoLLaMA3等。
音频理解: 在语音识别和对话评估等任务中，Ola的表现也接近最先进的音频理解模型。

Ola模型、代码和训练数据均已开源，旨在推动全模态理解领域的研究发展。