首页 > 科技周边 > 人工智能

小米开源MiMo-VL，性能超越Qwen2.5-VL-7B

时间：2025-08-12 20:36:44 370浏览收藏

**小米开源MiMo-VL，性能超越Qwen2.5-VL-7B！** 5月30日，小米正式开源其多模态大模型MiMo-VL，包括MiMo-VL-7B的RL前后两个版本及完整评测框架，代码已登陆GitHub。这款仅7B参数的模型在多项任务中表现卓越，尤其在多模态推理方面，超越了参数量高达其十倍的阿里Qwen-2.5-VL-72B，部分指标甚至超越GPT-4o。MiMo-VL-7B在奥林匹克竞赛数据集及数学视觉评测中表现亮眼，并在小米内部真实用户交互体验测试中同样胜过GPT-4o。更令人瞩目的是，MiMo-VL-7B擅长复杂图像理解与问答，还能执行长达十余步的GUI操作，预示着其在智能Agent时代的巨大潜力。小米团队通过构建2.4T tokens的高质量预训练多模态数据集，并采用混合在线强化学习算法，显著提升了模型的长程多模态推理能力和用户体验。

【PHP中文网快讯】5月30日，小米通过其官方公众号“Xiaomi MiMo”正式宣布，旗下多模态大模型 Xiaomi MiMo-VL 开源。此次开源包括 MiMo-VL-7B 的 RL 前后两个版本，以及支持超过 50 项评测任务的完整框架，代码已上传至 GitHub。

小米开源多模态大模型MiMo-VL 称多方面优于Qwen2.5-VL-7B

MiMo-VL 在多项任务中展现出卓越能力，尤其在多模态推理方面表现亮眼。尽管参数规模仅为 7B，MiMo-VL-7B 在奥林匹克竞赛数据集（OlympiadBench）及多个数学视觉评测（如 MathVision、MathVerse）中，显著优于参数量高达其 10 倍的阿里 Qwen-2.5-VL-72B 和 QVQ-72B-Preview 模型，甚至在部分指标上超越闭源模型 GPT-4o。在小米内部用于评估真实用户交互体验的大模型竞技场测试中，MiMo-VL-7B 同样力压 GPT-4o，成为当前开源领域中的领先者。

小米开源多模态大模型MiMo-VL 称多方面优于Qwen2.5-VL-7B

尤为引人注目的是，MiMo-VL-7B 不仅擅长复杂图像理解与问答任务，还能执行长达十余步的 GUI 操作流程，展现出在智能 Agent 时代的巨大应用前景。例如，该模型可协助用户完成将心仪商品（如小米 SU7）加入心愿单等操作。

据官方披露，小米团队构建了一套高质量的预训练多模态数据集，涵盖图像-文本对、视频-文本对以及 GUI 操作序列等多种类型，总计达 2.4T tokens。通过分阶段动态调整各类数据比例，有效增强了模型的长程多模态推理能力。同时，团队创新性地采用混合在线强化学习算法（Mixed On-policy Reinforcement Learning, MORL），融合文本推理、多模态感知与 RLHF 等多种反馈信号，全面提升了模型在推理、感知及用户体验方面的综合表现。

以上就是本文的全部内容了，是否有顺利帮助你解决问题？若是能给你带来学习上的帮助，请大家多多支持golang学习网！更多关于科技周边的相关知识，也可关注golang学习网公众号。

开源小米多模态大模型推理能力 MiMo-VL