首页 > 科技周边 > 人工智能

MOVA模型开源，创智学院联合模思智能发布

时间：2026-02-28 15:49:04 466浏览收藏

MOVA是什么

MOVA（MOSS Video and Audio）是由上海创智学院OpenMOSS团队携手模思智能（MOSI）共同研发的中国首个高性能开源音视频端到端生成模型。该模型打破传统视频“无声生成”的固有范式，创新采用异构双塔结构与双向桥接模块，原生支持视觉与听觉模态间的深度协同。模型参数量达320亿（基于MoE架构，推理时激活约180亿），可一次性生成最长8秒、分辨率达720p的同步音视频内容，在唇形-语音精准对齐、场景化环境音匹配等方面达到电影级水准。

MOVA— 创智学院联合模思智能开源的端到端音视频模型

MOVA的核心能力

一体化音视频合成：无需后期配音或音轨合成，直接输出声画同步的完整视听片段，终结“静音视频”时代。
多模态驱动方式：兼容图像+文本联合输入与纯文本指令两种模式，适配多样化创作需求。
高精度口型同步：针对中英文多角色对话场景，实现语音波形与面部微动的毫秒级匹配。
场景自适应音效生成：依据画面语义自动构建背景音乐、动作反馈声及空间环境音，增强沉浸感。
动态文字嵌入：支持在指定画面区域生成清晰、流畅、风格可控的运动文字内容。
高清长时序输出：稳定输出720p分辨率、最长8秒的高质量音视频序列。

MOVA的技术实现

异构双塔建模：分别部署14B参数的视频扩散主干与1.3B参数的音频扩散分支，借助双向桥接模块完成跨模态隐藏状态的细粒度交叉注意力融合，使视频生成过程实时感知音频节奏特征。
跨模态时间统一对齐：针对视频帧率（如24fps）与音频采样率（如44.1kHz）的巨大差异，引入Aligned ROPE机制，通过动态缩放映射将两类Token严格锚定至统一物理时间轴，从根源上规避音画错位。
阶梯式训练流程：采用三阶段渐进策略——首阶段以360p低清数据训练桥接模块快速建立音视频粗对齐能力；第二阶段提升稳定性与泛化性；最终在720p高清数据上进行细节优化与画质精修。
双通道CFG调控：为应对文本提示与模态间桥接信号两类控制源并存的特点，设计独立可调的双重分类器自由引导（CFG）权重，在通用生成中保障画面质量，在人物对话类任务中优先强化唇形一致性。

MOVA的官方资源

项目官网：http://mosi.cn/models/mova
GitHub仓库：http://github.com/OpenMOSS/MOVA
HuggingFace模型库：http://huggingface.co/collections/OpenMOSS-Team/mova

MOVA的典型应用

影视工业：高效产出分镜动画与配音预演版本，显著压缩前期制作周期，加快创意可行性验证。
短视频生态：为内容创作者提供即用型、带专业音效的剧情化视频素材，提升生产效率与表现力。
游戏开发：自动化生成过场CG与角色语音交互片段，实现真正意义上的音画一体沉浸体验，缩短开发链路。
教育科技：批量制作多语种、口型精准的教学示范视频，助力教育资源全球化部署与本地化适配。
电商运营：快速生成含产品解说、背景音乐与场景音效的商品推广视频，加速营销内容更新节奏，提升用户转化率。

好了，本文到此结束，带大家了解了《MOVA模型开源，创智学院联合模思智能发布》，希望本文对你有所帮助！关注golang学习网公众号，给大家分享更多科技周边知识！