首页 > 科技周边 > 人工智能

腾讯京东高校联手打造MotionAnything多模态运动框架

时间：2025-03-31 12:18:48 123浏览收藏

腾讯、京东等机构与高校合作研发出多模态运动生成框架Motion Anything，该框架可根据文本、音乐或两者结合生成高质量、可控的人类运动。Motion Anything突破了现有方法在动态内容生成方面的局限，通过基于注意力的掩码建模、时间自适应变换器和空间对齐变换器等技术，实现多模态信息有效整合，并优先生成与输入条件最相关的动态部分，确保运动与文本或音乐在时间和空间维度上的一致性。其应用前景广泛，涵盖影视动画、虚拟现实、游戏开发、人机交互等领域，并提供新的Text-Music-Dance (TMD)数据集作为研究基准。

Motion Anything：多模态运动生成框架

Motion Anything是由澳大利亚国立大学、悉尼大学、腾讯、麦吉尔大学和京东等机构联合推出的一个先进的多模态运动生成框架。它能够根据文本描述、音乐，或两者结合，生成高质量、可控的人类运动。该框架解决了现有方法在根据条件优先生成动态内容方面的不足。

Motion Anything— 腾讯联合京东等高校推出的多模态运动生成框架

核心功能：

多模态驱动： 支持文本、音乐或文本音乐组合作为输入，生成相应的运动。
精准控制： 基于注意力机制，实现对关键帧和动作的细粒度控制，确保生成结果的准确性。
动态优先： 优先生成与输入条件（文本或音乐）最相关的动态部分。
跨模态对齐： 在时间和空间维度上对齐文本、音乐和运动，保证生成运动的连贯性和一致性。

技术原理：

Motion Anything的核心技术包括：基于注意力的掩码建模、时间自适应变换器和空间对齐变换器。通过这些技术，框架能够有效整合多模态信息，并实现动态内容的优先生成和跨模态对齐。此外，它还采用了多模态条件编码，将不同模态的信息融合到运动生成过程中。

基于注意力的掩码建模： 选择与输入条件最相关的运动部分进行掩码，优先恢复关键帧和动作。
时间自适应变换器： 根据输入条件动态调整注意力计算，确保运动与文本关键词或音乐节拍对齐。
空间对齐变换器： 重新排列条件和运动嵌入，保证运动与条件在空间上的一致性。
多模态条件编码： 融合文本和音乐等多种模态信息，提升生成效果。

数据支持：

Motion Anything使用了新的 Text-Music-Dance (TMD) 数据集，包含 2153 个文本、音乐和舞蹈配对样本，为多模态运动生成研究提供了新的基准。

应用场景：

Motion Anything在多个领域具有广泛的应用前景，例如：

影视动画制作: 提高效率和视觉效果。
虚拟现实/增强现实: 创建更逼真的虚拟角色。
游戏开发: 生成更自然流畅的角色动作。
人机交互: 实现更自然的机器人动作控制。
教育和培训: 提供标准动作示范。

项目信息：

项目官网: http://steve-zeyu-zhang.github.io/MotionAnything/
GitHub仓库: http://github.com/steve-zeyu-zhang/MotionAnything
arXiv论文: http://arxiv.org/pdf/2503.06955

到这里，我们也就讲完了《腾讯京东高校联手打造MotionAnything多模态运动框架》的内容了。个人认为，基础知识的学习和巩固，是为了更好的将其运用到项目中，欢迎关注golang学习网公众号，带你了解更多关于的知识点！