谢赛宁开源Solaris,多人视频生成模型发布
时间:2026-03-21 08:24:44 448浏览 收藏
谢赛宁团队重磅开源Solaris——全球首个面向Minecraft环境的多人视频世界生成模型,首次突破单视角限制,实现两名玩家第一人称视角的实时、空间一致、因果精准的协同视频生成:一人放置方块,另一人眼中立刻呈现相同变化;一人跳跃转向,另一视角同步响应;连背包更新、昼夜切换、PvP对抗等复杂机制都高度保真。依托自研SolarisEngine采集的1260万帧高质量多人交互数据与创新的Checkpointed Self Forcing训练范式,Solaris不仅能稳定输出长达11.2秒的连贯视频,还支持全量Minecraft原生操作驱动,为具身智能训练、多智能体协作研究、VLA联合建模及三维认知评测提供了前所未有的可控、可扩展、高保真仿真基座——现在即可通过GitHub、HuggingFace和arXiv免费获取全部代码、模型与论文。
Solaris是什么
Solaris 是首个面向多人视频世界的生成式模型,专为 Minecraft 环境设计,可同步生成两名玩家一致的第一人称视角视频。该模型突破了当前主流世界模型仅支持单玩家视角的限制,实现了跨玩家视角的空间一致性——例如当一名玩家放置方块或移动位置时,另一名玩家所见画面将实时、准确地呈现对应变化。研发团队自主研发了 SolarisEngine 数据采集系统,累计构建涵盖 1260 万帧的高质量多人游戏交互数据集,并创新提出 Checkpointed Self Forcing 训练范式,有效缓解长序列建模中的显存压力与误差累积问题。

Solaris 的核心能力
- 双视角协同生成:支持同时输出两位玩家高度一致的第一人称视频流,确保空间结构、物体状态及动态事件在不同视角下严格对齐;任一玩家的动作(如挖掘、跳跃、转向)均能在另一视角中即时、合理地体现。
- 长程时序可控生成:依托 Checkpointed Self Forcing 技术,Solaris 可稳定生成长达 224 帧(即 11.2 秒)的连贯视频序列,显著抑制传统自回归方法中因逐步预测导致的画面漂移与结构崩塌。
- 细粒度动作驱动:全面兼容 Minecraft 全套原生操作指令,包括角色移动、视角旋转、方块交互(挖掘/放置)、物品使用等,生成内容严格遵循输入的动作轨迹与时序逻辑。
- 高保真动态建模:能够精准复现背包物品同步更新、昼夜与天气切换、物理性建造/破坏过程、PvP 实时对抗等复杂游戏机制,体现真实世界交互的因果性与反馈闭环。
Solaris 的技术实现
- 多视角 DiT 主干架构:基于 MatrixGame 2.0 单玩家扩散 Transformer 进行扩展,通过增大动作嵌入维度适配完整 Minecraft 操作空间;新增跨玩家自注意力模块以建模双视角间空间依赖关系,并引入玩家身份标识嵌入(Player ID Embedding)区分视角来源;其余组件(如交叉注意力层、前馈网络)沿用原始单玩家配置以保持稳定性。
- 四阶段渐进式训练流程:起始于单玩家预训练权重,在 VPT 数据集上完成 Minecraft 动作空间适配微调;随后迁移至多人数据,训练双向教师模型;进一步将其因果化改造为滑动窗口生成器;最终通过 Checkpointed Self Forcing 实现端到端长序列优化。
- Checkpointed Self Forcing 机制:针对滑动窗口自回归推理中 KV 缓存随长度线性增长的内存瓶颈,该方法先无梯度前向生成并缓存关键帧及其噪声中间态,再借助定制化注意力掩码实现单次并行重计算,在完全复现原有依赖路径的前提下,将内存复杂度由 O(Lt⋅Ls) 降至 O(Lt),同时支持 KV 缓存梯度回传,兼顾效率与生成质量。
- SolarisEngine 多人数据引擎:为解决现有采集框架不支持多视角同步的问题,团队设计了基于 Mineflayer 控制器与官方 Minecraft 客户端解耦的相机采集架构,结合服务器端插件实现毫秒级状态广播,并采用 Docker 容器集群进行分布式部署与故障自愈,最终构建出含精确动作标注的 1260 万帧多人协作数据集。
Solaris 的项目资源
- 官方网站:http://solaris-wm.github.io/
- GitHub 开源仓库:http://github.com/solaris-wm/solaris
- HuggingFace 模型中心:http://huggingface.co/collections/nyu-visionx/solaris-models
- arXiv 技术论文:http://arxiv.org/pdf/2602.22208
Solaris 的典型应用方向
- 具身智能的仿真训练平台:作为可扩展、高可控的多智能体世界模拟器,为机器人导航、游戏 AI 决策等任务提供低成本、高安全性的合成训练环境,支撑策略学习、推理时规划及鲁棒性评估。
- 多智能体协同行为研究:支持构建共建、共战、分工协作等多样化多人任务场景,用于探索 AI 代理间的隐式通信、角色分配、共识形成等社会性智能涌现机制。
- 视觉-语言-动作联合建模基础设施:可批量产出大规模、多视角、强对齐的视频-动作-文本三元组数据,填补真实人类多人交互数据稀缺的空白,服务于 VLA(Vision-Language-Action)模型的预训练与领域适配。
- 三维空间理解能力评测基准:作为可编程、可干预的可控测试沙盒,可用于定量评估模型在视角一致性维持、物体持久性建模、空间记忆与推理等关键三维认知能力上的表现水平。
本篇关于《谢赛宁开源Solaris,多人视频生成模型发布》的介绍就到此结束啦,但是学无止境,想要了解学习更多关于科技周边的相关知识,请关注golang学习网公众号!
相关阅读
更多>
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
最新阅读
更多>
-
156 收藏
-
392 收藏
-
236 收藏
-
384 收藏
-
370 收藏
-
343 收藏
-
245 收藏
-
193 收藏
-
360 收藏
-
407 收藏
-
170 收藏
-
288 收藏
课程推荐
更多>
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 立即学习 543次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 立即学习 516次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 立即学习 500次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 立即学习 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 立即学习 485次学习