首页 > 科技周边 > 人工智能

Sora之后，苹果发布视频生成大模型STIV，87亿参数一统T2V、TI2V任务

时间：2024-12-20 08:25:05 304浏览收藏

大家好，今天本人给大家带来文章《Sora之后，苹果发布视频生成大模型STIV，87亿参数一统T2V、TI2V任务》，文中内容主要涉及到，如果你对科技周边方面的知识点感兴趣，那就请各位朋友继续看下去吧~希望能真正帮到你们，谢谢！

Apple MM1Team 团队最新力作：87亿参数的苹果视频生成大模型STIV，支持多模态条件，性能超越PIKA、KLING和GEN-3。

AIxiv专栏持续报道全球顶尖AI研究成果，已收录2000多篇内容，涵盖高校及企业顶级实验室。欢迎投稿或联系报道！（投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com）

紧随OpenAI发布Sora之后，苹果发布了其多模态视频生成大模型STIV，论文已发表于arXiv（论文地址：https://arxiv.org/abs/2412.07730），Hugging Face链接：https://huggingface.co/papers/2412.07730）。该模型拥有87亿参数，支持文本和图像条件下的视频生成。

STIV 旨在克服现有文本到视频（T2V）模型在生成连贯、真实视频方面的挑战，并高效地将图像条件融入Diffusion Transformer (DiT) 架构。该研究提供了全面的技术报告，涵盖模型架构、训练策略、数据集以及下游应用，实现了T2V和文本-图像到视频（TI2V）任务的统一处理。

主要贡献和亮点：

提出STIV模型，统一处理T2V和TI2V任务，并通过JIT-CFG显著提升生成质量；
系统性研究了T2I、T2V和TI2V模型的架构设计、高效稳定的训练技术以及渐进式训练策略；
模型易于训练且具有强大的适应性，可扩展至视频预测、帧插值和长视频生成等任务；
实验结果在VBench基准数据集上展现了STIV的优势，包括详细的消融实验和对比分析。

STIV不仅提升了视频生成质量，也为其在更多应用场景中的推广奠定了基础。

STIV模型架构及训练策略详解

STIV基于PixArt-Alpha架构，并进行了多项优化，包括时空注意力分解、条件嵌入、旋转位置编码（RoPE）和流匹配目标函数等。在训练方面，采用稳定训练策略（QK-Norm、sandwich-norm）和高效训练改进（MaskDiT、AdaFactor、梯度检查点），支持更大规模模型的训练。

图像条件融合方法包括简单的帧替换和图像条件随机丢弃，并结合联合图像-文本无分类器引导（JIT-CFG）进一步提升生成质量。此外，采用渐进式训练策略，先训练T2I模型，再训练T2V模型，最后训练STIV模型，提高训练效率。

数据集与评估

数据预处理包括场景分割和特征提取，以确保输入数据的质量。视频字幕生成采用高效的视频字幕生成器和LLM分类，并通过DSG-Video模块评估字幕的丰富度和准确性。

实验结果与应用

实验结果表明，STIV在VBench基准测试中超越了PIKA、KLING和Gen-3等模型。 STIV还可应用于视频预测、帧插值和长视频生成等任务。

更多细节请参考原文论文。

终于介绍完啦！小伙伴们，这篇关于《Sora之后，苹果发布视频生成大模型STIV，87亿参数一统T2V、TI2V任务》的介绍应该让你收获多多了吧！欢迎大家收藏或分享给更多需要学习的朋友吧~golang学习网公众号也会发布科技周边相关知识，快来关注吧！

苹果产业 STIV