首页 > 科技周边 > 人工智能

炒菜、雕刻、绘画、汽车人变形！MakeAnything用扩散Transformer解锁多任务过程生成

时间：2025-02-17 20:52:41 235浏览收藏

欢迎各位小伙伴来到golang学习网，相聚于此都是缘哈哈哈！今天我给大家带来《炒菜、雕刻、绘画、汽车人变形！MakeAnything用扩散Transformer解锁多任务过程生成》，这篇文章主要讲到等等知识，如果你对科技周边相关的知识非常感兴趣或者正在自学，都可以关注我，我会持续更新相关文章！当然，有什么建议也欢迎在评论留言提出！一起学习！

新加坡国立大学Show Lab的研究成果MakeAnything，让AI学会了分步骤创作！这项突破性研究，通过巧妙结合Diffusion Transformer (DiT)和非对称LoRA技术，首次实现了高质量、跨领域的程序化序列生成，并在21类任务中展现出优异性能及强大的泛化能力。

挑战与突破：AI创作的“过程”难题

以往的AI图像生成，主要集中在最终结果的呈现。而要让AI生成像绘画、手工艺等复杂作品的步骤教程，则面临三大挑战：高质量多任务数据集匮乏、步骤间逻辑关联性不足以及跨领域泛化能力有限。MakeAnything团队另辟蹊径，从数据、模型和方法三个方面入手，攻克了这些难题。

MakeAnything的核心技术：

海量多领域数据集： 构建了涵盖绘画、手工艺、乐高搭建、3D建模、烹饪等21个领域的超大规模数据集，包含超过24,000个标注序列，为AI学习“分步创作”提供了坚实的数据基础。
DiT与蛇形布局： 利用DiT模型的空间注意力机制，并创新性地采用蛇形序列布局，将多步骤图像排列成蛇形网格，强化模型对步骤顺序的感知，确保步骤间的逻辑连贯性和视觉一致性。