首页 > 科技周边 > 人工智能

从 0 到 1，揭秘中国首个 AI 音乐 SOTA 模型

时间：2025-01-19 09:13:04 202浏览收藏

你在学习科技周边相关的知识吗？本文《从 0 到 1，揭秘中国首个 AI 音乐 SOTA 模型》，主要介绍的内容就涉及到，如果你想提升自己的开发能力，就不要错过这篇文章，大家要知道编程理论基础和实战操作都是不可或缺的哦！

AI音乐创作新纪元：昆仑万维“天工SkyMusic”引领AIGC新浪潮

雨果曾言：“数字、字母、音符开启人类智慧宝库。”音乐作为情感表达的载体，其创作却门槛甚高，需要团队协作和高昂成本。然而，AI大模型的兴起正改变这一现状。

2023年，“AI歌手”翻唱热潮席卷网络，So-vits Svc技术能够精准模拟歌手音色。此后，Suno V3和Udio等工具进一步降低了音乐创作门槛，只需输入歌词和风格即可生成完整歌曲。

然而，高质量、多类型且符合中国音乐审美的AI音乐生成模型一直缺失。直到昆仑万维发布全球最大规模开源MOE大模型“天工3.0”，并基于其打造了国内首个公开可用的AI音乐生成大模型——“天工SkyMusic”。

从 0 到 1，揭秘中国首个 AI 音乐 SOTA 模型

“天工SkyMusic”：中国首个音乐AIGC SOTA模型

“天工SkyMusic”操作简便：打开天工APP，输入歌名、歌词，选择参考歌曲，即可生成歌曲。其亮点在于参考音乐生成能力，用户可上传或选择模板歌曲，系统生成风格相近、音色相似的作品。

下图展示了使用“天工SkyMusic”创作的几首歌曲，包括不同风格的《乘鹤》和不同版本的《小星星》：

从 0 到 1，揭秘中国首个 AI 音乐 SOTA 模型

“天工SkyMusic”支持多种曲风，并具备方言歌曲生成能力（例如四川话、粤语、北京话），极大丰富了创作空间。其在中文人声细腻度和可识别度上表现出色，并运用颤音、吟唱、男女对唱、自动和声等技巧。

技术突破：攻克AI音乐生成难题

AI音乐生成技术面临两大挑战：数据处理复杂性和人声模拟。 “天工SkyMusic”选择大模型音乐音频生成路线，并攻克人声领域。研发团队自主研发出适用于音乐音频领域的类Sora模型架构，包含Encoder、DiT（Diffusion Transformer）和Decoder三大核心模块，并构建了全球最大的音乐数据集。

从 0 到 1，揭秘中国首个 AI 音乐 SOTA 模型