首页 > 科技周边 > 人工智能

原生融合多模态上的突破，让商汤大模型打破Scaling Laws撞墙「魔咒」

时间：2025-01-22 13:01:30 333浏览收藏

偷偷努力，悄无声息地变强，然后惊艳所有人！哈哈，小伙伴们又来学习啦~今天我将给大家介绍《原生融合多模态上的突破，让商汤大模型打破Scaling Laws撞墙「魔咒」》，这篇文章主要会讲到等等知识点，不知道大家对其都有多少了解，下面我们就一起来看一吧！当然，非常希望大家能多多评论，给出合理的建议，我们一起学习，一起进步！

AI 领域的下一个突破口：原生融合多模态大模型

人工智能似乎在大型语言模型的研发上遭遇了瓶颈。GPT-5的发布延迟以及其他公司面临的类似问题，表明了当前大模型训练的局限性：高昂的成本、漫长的训练时间、日益枯竭的数据资源，以及电力供应等基础设施的限制。

为了突破瓶颈，研究人员正探索新的方向。OpenAI前首席科学家Ilya Sutskever指出，找到正确的扩展方向至关重要。多模态模型被认为是AI未来的发展方向，但现有的多模态模型并非“完全体”。

谷歌Gemini 1.5 Pro的出现，以及其他公司对多模态模型的探索，预示着新一代AI技术的兴起。商汤科技发布的“日日新”原生融合多模态大模型，则代表了这一领域的重大突破。

原生融合多模态：AI的未来之路

“日日新”模型实现了真正意义上的模型一统，能够自然地处理和输出不同模态的内容（语音、图像、文本、视频），并具备强大的多模态推理和跨模态迁移能力。这符合AI发展的直觉：只有让机器感知物理世界中的多模态信息，才能拥有类似人类的分析、判断和决策能力。

^{图片来源：https://arxiv.org/abs/2312.11805}

“日日新”模型的实际应用与测试

我们对商汤科技的“日日新”融合大模型交互版（SenseNova-5o）进行了测试，体验了其实时音视频对话功能。测试结果显示，该模型反应迅速，具备良好的记忆力（长达5分钟），能够理解用户的需求并在多轮对话中保持上下文一致性。这使得它能够应用于更广泛的场景，例如辅助孩子学习。

我们还测试了“日日新”模型在图像理解、幽默感识别、文物信息解读、数学题解答和图表分析等方面的能力，结果表明其具备强大的多模态理解和推理能力。

商业落地与未来展望

“日日新”模型及其交互版本SenseNova-5o已经具备商业应用能力，并已在多个场景中落地。更重要的是，商汤科技在降低模型训练成本方面取得了显著进展，其原生融合方法比分别训练语言模型和多模态模型的成本降低了40%。

商汤认为，真实世界的数据远超互联网数据，原生融合多模态模型能够更好地利用这些数据，从而实现AI的进一步发展。未来，AI的应用场景将更加广泛，其能力也将得到极大的提升。

传送门：
SenseNova-5o 正式接口及接入方案：https://sensenova5o\_doc.sensetime.com/introduction/intro.html

本篇关于《原生融合多模态上的突破，让商汤大模型打破Scaling Laws撞墙「魔咒」》的介绍就到此结束啦，但是学无止境，想要了解学习更多关于科技周边的相关知识，请关注golang学习网公众号！

产业商汤科技