登录
首页 >  科技周边 >  人工智能

原生融合多模态上的突破,让商汤大模型打破Scaling Laws撞墙「魔咒」

时间:2025-01-22 13:01:30 333浏览 收藏

偷偷努力,悄无声息地变强,然后惊艳所有人!哈哈,小伙伴们又来学习啦~今天我将给大家介绍《原生融合多模态上的突破,让商汤大模型打破Scaling Laws撞墙「魔咒」》,这篇文章主要会讲到等等知识点,不知道大家对其都有多少了解,下面我们就一起来看一吧!当然,非常希望大家能多多评论,给出合理的建议,我们一起学习,一起进步!

AI 领域的下一个突破口:原生融合多模态大模型

人工智能似乎在大型语言模型的研发上遭遇了瓶颈。GPT-5的发布延迟以及其他公司面临的类似问题,表明了当前大模型训练的局限性:高昂的成本、漫长的训练时间、日益枯竭的数据资源,以及电力供应等基础设施的限制。

图片

为了突破瓶颈,研究人员正探索新的方向。OpenAI前首席科学家Ilya Sutskever指出,找到正确的扩展方向至关重要。 多模态模型被认为是AI未来的发展方向,但现有的多模态模型并非“完全体”。

图片

谷歌Gemini 1.5 Pro的出现,以及其他公司对多模态模型的探索,预示着新一代AI技术的兴起。 商汤科技发布的“日日新”原生融合多模态大模型,则代表了这一领域的重大突破。

原生融合多模态:AI的未来之路

“日日新”模型实现了真正意义上的模型一统,能够自然地处理和输出不同模态的内容(语音、图像、文本、视频),并具备强大的多模态推理和跨模态迁移能力。 这符合AI发展的直觉:只有让机器感知物理世界中的多模态信息,才能拥有类似人类的分析、判断和决策能力。

图片

图片来源:https://arxiv.org/abs/2312.11805

“日日新”模型的实际应用与测试

我们对商汤科技的“日日新”融合大模型交互版(SenseNova-5o)进行了测试,体验了其实时音视频对话功能。测试结果显示,该模型反应迅速,具备良好的记忆力(长达5分钟),能够理解用户的需求并在多轮对话中保持上下文一致性。 这使得它能够应用于更广泛的场景,例如辅助孩子学习。

原生融合多模态上的突破,让商汤大模型打破Scaling Laws撞墙「魔咒」原生融合多模态上的突破,让商汤大模型打破Scaling Laws撞墙「魔咒」

原生融合多模态上的突破,让商汤大模型打破Scaling Laws撞墙「魔咒」

我们还测试了“日日新”模型在图像理解、幽默感识别、文物信息解读、数学题解答和图表分析等方面的能力,结果表明其具备强大的多模态理解和推理能力。

图片

图片

图片

图片

图片

图片

图片

商业落地与未来展望

“日日新”模型及其交互版本SenseNova-5o已经具备商业应用能力,并已在多个场景中落地。 更重要的是,商汤科技在降低模型训练成本方面取得了显著进展,其原生融合方法比分别训练语言模型和多模态模型的成本降低了40%。

图片

图片

商汤认为,真实世界的数据远超互联网数据,原生融合多模态模型能够更好地利用这些数据,从而实现AI的进一步发展。 未来,AI的应用场景将更加广泛,其能力也将得到极大的提升。

传送门:
SenseNova-5o 正式接口及接入方案:https://sensenova5o\_doc.sensetime.com/introduction/intro.html

本篇关于《原生融合多模态上的突破,让商汤大模型打破Scaling Laws撞墙「魔咒」》的介绍就到此结束啦,但是学无止境,想要了解学习更多关于科技周边的相关知识,请关注golang学习网公众号!

相关阅读
更多>
最新阅读
更多>
课程推荐
更多>