首页 > 科技周边 > 人工智能

谷歌推出Mirasol：30亿参数，将多模态理解扩展至长视频

来源：51CTO.COM

时间：2023-11-17 15:51:14 177浏览收藏

“纵有疾风来，人生不言弃”，这句话送给正在学习科技周边的朋友们，也希望在阅读本文《谷歌推出Mirasol：30亿参数，将多模态理解扩展至长视频》后，能够真的帮助到大家。我也会在后续的文章中，陆续更新科技周边相关的技术文章，有好的建议欢迎大家在评论留言，非常感谢！

11 月 16 日消息，谷歌公司近日发布新闻稿，介绍了小型人工智能模型 Mirasol，可以回答有关视频的问题并创造新的记录。

谷歌推出Mirasol：30亿参数，将多模态理解扩展至长视频

AI 模型目前很难处理不同的数据流，如果要让 AI 理解视频，需要整合视频、音频和文本等不同模态的信息，这大大增加了难度。

谷歌和谷歌 Deepmind 的研究人员提出了新的方法，将多模态理解扩展到长视频领域。

借助Mirasol AI模型，该团队努力解决两个关键挑战：

在Mirasol中，谷歌采用了合路器和自回归转换器模型

该模型组件将处理时间同步的视频和音频信号，然后将视频拆分成独立的片段

转换器处理每个片段，并学习每个片段之间的联系，然后使用另一个转换器处理上下文文本，这两个组件交换有关其各自输入的信息。

一个新的转换模块名为Combiner，能够从每个片段中提取通用表示，并通过降维来压缩数据。每个片段包含4到64帧，该模型目前拥有30亿个参数，能够处理128到512帧的视频

谷歌推出Mirasol：30亿参数，将多模态理解扩展至长视频

在测试中，Mirasol3B 在视频问题分析方面达到了新的基准，体积明显更小，并且可以处理更长的视频。通过使用带有内存的组合器变体，该团队能够进一步降低所需的计算能力18%

谷歌推出Mirasol：30亿参数，将多模态理解扩展至长视频

本站在此附上 Mirasol 的官方新闻稿，感兴趣的用户可以深入阅读。

今天关于《谷歌推出Mirasol：30亿参数，将多模态理解扩展至长视频》的内容就介绍到这里了，是不是学起来一目了然！想要了解更多关于人工智能,谷歌的内容请关注golang学习网公众号！

人工智能谷歌

声明：本文转载于：51CTO.COM 如有侵犯，请联系study_golang@163.com删除