首页 > 科技周边 > 人工智能

谷歌端侧新作Gemma3n：多模态AI体验

时间：2025-05-26 22:42:28 376浏览收藏

在谷歌I/O开发者大会上，推出了名为Gemma 3n的端侧多模态AI模型。基于Gemini Nano架构，Gemma 3n采用逐层嵌入技术，将内存占用压缩至2-4B参数模型水平，支持文本、图像、短视频和音频输入，并能生成结构化文本输出。新增的音频处理能力可实时转录语音、识别背景音或分析音频情感。用户可通过Google AI Studio在浏览器中直接使用该模型，适用于语音助手、无障碍应用及内容生成等场景。

Gemma 3n是什么

Gemma 3n 是谷歌 I/O 开发者大会推出的端侧多模态 AI 模型。基于 Gemini Nano 架构，采用逐层嵌入技术，将内存占用压缩至 2-4B 参数模型水平。模型参数量分别为 5B 和 8B，内存占用仅相当于 2B 和 4B 模型。Gemma 3n 支持文本、图像、短视频和音频输入，可生成结构化文本输出。新增的音频处理能力，能实时转录语音、识别背景音或分析音频情感。可通过 Google AI Studio 直接在浏览器中使用。

Gemma 3n的主要功能

多模态输入：支持文本、图像、短视频和音频输入，可生成结构化文本输出。例如，用户可上传照片并询问“图中的植物是什么？”，或通过语音指令分析短视频内容。
音频理解：新增音频处理能力，能实时转录语音、识别背景音或分析音频情感，适用于语音助手和无障碍应用。
设备端运行：无需云端连接，所有推理在本地完成，响应时间低至 50 毫秒，确保低延迟和隐私保护。
高效微调：支持在 Google Colab 上进行快速微调，开发者可通过几小时的训练定制模型，适配特定任务。
长上下文支持：Gemma 3n 支持最长 128K tokens 的上下文长度。

Gemma 3n的技术原理

基于 Gemini Nano 架构：Gemma 3n 继承了 Gemini Nano 的轻量化架构，专为移动设备优化。通过知识蒸馏和量化感知训练（QAT），在保持高性能的同时大幅降低资源需求。
逐层嵌入技术：采用逐层嵌入（Per-Layer Embeddings，PLE）技术，显著降低了模型的内存需求。模型的原始参数量分别为 5B 和 8B，内存占用仅相当于 2B 和 4B 模型，只需 2GB 或 3GB 的动态内存即可运行。
多模态融合：结合了 Gemini 2.0 的分词器和增强的数据混合，支持 140 多种语言的文本和视觉处理，覆盖全球用户需求。
局部/全局层交错设计：采用 5:1 的局部/全局层交错机制，每 5 层局部层后接 1 层全局层，以局部层作为模型的第一层开始计算。有助于减少长上下文时 KV 缓存爆炸问题。

Gemma 3n的项目地址

项目官网：http://deepmind.google/models/gemma/gemma-3n/

Gemma 3n的应用场景

语音转录与情感分析：能实时转录语音、识别背景音或分析音频情感，适用于语音助手和无障碍应用。
内容生成：支持在手机上生成图像描述、视频摘要或语音转录，适合内容创作者快速编辑短视频或社交媒体素材。
学术任务定制：开发者可用 Gemma 3n 的微调功能，在 Colab 上为学术任务定制模型，如分析实验图像或转录讲座音频。
低资源设备：专为低资源设备设计，仅需 2GB RAM 即可在手机、平板和笔记本电脑上流畅运行。

文中关于的知识介绍，希望对你的学习有所帮助！若是受益匪浅，那就动动鼠标收藏这篇《谷歌端侧新作Gemma3n：多模态AI体验》文章吧，也可关注golang学习网公众号了解相关技术文章。