首页 > 科技周边 > 人工智能

SignGemma手语翻译模型正式发布

时间：2025-07-01 13:08:54 201浏览收藏

本篇文章向大家介绍《SignGemma：谷歌手语翻译AI模型发布》，主要包括，具有一定的参考价值，需要的朋友可以参考一下。

SignGemma是什么

SignGemma 是由谷歌 DeepMind 研发团队推出的一款全球领先的手语翻译AI系统。该模型致力于将美国手语（ASL）转换为英语文本，运用多模态训练方式，融合视觉与文本数据，精确辨识手语动作并即时生成口语文本。SignGemma 拥有极高的准确性及上下文理解力，响应速度小于0.5秒。其采用优化后的结构设计，能够在普通消费级显卡上运行，支持本地化部署，从而保障用户的数据隐私。

SignGemma的主要功能

即时翻译：SignGemma 能够实时捕获手语动作，并迅速转化为精确的文本输出，响应时间低于0.5秒，几乎达到自然对话的速度。
精准辨识：此模型能够辨认基础手势，并且能够解读手语中的情境和情感表达。
多语言兼容：现阶段主要支持从美国手语（ASL）到英语的翻译。
本地化部署：模型能够在用户的个人设备上运行，用户的数据不会被上传至云端，这使得它非常适合用于医疗、教育等需要高度隐私保护的场合。

SignGemma的技术原理

多模态训练：SignGemma 利用视觉数据（如手语视频）与文本数据共同训练，能够精准地识别手语动作并理解其含义。借助多摄像机阵列及深度传感器，建立手部骨骼的时空轨迹模型，追踪手势在空间中的移动轨迹及其随时间的变化过程。
深度学习架构：模型采用了高效的架构设计，能够在消费级GPU上运行，利用先进的AI技术深入分析手语动作。
空间语法理解：SignGemma 构建了一个“三维语义理解框架”，能够理解手语中的“空间语法”，比如使用不同的身体部位来代表不同的主题领域。这种方法让模型在长句子翻译时的流畅度提升了40%。
语义映射：通过对比学习技术，模型将手语的空间表现形式映射为口语的线性序列，还能捕捉面部表情等非手部动作的表现。

SignGemma的应用场景

学习辅助：为听力障碍的学生提供更加便利的学习工具，协助他们更好地掌握课程内容。
教育资源开发：开发者可以基于 SignGemma 创建专门的教育平台，提供丰富多样的手语学习资源和互动式课程，推动听力障碍教育的进步。
医患交流：在医疗机构等场所，SignGemma 能够帮助医生与听力障碍患者实现更高效的沟通。医生可以通过这个模型快速获取患者的病情描述，而患者也能更清楚地理解医生的诊断结果和治疗方案。
公共服务：在公共交通、机场、火车站等公共设施内，SignGemma 可以整合到信息显示屏幕或自助服务终端中，为听力障碍者提供实时的信息翻译和交互服务。

本篇关于《SignGemma手语翻译模型正式发布》的介绍就到此结束啦，但是学无止境，想要了解学习更多关于科技周边的相关知识，请关注golang学习网公众号！