首页 > 科技周边 > 业界新闻

OpenAI推出GPT-realtime语音模型

时间：2025-09-17 21:33:40 249浏览收藏

**OpenAI 发布 GPT-realtime 语音模型，打造更自然流畅的语音交互体验** OpenAI 最新发布的 GPT-realtime 语音模型，是一款专为语音 AI 智能体设计的突破性多模态模型。它不仅能生成高度自然流畅的语音，精准复现人类丰富的语调、情感和语速，还能理解图像信息，实现视觉与语音/文本对话的无缝融合。该模型采用端到端音频处理架构，显著降低响应延迟，并新增 Marin 与 Cedar 两种全新语音风格，同时优化了原有音色。GPT-realtime 在语音识别、指令遵循和推理能力方面均取得显著提升，尤其在多种语言的字母数字序列识别中表现优异。此次更新还增强了函数调用功能和图像输入支持，为开发者提供了更便捷的集成和更高的灵活性。这款模型的发布，标志着语音 AI 技术迈向了新的高度，为客服、教育、金融、医疗等领域带来更智能、更人性化的语音交互体验。

OpenAI 正式发布全新语音模型 GPT-realtime，这是一款专为语音AI智能体设计的多模态模型，具备生成高度自然流畅语音的能力，可精准复现人类丰富的语调变化、情感表达及语速节奏。该模型支持图像理解，并能将视觉信息与语音或文本对话无缝融合，广泛适用于客服、教育、金融、医疗等场景中的语音智能体构建。

GPT-realtime 采用端到端的音频处理架构，直接对音频输入进行解析并生成回应，大幅降低响应延迟。此次更新推出了两种全新风格的语音——Marin 与 Cedar，同时对原有8种语音音色完成了全面优化升级。

据 OpenAI 介绍，该模型展现出更强的理解能力，尤其在母语语音识别方面表现更优。它能够识别非语言信号（如笑声）、实现句中语码切换，并根据情境调整语气风格（例如“简洁专业”或“亲切体贴”）。

内部测试显示，GPT-realtime 在识别多种语言（包括西班牙语、中文、日语和法语）中的字母数字序列（如电话号码、车辆识别码等）任务中，准确率显著提升。在 Big Bench Audio 基准测试中，其推理能力得分达到 82.8%，远高于2024年12月发布的前一版本（65.6%）。

OpenAI 发布 GPT-realtime 语音对话模型

在衡量指令遵循能力的 MultiChallenge 音频基准测试中，gpt-realtime 得分为 30.5%，相较上一代模型的 20.6% 实现了明显进步。

OpenAI 发布 GPT-realtime 语音对话模型

此外，GPT-realtime 增强了函数调用功能，新增对图像输入的支持，使得对话可基于视觉内容展开。多项API改进也让集成更加便捷，为开发者提供了更高的灵活性与可扩展性。

OpenAI 发布 GPT-realtime 语音对话模型

值得一提的是，本次模型的研发团队中包括两位95后华人研究员 Beichen Li 和 Liyu Chen。其中，Beichen Li 毕业于麻省理工学院（MIT），主要研究方向聚焦于计算机图形学与机器学习的交叉领域。

今天关于《OpenAI推出GPT-realtime语音模型》的内容介绍就到此结束，如果有什么疑问或者建议，可以在golang学习网公众号下多多回复交流；文中若有不正之处，也希望回复留言以告知！