OpenAI推出全新语音模型，能在说话同时推理、翻译和转录

2026-05-08 07:31:46 Bianews 未分类

5月8日消息，OpenAI刚刚发布了三款全新的实时语音模型，称其将“为开发者开启语音应用的新纪元”。每款新的语音智能模型都各具特色，适用于不同的用途。

开发者可以利用OpenAI的3个全新语音模型构建全新的应用体验。

OpenAI推出了三款新的语音模型，分别用于推理、翻译和转录等不同用途。

以下是该公司今天发布的公告：

GPT-Realtime-2是我们第一个具有GPT-5级推理能力的语音模型，可以处理更复杂的请求并自然地推进对话。

GPT-实时翻译，一种新的实时翻译模型，可将70多种输入语言的语音翻译成13种输出语言，同时保持与说话者语速同步。

GPT-Realtime-Whisper是一款全新的流式语音转文本工具，可在说话者说话的同时实时转录语音。

OpenAI更详细地解释了GPT-5级语音模型GPT-Realtime-2及其推理功能的新特性：

GPT-Realtime-2专为实时语音交互而构建，该模型能够保持对话流畅进行，同时推理请求、调用工具、处理更正或中断，并以适合当下情况的方式做出回应。

该公司表示，与此同时，新的翻译语音模型支持“70种输入语言和13种输出语言”。

最后，还有实时转录模型：

GPT-Realtime-Whisper是一种专为低延迟语音转文本而构建的新型流式转录模型。它能在人们说话的同时转录音频，从而使实时产品感觉更快、响应更灵敏、更自然——从即时显示的字幕到与对话同步的会议记录。

OpenAI表示，所有三种新的语音模型都包含在其实时API中，定价如下：

GPT-Realtime-2的定价为每百万个音频输入token32美元（缓存输入token0.40美元），每百万个音频输出token64美元。

GPT-实时翻译的定价为每分钟0.034美元。

GPT-Realtime-Whisper的定价为每分钟0.017美元。（鞭牛士、AI普瑞斯编译）

阅读：0 点赞：0

2026-05-07 真知细细鉴赏军武

标签：伊隆·马斯克 openai 火星布罗克

2026-05-07 洛风阐社会

标签： ai 硅谷华为麒麟芯片华为昇腾人工智能

2026-05-05 大话数据科技

标签： deepseek GitHub

2026-05-06 赛博自由老爹

标签： deepseek 人工智能 ai 编程

2026-04-24 德里克文

标签： deepseek chatgpt openai 编程

2026-04-09 惜海评科技

标签：苹果 iPhone

2026-04-09 嘴哥看科技

标签： ai 半导体机器狗人工智能科技公司财报

群发资讯网