5月8日消息,OpenAI刚刚发布了三款全新的实时语音模型,称其将“为开发者开启语音应用的新纪元”。每款新的语音智能模型都各具特色,适用于不同的用途。
开发者可以利用OpenAI的3个全新语音模型构建全新的应用体验。
OpenAI推出了三款新的语音模型,分别用于推理、翻译和转录等不同用途。
以下是该公司今天发布的公告:
GPT-Realtime-2是我们第一个具有GPT-5级推理能力的语音模型,可以处理更复杂的请求并自然地推进对话。
GPT-实时翻译,一种新的实时翻译模型,可将70多种输入语言的语音翻译成13种输出语言,同时保持与说话者语速同步。
GPT-Realtime-Whisper是一款全新的流式语音转文本工具,可在说话者说话的同时实时转录语音。
OpenAI更详细地解释了GPT-5级语音模型GPT-Realtime-2及其推理功能的新特性:
GPT-Realtime-2专为实时语音交互而构建,该模型能够保持对话流畅进行,同时推理请求、调用工具、处理更正或中断,并以适合当下情况的方式做出回应。
该公司表示,与此同时,新的翻译语音模型支持“70种输入语言和13种输出语言”。
最后,还有实时转录模型:
GPT-Realtime-Whisper是一种专为低延迟语音转文本而构建的新型流式转录模型。它能在人们说话的同时转录音频,从而使实时产品感觉更快、响应更灵敏、更自然——从即时显示的字幕到与对话同步的会议记录。
OpenAI表示,所有三种新的语音模型都包含在其实时API中,定价如下:
GPT-Realtime-2的定价为每百万个音频输入token32美元(缓存输入token0.40美元),每百万个音频输出token64美元。
GPT-实时翻译的定价为每分钟0.034美元。
GPT-Realtime-Whisper的定价为每分钟0.017美元。(鞭牛士、AI普瑞斯编译)