OpenAI 扩展 Realtime API,提供新声音,并为开发人员降低价格

OpenAI 扩展 Realtime API,提供新声音,并为开发人员降低价格

OpenAI今天更新了其 Realtime API,目前处于测试阶段。此更新为其平台添加了用于语音转语音应用程序的新声音,并降低了与缓存提示相关的成本。 

Realtime API 的 Beta 用户现在将有五种新声音可用于构建他们的应用程序。OpenAI 在 X 上的一篇文章中展示了三种新声音,分别是 Ash、Verse 和英国风格的 Ballad。

该公司在其API 文档中表示,原生语音转语音功能“跳过中间文本格式,意味着低延迟和细致入微的输出”,而且语音比以前的语音更容易操控、更具表现力。 

然而,OpenAI 警告称,由于该 API 仍处于测试阶段,因此目前无法提供客户端身份验证。它还表示,实时音频处理可能存在问题。 

该公司表示:“网络条件严重影响实时音频,当网络条件不可预测时,从客户端向服务器大规模可靠地传送音频是一项挑战。”

OpenAI 在人工智能语音和声音方面的历史一直备受争议。今年 3 月,该公司发布了语音克隆平台Voice Engine ,以与ElevenLabs竞争,但只向少数研究人员开放。今年 5 月,在该公司演示了GPT-4o 和语音模式后,该公司暂停使用其中一种声音 Sky,因为女演员斯嘉丽·约翰逊 (Scarlett Johansson) 表示 Sky的声音与她的声音相似。 

该公司于 9 月在美国向付费用户(使用 ChatGPT Plus、Enterprise、Teams 和 Edu 的用户) 推出了 ChatGPT 高级语音模式。

语音转语音 AI 理想情况下可以让企业使用语音建立更实时的响应。假设客户致电公司的客户服务平台。在这种情况下,语音转语音功能可以接收客户的声音,理解他们的询问,并使用延迟较低的 AI 生成的声音进行响应。语音转语音还允许用户生成画外音,用户说出他们的台词,但声音输出不是他们的。提供此功能的一个平台是Replica,当然还有 ElevenLabs。  

OpenAI本月在其开发日期间发布了 Realtime API。该 API 旨在加快语音助手的构建。

降低成本

不过,使用语音到语音功能可能会很昂贵。 

Realtime API 推出时,定价结构为每分钟音频输入 0.06 美元,每音频输出 0.24 美元,这并不便宜。不过,该公司计划通过即时缓存来降低实时 API 价格。 

缓存的文本输入将减少 50%,缓存的音频输入将减少 80%。

OpenAI 还在开发日期间宣布了 Prompt Caching,并将在模型内存中保存经常请求的上下文和提示。这将减少生成响应所需创建的令牌数量。降低输入价格可以鼓励更多感兴趣的开发人员连接到 API。 

OpenAI并不是唯一一家推出 Prompt Caching 的公司。Anthropic于 8 月为 Claude 3.5 Sonnet推出了 Prompt Caching 。 

原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/openai-kuo-zhan-realtime-api-ti-gong-xin-sheng-yin-bing-wei

Like (0)
王 浩然的头像王 浩然作者
Previous 2024年10月31日
Next 2024年11月1日

相关推荐

发表回复

Please Login to Comment