Amazon推出Nova Sonic,革新实时语音交互体验‌

Amazon推出Nova Sonic,革新实时语音交互体验‌

Amazon,这家以电子商务巨头身份闻名于世的公司,近年来在人工智能领域也屡有建树。其Alexa AI语音助手产品更是家喻户晓,而近期,Amazon又为Alexa带来了一位新成员——Nova Sonic,一款专为第三方应用开发者设计的实时语音交互模型。

Nova Sonic的诞生,标志着Amazon在语音AI技术上的又一次重大突破。这款新型基础模型,旨在通过Amazon的Bedrock网络平台,使第三方应用开发者能够轻松地在其产品中集成实时、自然、对话式的语音交互功能。这一创新不仅简化了开发流程,还极大地提升了用户体验。

Nova Sonic现已通过双向流式应用程序编程接口(API)对外提供。事实上,Amazon已经将其部分功能——包括提供语音表示的语音编码器和语音合成器——融入到了新版的Alexa模型Alexa+中。Amazon发言人表示:“这种方法使我们能够同时将语音技术的优势应用于不同的使用场景,同时根据客户反馈和技术进步持续演进这两个系统。”

Nova Sonic的应用场景广泛,包括但不限于客户服务、指导、信息检索和娱乐。它解决了语音AI领域的一个关键挑战:技术碎片化。传统上,构建语音界面需要组合语音识别语言处理和语音合成等多个独立模型。Amazon人工通用智能(AGI)高级副总裁兼首席科学家Rohit Prasad在接受VentureBeat视频采访时指出,这种复杂性往往导致机器人化、不自然的交互,并增加了开发成本。

Nova Sonic的核心创新在于,它将传统上分离的三种模型——语音转文本、文本理解和文本转语音——整合为一个统一的系统。这个系统不仅能够模拟“说什么”,还能模拟“怎么说”,从而保留了人类对话的微妙之处。例如,通过保留声学上下文(如语调、节奏和风格),Nova Sonic能够维持对话的自然流畅。

Nova Sonic的一大亮点是其处理实时双向对话的能力。它能够识别用户的停顿、犹豫或打断等常见语音行为,并流畅地做出响应,同时保持上下文连贯。Prasad强调:“真正的突破在于实时、交互式、低延迟的语音交互,这意味着你可以在中途打断AI,而它仍能维持上下文并做出连贯回应。”这一特性在客户服务等需要快速响应和灵活适应的场景中尤为重要。

此外,Nova Sonic还设计有与其他系统无缝集成的功能。它能够自动生成语音输入的转录文本,这些文本可用于触发API或与专有工具交互。这使企业能够构建能够执行预约、实时信息查询或回答复杂客户咨询等任务的AI代理。Prasad表示:“你可以通过Amazon Bedrock使用Nova Sonic,并将其与任何工具或专有数据源(甚至是视觉数据源)连接,只要它们被封装为可调用的API。”这种灵活性使该模型适用于教育、旅游、企业运营和娱乐等多个行业。

在与其他实时语音模型的对比测试中,Nova Sonic表现出色。在Common Eval数据集上,它以69.7%的胜率击败了Google的Gemini Flash 2.0,并以51.0%的胜率超过了OpenAI的GPT-4o(针对美式英语单轮对话的男性声音)。在女性声音和英式英语方面的表现也同样优异。Prasad指出:“Nova Sonic在美国和英国英语方面目前处于同类产品中的领先地位,在对话自然度和准确性方面甚至超过了GPT-4o实时版。”他还补充道:“据我们所知,在实时结合语音理解和生成方面,只有GPT-4o实时版和GPT-4o mini的某个变体能够接近Nova Sonic的表现。这个领域仍然处于早期阶段,且极具挑战性。”

在语音识别方面,Nova Sonic同样在多语言和真实世界条件下表现出色。在Multilingual LibriSpeech基准测试中,它以4.2%的词错率(WER)超越了GPT-4o Transcribe,在英语、法语、德语、意大利语和西班牙语方面取得了超过36%的优势。在嘈杂、多说话者环境中(使用AMI基准测试),Nova Sonic的WER比GPT-4o Transcribe改善了46.7%。

目前,该模型支持美式和英式英语中的多种男性和女性声音。Amazon表示,正在开发更多口音和语言,并将在未来的更新中发布。

速度和成本也是Nova Sonic的吸引力所在。第三方基准测试显示,Nova Sonic的客户感知延迟为1.09秒,而OpenAI的GPT-4o为1.18秒,Google的Gemini Flash 2.0为1.41秒。从定价角度来看,Amazon将Nova Sonic定位为面向企业的解决方案。Prasad说:“我们比GPT-4o实时版便宜近80%,这种卓越的价格性能正在吸引那些从试验阶段转向部署阶段的企业。”

据Amazon称,各行各业的公司已经开始使用或测试Nova Sonic。例如,ASAPP正在利用这项技术优化呼叫中心工作流程,并称赞其准确性和自然对话处理能力。教育品牌Education First(EF)则使用该模型为语言学习者提供实时发音反馈,特别是针对具有不同口音的非母语者。体育数据提供商Stats Perform正在利用Nova Sonic的低延迟和简单设置,为其Opta AI Chat平台提供快速、数据丰富的交互。

除了性能和成本外,Amazon还强调了其对负责任的AI开发的承诺。Nova系列模型内置了安全保障措施,并得到AWS AI服务卡的支持,这些服务卡概述了预期用例、潜在限制和道德准则。Prasad强调了Amazon对信任和安全的重视:“信任对我们至关重要——开发者可以在一定范围内定制个性,但我们设置了严格的限制来防止语音克隆或不受欢迎的模仿。”他还补充道:“我们非常努力地消除幻觉和语音漂移。我们为发布设置的标准很高,因为语音生成必须值得信赖。”

原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/amazon-tui-chu-nova-sonic-ge-xin-shi-shi-yu-yin-jiao-hu-ti

Like (0)
王 浩然的头像王 浩然作者
Previous 6天前
Next 6天前

相关推荐

发表回复

Please Login to Comment