Amazon推出Nova Sonic，革新实时语音交互体验‌

王浩然 • 6天前 • AI前沿 • 56 views

Amazon，这家以电子商务巨头身份闻名于世的公司，近年来在人工智能领域也屡有建树。其Alexa AI语音助手产品更是家喻户晓，而近期，Amazon又为Alexa带来了一位新成员——Nova Sonic，一款专为第三方应用开发者设计的实时语音交互模型。

Nova Sonic的诞生，标志着Amazon在语音AI技术上的又一次重大突破。这款新型基础模型，旨在通过Amazon的Bedrock网络平台，使第三方应用开发者能够轻松地在其产品中集成实时、自然、对话式的语音交互功能。这一创新不仅简化了开发流程，还极大地提升了用户体验。

Nova Sonic现已通过双向流式应用程序编程接口（API）对外提供。事实上，Amazon已经将其部分功能——包括提供语音表示的语音编码器和语音合成器——融入到了新版的Alexa模型Alexa+中。Amazon发言人表示：“这种方法使我们能够同时将语音技术的优势应用于不同的使用场景，同时根据客户反馈和技术进步持续演进这两个系统。”

Nova Sonic的应用场景广泛，包括但不限于客户服务、指导、信息检索和娱乐。它解决了语音AI领域的一个关键挑战：技术碎片化。传统上，构建语音界面需要组合语音识别、语言处理和语音合成等多个独立模型。Amazon人工通用智能（AGI）高级副总裁兼首席科学家Rohit Prasad在接受VentureBeat视频采访时指出，这种复杂性往往导致机器人化、不自然的交互，并增加了开发成本。

Nova Sonic的核心创新在于，它将传统上分离的三种模型——语音转文本、文本理解和文本转语音——整合为一个统一的系统。这个系统不仅能够模拟“说什么”，还能模拟“怎么说”，从而保留了人类对话的微妙之处。例如，通过保留声学上下文（如语调、节奏和风格），Nova Sonic能够维持对话的自然流畅。

Nova Sonic的一大亮点是其处理实时双向对话的能力。它能够识别用户的停顿、犹豫或打断等常见语音行为，并流畅地做出响应，同时保持上下文连贯。Prasad强调：“真正的突破在于实时、交互式、低延迟的语音交互，这意味着你可以在中途打断AI，而它仍能维持上下文并做出连贯回应。”这一特性在客户服务等需要快速响应和灵活适应的场景中尤为重要。

此外，Nova Sonic还设计有与其他系统无缝集成的功能。它能够自动生成语音输入的转录文本，这些文本可用于触发API或与专有工具交互。这使企业能够构建能够执行预约、实时信息查询或回答复杂客户咨询等任务的AI代理。Prasad表示：“你可以通过Amazon Bedrock使用Nova Sonic，并将其与任何工具或专有数据源（甚至是视觉数据源）连接，只要它们被封装为可调用的API。”这种灵活性使该模型适用于教育、旅游、企业运营和娱乐等多个行业。

在与其他实时语音模型的对比测试中，Nova Sonic表现出色。在Common Eval数据集上，它以69.7%的胜率击败了Google的Gemini Flash 2.0，并以51.0%的胜率超过了OpenAI的GPT-4o（针对美式英语单轮对话的男性声音）。在女性声音和英式英语方面的表现也同样优异。Prasad指出：“Nova Sonic在美国和英国英语方面目前处于同类产品中的领先地位，在对话自然度和准确性方面甚至超过了GPT-4o实时版。”他还补充道：“据我们所知，在实时结合语音理解和生成方面，只有GPT-4o实时版和GPT-4o mini的某个变体能够接近Nova Sonic的表现。这个领域仍然处于早期阶段，且极具挑战性。”

在语音识别方面，Nova Sonic同样在多语言和真实世界条件下表现出色。在Multilingual LibriSpeech基准测试中，它以4.2%的词错率（WER）超越了GPT-4o Transcribe，在英语、法语、德语、意大利语和西班牙语方面取得了超过36%的优势。在嘈杂、多说话者环境中（使用AMI基准测试），Nova Sonic的WER比GPT-4o Transcribe改善了46.7%。

目前，该模型支持美式和英式英语中的多种男性和女性声音。Amazon表示，正在开发更多口音和语言，并将在未来的更新中发布。

速度和成本也是Nova Sonic的吸引力所在。第三方基准测试显示，Nova Sonic的客户感知延迟为1.09秒，而OpenAI的GPT-4o为1.18秒，Google的Gemini Flash 2.0为1.41秒。从定价角度来看，Amazon将Nova Sonic定位为面向企业的解决方案。Prasad说：“我们比GPT-4o实时版便宜近80%，这种卓越的价格性能正在吸引那些从试验阶段转向部署阶段的企业。”

据Amazon称，各行各业的公司已经开始使用或测试Nova Sonic。例如，ASAPP正在利用这项技术优化呼叫中心工作流程，并称赞其准确性和自然对话处理能力。教育品牌Education First（EF）则使用该模型为语言学习者提供实时发音反馈，特别是针对具有不同口音的非母语者。体育数据提供商Stats Perform正在利用Nova Sonic的低延迟和简单设置，为其Opta AI Chat平台提供快速、数据丰富的交互。

除了性能和成本外，Amazon还强调了其对负责任的AI开发的承诺。Nova系列模型内置了安全保障措施，并得到AWS AI服务卡的支持，这些服务卡概述了预期用例、潜在限制和道德准则。Prasad强调了Amazon对信任和安全的重视：“信任对我们至关重要——开发者可以在一定范围内定制个性，但我们设置了严格的限制来防止语音克隆或不受欢迎的模仿。”他还补充道：“我们非常努力地消除幻觉和语音漂移。我们为发布设置的标准很高，因为语音生成必须值得信赖。”

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/amazon-tui-chu-nova-sonic-ge-xin-shi-shi-yu-yin-jiao-hu-ti

Like (0)

王浩然作者

0 0

RAG性能评估的新纪元：开源框架助力企业科学衡量AI效能

Previous 6天前

2025年度产品50强奖项揭晓‌

Next 6天前

AI前沿

德勤调查：企业对生成式人工智能持谨慎乐观态度

一项新调查发现，一年前，企业对生成式人工智能的前景充满热情，但随着它们面临将人工智能的可能性转化为成果的复杂性，这种热情已逐渐消退，转而变得乐观起来。德勤第四份《企业生成人工智能…

王浩然
2025年1月26日
000
AI前沿

OpenAI 更新 ChatGPT Search，增加语音查询、更快的结果和移动地图集成

圣诞节的第八天，也就是“OpenAI 的 12 天”（ChatGPT 背后的公司发布的一系列假日主题公告）的第八天，OpenAI在 YouTube 上通过其现在熟悉的直播宣布了其标…

王浩然
2024年12月19日
000
AI前沿

Databricks 如何使用合成数据简化 AI 代理的评估

企业正在全力投入复合 AI 代理。他们希望这些系统能够推理和处理不同领域的不同任务，但评估代理性能的复杂且耗时的过程往往会阻碍其发展。xToday，数据生态系统领导者Databri…

王浩然
2024年12月10日
000
AI前沿

谷歌推出全新 AI 视频生成器 Veo 2，观众评分高于 Sora

谷歌将推出其最新版本的视频生成模型 Veo 2，与OpenAI的 Sora展开正面交锋，据称，Veo 2可以制作出更加逼真的视频。该公司还更新了其图像生成模型 Imagen 3，…

王浩然
2024年12月19日
000
AI前沿

LLM 汽车：人机通信领域的突破

随着自动驾驶汽车 (AV) 逐渐普及，一个重大挑战仍然存在：弥合人类乘客和机器人司机之间的沟通鸿沟。尽管自动驾驶汽车在复杂道路环境中的导航方面取得了显著进步，但它们往往难以理解人类…

点点
2024年9月20日
000
AI前沿

在 Midjourney 之前，有 NightCafe — 而且它现在还在营业

图像生成的 OG 是成功的，只是少了一些审核挑战艾丽·拉塞尔 (Elle Russell) 是位于澳大利亚凯恩斯的NightCafe的联合创始人，该公司提供一套人工智能艺术创作工…

王浩然
2024年9月1日
000
AI前沿

美国、英国和欧盟签署欧洲理事会高级别人工智能安全条约

目前我们还不清楚人工智能法规将如何实施和确保，但今天包括美国、英国和欧盟在内的许多国家签署了由国际标准和人权组织欧洲委员会 (COE) 制定的人工智能安全条约。欧洲委员会将该条约…

王浩然
2024年9月8日
000
AI前沿

欧洲版OpenAI，法国独角兽推多模态大模型Pixtral 12B，源代码已开放下载

智东西9月12日消息，据VentureBeat报道，法国大模型独角兽Mistral AI昨日正式发布Pixtral 12B，这是该公司首个能够同时处理文本和图像的多模态大模型。 P…

点点
2024年9月13日
000
AI前沿

DeepSeek 的新 AI 模型似乎是迄今为止最好的“公开”挑战者之一

中国的一个实验室创建了迄今为止最强大的“开放式”人工智能模型之一。该模型DeepSeek V3由人工智能公司 DeepSeek 开发，并于周三根据宽松的许可证发布，允许开发人员下…

王浩然
2024年12月28日
000
AI前沿

软银创始人孙正义一直在规划复出

英国《金融时报》对孙正义的最新人物特写开篇写道，这位软银首席执行官似乎跌入了谷底，盯着 Zoom 上自己“丑陋”的脸，告诉自己：“我没有做任何值得骄傲的事情。” 事实上，在软银愿景…

点点
2024年9月23日
000
AI前沿

ChatGPT 增加了更多。PC 和Mac 应用程序集成，更接近于驾驶你的计算机

OpenAI 扩大了其桌面应用程序可兼容的应用程序数量，包括允许高级语音模式与其他应用程序协同工作，并且正在逐渐接近使用计算机的 ChatGPT。这款桌面应用程序于 …

王浩然
2024年12月20日
000
AI前沿

意想不到的后果：美国大选结果预示着人工智能将不计后果地发展

虽然 2024 年美国大选的焦点是经济和移民等传统问题，但它对人工智能政策的悄无声息的影响可能会更具变革性。没有一个关于人工智能的辩论问题或重大竞选承诺，选民们无意中将天平倾向加速…

王浩然
2024年12月23日
000
AI前沿

AI生成代码的风险及企业管理策略

随着人工智能（AI）技术的飞速发展，AI工具在代码编写中的应用日益广泛。曾经，几乎所有的应用程序代码都是由人类编写的，但如今，这一格局正在发生深刻变化。一些专家，如Anthropi…

王浩然
2025年3月15日
000
AI前沿

Oracle 数据库已应用于许多企业，现在也应用于 Google Cloud

Oracle数据库长期以来一直是企业中部署最广泛的技术之一，但这并不意味着企业必须在 Oracle 云基础设施 (OCI) 上运行它。今天，甲骨文和谷歌正式宣布了 Oracle …

王浩然
2024年9月17日
000
AI前沿

字节跳动的 UI-TARS 可以接管你的电脑，性能优于 GPT-4o 和 Claude

TikTok 母公司推出了一款新的 AI 代理，可以控制您的计算机并执行复杂的工作流程。与 Anthropic 的Computer Use非常相似，字节跳动的新 UI-TARS …

王浩然
2025年1月23日
000
AI前沿

黑客诱骗 ChatGPT 泄露自制炸弹的详细说明

如果你要求 ChatGPT 帮助你制作一个自制的化肥炸弹，类似于1995 年俄克拉荷马城恐怖爆炸案中使用的炸弹，聊天机器人会拒绝。 “我无法提供帮助，”ChatGPT 在周二的一…

王浩然
2024年9月14日
000
AI前沿

人工智能悖论：未来的尖端工具如何成为危险的网络威胁（以及需要做好哪些准备）

人工智能正在改变企业的运营方式。虽然这种转变在很大程度上是积极的，但它也带来了一些独特的网络安全问题。像agentic AI这样的下一代人工智能应用对组织的安全态势构成了特别值得注…

王浩然
2025年2月4日
000
AI前沿

AI对抗终端攻击：安全领导者需知以保持领先

在当今的数字化时代，企业正面临着一场真实的人工智能军备竞赛。对手利用大型语言模型（LLMs）创建欺诈性机器人，自动化攻击手段，使得企业防不胜防。这些攻击者通过生成式AI创造无文件执…

王浩然
2025年2月23日
000
AI前沿

Salesforce 首席执行官 Marc Beinoff 抨击 Microsoft Copilot 为“Clippy 2.0”

“Clippy” 当然是微软1996 年推出的 Clippit 虚拟屏幕 Word 和 Office 对话助手的流行昵称。虽然现在人们以它可爱的表情和大眼睛的眼光看待它，但在 20…

王浩然
2024年10月19日
000
AI前沿

硅谷正在争论是否应该允许人工智能武器决定杀人

9 月底，Shield AI 联合创始人 Brandon Tseng 发誓，美国的武器永远不会完全自动化——这意味着人工智能算法将做出杀人的最终决定。“国会不希望这样，”这位国防科…

点点
2024年10月13日
000

发表回复

Please Login to Comment

Amazon推出Nova Sonic，革新实时语音交互体验‌

相关推荐

发表回复

Share To :