谁需要 GPT-4o 高级语音模式？Hume 的 EVI 2 现已推出，带有情感化的语音 AI 和 API

王浩然 • 2024年9月22日下午9:00 • AI前沿 • 130 views

由前谷歌 DeepMinder/计算科学家 Alan Cowen 共同创立并领导的人工智能初创公司Hume时，正是 2024 年春天，该公司刚刚在 B 轮私募股权融资中筹集了 5000 万美元，用于开发语音人工智能助手的独特方法。

Hume 以 18 世纪苏格兰哲学家大卫休谟 (David Hume) 的名字命名，它使用不同说话者的跨文化录音，并结合自我报告的情绪调查结果，创建了专有的 AI 模型，该模型可在多种语言和方言中提供逼真的声音表达和理解。

即使在那时，Hume 也是首批直接提供应用程序编程接口 (API) 的 AI 模型提供商之一，允许第三方开发人员和外部企业连接应用程序或在其模型之上构建新应用程序，或简单地将其合并到某个功能中，例如接听客户服务电话并从组织的数据库中检索适当的上下文答案。

现在，在这六个月里，Hume 一直忙于构建该 AI 语音模型和 API 的更新版本。新的Empathic Voice Interface 2 (EVI 2)于上周发布，并引入了一系列增强功能，旨在提高自然度、情感响应能力和可定制性，同时显著降低开发人员和企业的成本。它的延迟也降低了 40%，通过 API 比其前身便宜 30%。

Cowen 说：“我们希望开发人员将其构建到任何应用程序中，创建他们想要的品牌声音，并根据用户进行调整，使声音让人感到值得信赖和个性化。”

事实上，考恩表示，他看到并希望看到更多的企业不再将人们踢出他们的应用程序，而是将他们发送到单独的配备 EVI 的 AI 语音助手来处理技术和客户支持问题。

相反，他提到，尤其得益于 EVI 2 的设计，现在最终用户可以直接在应用程序内连接到由 EVI 2 提供支持的语音助手，并且在许多情况下可以获得更好的用户体验，并且由 EVI 2 提供支持的语音助手现在可以获取信息或代表用户采取行动，而无需将他们连接到任何外部电话号码——如果使用 Hume 的开发人员工具以正确的方式连接到底层客户的应用程序。

Cowen说：“开发人员开始意识到他们不必将声音放在电话线上；他们可以将其放在应用程序的任何地方。”

例如，如果我想在网上账户中更改我的地址信息，我只需使用集成的 EVI 2 即可要求它帮我更改地址，而不必让它引导我完成所有步骤和屏幕。

适时发布

EVI 2 的发布时机对 Hume 来说尤其有利。尽管不像 OpenAI 或潜在竞争对手 Anthropic 那样广为人知（据报道，后者正在开发其投资者亚马逊的 Alexa 语音助手的改版版本），但 Hume 已经准备好在 Anthropic 和 OpenAI 之前推出一款功能强大、尖端的类人语音助手，企业可以立即利用它。

相比之下，5 月份展示的由 GPT-4o 模型驱动的 OpenAI ChatGPT 高级语音模式仍然只向少数用户开放。此外，Cowen 认为 EVI 2 在检测用户情绪并用自己的情绪化话语做出反应方面实际上更胜一筹。

“EVI 2 是完全端到端的。它只是接收音频信号并输出音频信号，这更像 [OpenAI] 的语音 GPT 的做法，”。也就是说，EVI 2 和 GPT-4o 都将音频信号波形和数据直接转换为 token，而不是先将它们转录为文本并输入到语言模型中。第一个 EVI 模型使用了后一种方法——但在独立演示使用中，它的速度和响应速度仍然令人印象深刻。

对于希望构建语音 AI 功能以脱颖而出，或通过使用语音 AI 代替人工呼叫中心来降低成本或保持低成本的开发人员和企业来说，Hume 的 EVI 2 可能是一个有吸引力的选择。

EVI 2 的对话式 AI 进步

Cowen 和 Hume 声称 EVI 2 可以实现更快、更流畅的对话、亚秒级响应时间和各种语音定制。

他们表示，EVI 2 旨在实时预测和适应用户偏好，使其成为从客户服务机器人到虚拟助手等广泛应用的理想选择。

EVI 2 的主要改进包括先进的语音生成系统，该系统可增强语音的自然度和清晰度，以及情商，可帮助模型理解用户的语气并相应地调整其反应。

EVI 2 还支持语音调制等功能，允许开发人员根据音调、鼻音和性别等参数对语音进行微调，使其具有多功能性和可定制性，并且不存在与语音克隆相关的风险。

VentureBeta 还报道过许多专有和开源语音 AI 模型。网络上也有人发布了两个或多个语音 AI 模型进行对话的例子，结果却产生了奇怪、令人不安的结果，比如痛苦的尖叫声。

当我问到这些例子时，考恩似乎觉得很有趣，但并不太担心这些例子发生在休谟身上。

“这些模型肯定存在问题。你必须用正确的数据从模型中剔除这些问题，我们在这方面非常擅长，”他告诉我。 “也许偶尔有人会试图玩弄它，但这种情况很少见。”

此外，考恩表示，休姆没有计划提供“语音克隆”服务，即获取说话者的声音，并从几秒钟长的样本中复制出来，以便用来朗读任何给定的文本。

“当然，我们可以用我们的模型克隆声音，但我们还没有提供这种服务，因为风险太高，而且好处往往不明确，”考恩说。“人们真正想要的是能够定制自己的声音。我们开发了新的声音，你可以创造不同的个性，这对开发人员来说似乎比克隆特定的声音更令人兴奋。”

全新功能集

EVI 2 引入了几个有别于其前代产品的新功能：

•响应时间更快：与 EVI 1 相比，EVI 2 的延迟减少了 40%，平均响应时间现在在 500 毫秒到 800 毫秒之间。这一改进提高了对话的流畅度，使其感觉更自然、更即时。

•情感智能：通过将语音和语言集成到单个模型中，EVI 2 可以更好地理解用户输入背后的情感背景。这使得它能够生成更合适、更富有同理心的回应。

•可自定义的声音：新的语音调制方法使开发人员能够调整各种语音参数，例如性别和音调，以创建针对特定应用程序或用户量身定制的独特声音。此自定义功能不依赖于语音克隆，为需要灵活而安全的语音选项的开发人员提供了更安全的替代方案。

•对话提示：EVI 2 允许用户动态修改 AI 的说话风格。例如，用户可以在对话过程中提示它说话更快或听起来更兴奋，从而实现更具吸引力的互动。

•多语言功能：虽然 EVI 2 目前支持英语，但 Hume 计划在 2024 年底前推出对多种语言的支持，包括西班牙语、法语和德语。

此外，由于经过训练，EVI 2 实际上可以自行学习多种语言，而无需人类工程师直接要求或指导。

“我们并没有专门训练模型来输出某些语言，但它仅从数据中就学会了说法语、西班牙语、德语、波兰语等语言，”考恩解释道。

定价和可升级性

EVI 2 的一大突出优势是其成本效益。Hume AI 已将 EVI 2 的价格降至每分钟 0.072 美元，与旧款 EVI 1 型号（每分钟 0.102 美元）相比降低了 30%。

企业用户还可以享受批量折扣，从而使该平台能够扩展到具有大批量需求的企业。

然而，根据我们的计算， Open AI 目前通过其语音 API 提供的文本转语音产品（不是新的 GPT-4o/ChatGPT 高级语音模式）似乎比 Hume EVI 2 便宜得多，OpenAI TTS 每 1,000 个字符的成本为 0.015 美元（约合每分钟语音 0.015 美元），而 Hume 的 EVI 2 每分钟的成本为 0.072 美元。

EVI 2 目前处于测试阶段，可通过 Hume 的 API 进行集成。

开发人员可以使用 EVI 1 相同的工具和配置选项，实现顺利迁移。

此外，希望继续使用 EVI 1 的开发人员可以使用到 2024 年 12 月，届时 Hume 计划淘汰旧版 API。

EVI 2 代表着 Hume AI 朝着优化人工智能造福人类的使命迈出了重要一步。该模型旨在通过使其响应与用户的情感线索和偏好保持一致来提高用户满意度。在接下来的几个月里，Hume 将继续改进该模型，包括扩大其语言支持并微调其遵循复杂指令的能力。

据 Hume AI 称，EVI 2 还可以与其他大型语言模型 (LLM) 无缝协作并与网络搜索等工具集成，确保开发人员可以使用其应用程序的全套功能。

表情测量API和自定义模型API

除了 EVI 2，Hume AI 还继续提供其表达测量 API 和自定义模型 API，为希望构建情感响应 AI 应用程序的开发人员提供额外的功能层。

•表情测量 API：此 API 允许开发人员测量语音韵律、面部表情、声音爆发和情感语言。此 API 的定价为每分钟 0.0276 美元（带音频的视频），企业客户可享受批量折扣。

•自定义模型 API：对于需要训练和部署自定义 AI 模型的用户，Hume 提供免费的模型训练，其推理成本与表达测量 API 相匹配。

休谟和 EVI 2 的下一步计划是什么？

Hume AI 计划在未来几个月对 EVI 2 进行进一步改进，包括增强对更多语言的支持、更自然的语音输出以及提高可靠性。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/shui-xu-yao-gpt4o-gao-ji-yu-yin-mo-shi-hume-de-evi-2-xian

Like (0)

王浩然作者

0 0

DataStax 首席执行官：2025 年将是我们真正看到人工智能转型的一年

Previous 2024年9月22日下午8:00

“先收获，后解密”：黑客为何在等待量子计算

Next 2024年9月22日下午10:00

AI前沿

Meta 的 AI 负责人表示，世界模型是实现“人类水平的 AI”的关键，但可能还需要 10 年时间

当今的人工智能模型真的能像人脑一样记忆、思考、规划和推理吗？一些人工智能实验室会让你相信它们是的，但根据 Meta 首席人工智能科学家 Yann LeCun 的说法，答案是否定的。…

点点
2024年10月19日
000
AI前沿

网络防御的NFL战术：安全领袖如何闪电突击、灵活转向并取得胜利

在当今数字化时代，网络安全已成为企业运营的核心要素。面对层出不穷的网络威胁，安全领袖们需要制定一套高效且灵活的防御策略，如同美式足球（橄榄球）比赛中的战术布局一样，既要快速突击，又…

王浩然
2025年2月23日
000
AI前沿

谷歌推出基于Gemini的新文本嵌入模型‌

近日，谷歌在人工智能领域再度发力，正式推出了一款基于Gemini架构的全新文本嵌入模型。这一创新之举标志着谷歌在自然语言处理技术上取得了新的突破。据悉，该模型采用了先进的Gemi…

王浩然
2025年3月10日
000
AI前沿

以下是 2024 年融资金额达 1 亿美元或以上的 39 家美国 AI 初创公司的完整名单

对于某些人来说，人工智能疲劳是真实存在的，但显然风险投资者还没有厌倦这一类别。第三季度，人工智能交易继续主导风险投资。根据数据，人工智能公司在第三季度筹集了 189 亿美元。这一…

王浩然
2024年10月12日
000
AI前沿

Encord CEO Eric Landau访谈：AI如何颠覆行业？

Eric Landau 是Encord的首席执行官兼联合创始人，Encord 是一个计算机视觉主动学习平台。Eric 曾是全球股票 delta-one 部门的首席量化研究员，将数千…

点点
2024年9月11日
000
AI前沿

DeepSeek 真的在向中国发送数据吗？让我们来解密

上周，中国初创公司DeepSeek发布了性能强大但成本低廉的开源版本 DeepSeek-R1，在人工智能界引起轩然大波。该模型使用纯强化学习 (RL)，在一系列基准测试中与 Ope…

王浩然
2025年1月28日
000
AI前沿

生成式人工智能热潮背后的风险：为何人们越来越谨慎

在不久的将来，硅谷可能会回顾最近发生的事件，认为这是生成式人工智能热潮走得太远的标志。今年夏天，投资者质疑顶级人工智能股票能否维持其高估值，因为大规模人工智能支出缺乏回报。随着秋…

点点
2024年10月11日
000
AI前沿

Google Gemini 2.0：这会是真正自主人工智能的开始吗？

谷歌今天发布了Gemini 2.0，标志着其向能够独立完成复杂任务的 AI 系统迈出了雄心勃勃的一步，并引入了原生图像生成和多语言音频功能——这些功能使这家科技巨头在日益激烈的 A…

王浩然
2024年12月12日
000
AI前沿

人工智能能力的增长速度快于硬件：去中心化可以缩小差距吗？

过去两年，人工智能能力呈爆炸式增长，ChatGPT、Dall-E 和 Midjourney 等大型语言模型 (LLM) 已成为日常使用的工具。当您阅读本文时，生成式人工智能程序正在…

AI News
2024年8月27日
000
AI前沿

为什么必须挑战人工智能独裁者才能做得更好

如果说我们从人工智能时代学到了什么，那就是这个行业正在努力应对巨大的能源挑战。这些挑战既是字面意义上的挑战——比如如何找到满足人工智能数据中心巨大能源需求的方法——也是比喻意义上的…

点点
2024年9月5日
000
AI前沿

亚马逊与 Anthropic 合作增强 Alexa

亚马逊正准备推出其 Alexa 语音助手的改进版本，预计将于今年 10 月美国购物旺季之前上市。这项新技术在公司内部被称为“Remarkable”，将由 Anthropic 的C…

点点
2024年9月4日
000
AI前沿

解析 Grok 3：可能重新定义行业的 AI 模型

自推出以来不到两年，xAI 已经推出了迄今为止可以说是最先进的 AI 模型。Grok 3 在所有关键基准以及用户评估的Chatbot Arena上都匹敌或超越了最先进的模型，而且它…

王浩然
2025年2月20日
000
AI前沿

尽管人工智能军备竞赛激烈，但我们仍将迎来多模式未来

每周，有时甚至每天，都会有一个新的最先进的人工智能模型诞生。随着我们进入 2025 年，新模型的发布速度令人眼花缭乱，甚至令人精疲力竭。过山车的曲线继续呈指数级增长，疲劳和惊奇已成…

王浩然
2024年12月30日
000
AI前沿

ChatGPT 建议 200 万人从其他地方获取选举新闻 — — 并拒绝了 25 万个 deepfakes

现在选举已经结束，我们可以开始分析了。由于这是人工智能聊天机器人首次在选民的信息获取中扮演重要角色，因此即使是近似的数字也值得思考。例如，OpenAI 表示，它告诉大约 200 万…

王浩然
2024年11月11日
000
AI前沿

代理型AI如何塑造软件交付的未来

一、引言随着技术的不断进步，软件交付领域正经历着前所未有的变革。其中，代理型AI（Agentic AI）作为新兴技术，正逐步成为推动这一变革的关键力量。本文将深入探讨代理型AI如…

王浩然
2025年3月15日
000
AI前沿

研究发现法学硕士可以识别自己的错误

大型语言模型 (LLM) 的一个众所周知的问题是它们倾向于生成不正确或无意义的输出，通常被称为“幻觉”。虽然许多研究都集中于从用户的角度分析这些错误，但由以色列理工学院、谷歌研究院…

王浩然
2024年11月1日
000
AI前沿

Babbel 联合创始人 Markus Witte 将再次执掌公司，接替首席执行官 Arne Schepker

总部位于柏林的热门语言学习平台 Babbel 的首席执行官 Arne Schepker 即将卸任，该公司联合创始人兼前首席执行官 Markus Witte 将重返公司，带领公司“进…

点点
2024年10月13日
000
AI前沿

构建一个对话式人工智能需要花费多少钱？

超过 40% 的营销、销售和客户服务组织已采用生成式人工智能，仅次于 IT 和网络安全。在所有生成式人工智能技术中，对话式人工智能将在这些领域迅速普及，因为它能够弥合企业与客户之间…

王浩然
2024年9月15日
000
AI前沿

Stable Diffusion 3.5 登陆 Amazon Bedrock：这对企业 AI 工作流程意味着什么

创建精美的生成式 AI 图像可能很有趣也很有用，但这并不是企业所需要的全部。企业文本转图像生成不仅仅是创建图像。它还涉及与现有工作流程和其他企业 AI 工具的集成。这是Stabl…

王浩然
2024年12月20日
000
AI前沿

为什么情境感知型人工智能代理将在 2025 年赋予我们超能力

2025 年将是大型科技公司从向我们出售越来越强大的工具转变为向我们出售越来越强大的能力的一年。工具和能力之间的区别微妙而深刻。我们将工具用作帮助我们克服有机限制的外部物品。从汽车…

王浩然
2025年1月6日
000