由前谷歌 DeepMinder/计算科学家 Alan Cowen 共同创立并领导的人工智能初创公司Hume时,正是 2024 年春天,该公司刚刚在 B 轮私募股权融资中筹集了 5000 万美元,用于开发语音人工智能助手的独特方法。
Hume 以 18 世纪苏格兰哲学家大卫休谟 (David Hume) 的名字命名,它使用不同说话者的跨文化录音,并结合自我报告的情绪调查结果,创建了专有的 AI 模型,该模型可在多种语言和方言中提供逼真的声音表达和理解。
即使在那时,Hume 也是首批直接提供应用程序编程接口 (API) 的 AI 模型提供商之一,允许第三方开发人员和外部企业连接应用程序或在其模型之上构建新应用程序,或简单地将其合并到某个功能中,例如接听客户服务电话并从组织的数据库中检索适当的上下文答案。
现在,在这六个月里,Hume 一直忙于构建该 AI 语音模型和 API 的更新版本。新的Empathic Voice Interface 2 (EVI 2)于上周发布,并引入了一系列增强功能,旨在提高自然度、情感响应能力和可定制性,同时显著降低开发人员和企业的成本。它的延迟也降低了 40%,通过 API 比其前身便宜 30%。
Cowen 说:“我们希望开发人员将其构建到任何应用程序中,创建他们想要的品牌声音,并根据用户进行调整,使声音让人感到值得信赖和个性化。”
事实上,考恩表示,他看到并希望看到更多的企业不再将人们踢出他们的应用程序,而是将他们发送到单独的配备 EVI 的 AI 语音助手来处理技术和客户支持问题。
相反,他提到,尤其得益于 EVI 2 的设计,现在最终用户可以直接在应用程序内连接到由 EVI 2 提供支持的语音助手,并且在许多情况下可以获得更好的用户体验,并且由 EVI 2 提供支持的语音助手现在可以获取信息或代表用户采取行动,而无需将他们连接到任何外部电话号码——如果使用 Hume 的开发人员工具以正确的方式连接到底层客户的应用程序。
Cowen说:“开发人员开始意识到他们不必将声音放在电话线上;他们可以将其放在应用程序的任何地方。”
例如,如果我想在网上账户中更改我的地址信息,我只需使用集成的 EVI 2 即可要求它帮我更改地址,而不必让它引导我完成所有步骤和屏幕。
适时发布
EVI 2 的发布时机对 Hume 来说尤其有利。尽管不像 OpenAI 或潜在竞争对手 Anthropic 那样广为人知(据报道,后者正在开发其投资者亚马逊的 Alexa 语音助手的改版版本),但 Hume 已经准备好在 Anthropic 和 OpenAI 之前推出一款功能强大、尖端的类人语音助手,企业可以立即利用它。
相比之下,5 月份展示的由 GPT-4o 模型驱动的 OpenAI ChatGPT 高级语音模式仍然只向少数用户开放。此外,Cowen 认为 EVI 2 在检测用户情绪并用自己的情绪化话语做出反应方面实际上更胜一筹。
“EVI 2 是完全端到端的。它只是接收音频信号并输出音频信号,这更像 [OpenAI] 的语音 GPT 的做法,”。也就是说,EVI 2 和 GPT-4o 都将音频信号波形和数据直接转换为 token,而不是先将它们转录为文本并输入到语言模型中。第一个 EVI 模型使用了后一种方法——但在独立演示使用中,它的速度和响应速度仍然令人印象深刻。
对于希望构建语音 AI 功能以脱颖而出,或通过使用语音 AI 代替人工呼叫中心来降低成本或保持低成本的开发人员和企业来说,Hume 的 EVI 2 可能是一个有吸引力的选择。
EVI 2 的对话式 AI 进步
Cowen 和 Hume 声称 EVI 2 可以实现更快、更流畅的对话、亚秒级响应时间和各种语音定制。
他们表示,EVI 2 旨在实时预测和适应用户偏好,使其成为从客户服务机器人到虚拟助手等广泛应用的理想选择。
EVI 2 的主要改进包括先进的语音生成系统,该系统可增强语音的自然度和清晰度,以及情商,可帮助模型理解用户的语气并相应地调整其反应。
EVI 2 还支持语音调制等功能,允许开发人员根据音调、鼻音和性别等参数对语音进行微调,使其具有多功能性和可定制性,并且不存在与语音克隆相关的风险。
VentureBeta 还报道过许多专有和开源语音 AI 模型。网络上也有人发布了两个或多个语音 AI 模型进行对话的例子,结果却产生了奇怪、令人不安的结果,比如痛苦的尖叫声。
当我问到这些例子时,考恩似乎觉得很有趣,但并不太担心这些例子发生在休谟身上。
“这些模型肯定存在问题。你必须用正确的数据从模型中剔除这些问题,我们在这方面非常擅长,”他告诉我。 “也许偶尔有人会试图玩弄它,但这种情况很少见。”
此外,考恩表示,休姆没有计划提供“语音克隆”服务,即获取说话者的声音,并从几秒钟长的样本中复制出来,以便用来朗读任何给定的文本。
“当然,我们可以用我们的模型克隆声音,但我们还没有提供这种服务,因为风险太高,而且好处往往不明确,”考恩说。“人们真正想要的是能够定制自己的声音。我们开发了新的声音,你可以创造不同的个性,这对开发人员来说似乎比克隆特定的声音更令人兴奋。”
全新功能集
EVI 2 引入了几个有别于其前代产品的新功能:
•响应时间更快:与 EVI 1 相比,EVI 2 的延迟减少了 40%,平均响应时间现在在 500 毫秒到 800 毫秒之间。这一改进提高了对话的流畅度,使其感觉更自然、更即时。
•情感智能:通过将语音和语言集成到单个模型中,EVI 2 可以更好地理解用户输入背后的情感背景。这使得它能够生成更合适、更富有同理心的回应。
•可自定义的声音:新的语音调制方法使开发人员能够调整各种语音参数,例如性别和音调,以创建针对特定应用程序或用户量身定制的独特声音。此自定义功能不依赖于语音克隆,为需要灵活而安全的语音选项的开发人员提供了更安全的替代方案。
•对话提示:EVI 2 允许用户动态修改 AI 的说话风格。例如,用户可以在对话过程中提示它说话更快或听起来更兴奋,从而实现更具吸引力的互动。
•多语言功能:虽然 EVI 2 目前支持英语,但 Hume 计划在 2024 年底前推出对多种语言的支持,包括西班牙语、法语和德语。
此外,由于经过训练,EVI 2 实际上可以自行学习多种语言,而无需人类工程师直接要求或指导。
“我们并没有专门训练模型来输出某些语言,但它仅从数据中就学会了说法语、西班牙语、德语、波兰语等语言,”考恩解释道。
定价和可升级性
EVI 2 的一大突出优势是其成本效益。Hume AI 已将 EVI 2 的价格降至每分钟 0.072 美元,与旧款 EVI 1 型号(每分钟 0.102 美元)相比降低了 30%。
企业用户还可以享受批量折扣,从而使该平台能够扩展到具有大批量需求的企业。
然而,根据我们的计算, Open AI 目前通过其语音 API 提供的文本转语音产品(不是新的 GPT-4o/ChatGPT 高级语音模式)似乎比 Hume EVI 2 便宜得多,OpenAI TTS 每 1,000 个字符的成本为 0.015 美元(约合每分钟语音 0.015 美元),而 Hume 的 EVI 2 每分钟的成本为 0.072 美元。
EVI 2 目前处于测试阶段,可通过 Hume 的 API 进行集成。
开发人员可以使用 EVI 1 相同的工具和配置选项,实现顺利迁移。
此外,希望继续使用 EVI 1 的开发人员可以使用到 2024 年 12 月,届时 Hume 计划淘汰旧版 API。
EVI 2 代表着 Hume AI 朝着优化人工智能造福人类的使命迈出了重要一步。该模型旨在通过使其响应与用户的情感线索和偏好保持一致来提高用户满意度。在接下来的几个月里,Hume 将继续改进该模型,包括扩大其语言支持并微调其遵循复杂指令的能力。
据 Hume AI 称,EVI 2 还可以与其他大型语言模型 (LLM) 无缝协作并与网络搜索等工具集成,确保开发人员可以使用其应用程序的全套功能。
表情测量API和自定义模型API
除了 EVI 2,Hume AI 还继续提供其表达测量 API 和自定义模型 API,为希望构建情感响应 AI 应用程序的开发人员提供额外的功能层。
•表情测量 API:此 API 允许开发人员测量语音韵律、面部表情、声音爆发和情感语言。此 API 的定价为每分钟 0.0276 美元(带音频的视频),企业客户可享受批量折扣。
•自定义模型 API:对于需要训练和部署自定义 AI 模型的用户,Hume 提供免费的模型训练,其推理成本与表达测量 API 相匹配。
休谟和 EVI 2 的下一步计划是什么?
Hume AI 计划在未来几个月对 EVI 2 进行进一步改进,包括增强对更多语言的支持、更自然的语音输出以及提高可靠性。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/shui-xu-yao-gpt4o-gao-ji-yu-yin-mo-shi-hume-de-evi-2-xian