Hume 推出语音控制功能,让用户和开发者可以发出自定义 AI 声音

Hume 推出语音控制功能,让用户和开发者可以发出自定义 AI 声音

Hume AI是一家专注于情感智能语音界面的初创公司,它推出了语音控制,这是一项实验性功能,使开发人员和用户能够通过精确调节声音特征来创建自定义 AI 声音 – 无需编码、AI 提示工程或声音设计技能。

此版本以公司早期的 Empathic Voice Interface 2 (EVI 2) 奠定的基础为基础,引入了自然性、情感响应和定制方面的高级功能。

EVI 2 和语音控制都避免了语音克隆的风险,Cowen 表示这种做法存在道德和实践挑战。

相反,Hume 专注于提供工具来创建符合用户需求的独特、富有表现力的声音,例如客户服务聊天机器人、数字助理、导师、指南或辅助功能。

超越预设的 AI 语音,迈向定制化解决方案

语音控制为开发人员提供了从 10 个不同维度调整声音的能力,其中包括:

“男性/女性:性别的发声,范围在更男性化和更女性化之间。

自信度:声音的坚定度,介于胆怯和大胆之间。

浮力:声音的密度,范围介于放气和浮力之间。

自信:声音的确定程度,介于害羞和自信之间。

热情:声音中的兴奋,介于平静和热情之间。

鼻音:声音的开放度,范围在清晰与鼻音之间。

放松度:声音中的压力,介于紧张与放松之间。

平滑度:声音的质感,介于平滑和断奏之间。

温和:声音背后的活力,介于温和与有力之间。

紧密度:声音的包容度,范围介于紧密和气息之间。”

这款无需编码的工具允许用户通过虚拟屏幕滑块实时微调语音属性。它目前在 Hume 的虚拟游乐场中可用,需要免费用户注册才能访问。

该版本解决了人工智能行业的一个关键痛点:对预设声音的依赖,这往往无法满足品牌或应用程序的特定需求,或者与语音克隆相关的风险。

这种对定制化的关注与休姆开发具有情感细微差别的语音人工智能的更广泛目标相一致。

2024 年 9 月,随着EVI 2 的推出,该公司在语音 AI 方面的努力得到了凸显,该公司称这是对其前代产品的重大升级。

EVI 2 将延迟降低了 40%,成本降低了 30%,并扩展了语音调制功能,为开发人员提供了一种比语音克隆更安全的替代方案。

滑块 > 文字提示

Hume 的研究驱动方法在其产品开发中发挥着核心作用。该公司由前谷歌 DeepMinder Alan Cowen 共同创立,采用基于跨文化语音记录和情感调查数据的专有模型。

这种植根于情感科学的方法构成了 EVI 2 和新推出的语音控制的支柱。

语音控制通过解决人类感知声音的细微、通常难以言喻的方式扩展了这些原则。

该工具的基于滑块的界面反映了声音的常见感知品质,例如浮力或自信度,而不会试图通过基于文本的提示过度简化这些属性。

开发人员工具

语音控制目前已推出测试版本,并与 Hume 的 Empathic Voice Interface (EVI) 集成,使其可用于广泛的应用程序。

开发人员可以选择基本语音,调整其特性,并实时预览结果。此过程可确保会话间的可重复性和稳定性,这是客户服务机器人或虚拟助手等实时应用程序的关键功能。

EVI 2 的影响在语音控制功能上显而易见。早期型号引入了对话提示和多语言功能等功能,这些功能拓宽了语音 AI 应用的范围。

例如,EVI 2 支持亚秒级响应时间,实现自然、即时的对话。它还允许在交互过程中动态调整说话风格,使其成为企业的多功能工具。

在竞争激烈的市场中脱颖而出

Hume 专注于语音定制和情商,这使其成为语音 AI 领域的强大竞争对手,甚至可以与资金雄厚的竞争对手抗衡,例如拥有高级语音模式的 OpenAI 和 ElevenLabs,这两家公司都提供预设声音库。

Hume 继续在其语音 AI 创新方法的基础上继续发展。扩展语音控制的计划包括引入更多可修改维度、在极端调整下改善语音质量以及增加可用的基本语音范围。

随着语音控制的推出,Hume 巩固了其在语音 AI 创新领域的领先地位,提供优先考虑定制、情商和实时适应性的工具。开发人员现在可以通过 Hume 的平台访问语音控制,这标志着 AI 驱动的语音解决方案的发展又向前迈进了一步。

原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/hume-tui-chu-yu-yin-kong-zhi-gong-neng-rang-yong-hu-he-kai

Like (0)
王 浩然的头像王 浩然作者
Previous 2024年12月3日
Next 2024年12月3日

相关推荐

发表回复

Please Login to Comment