早在 2016 年,Hammad Syed 和前 WhatsApp 工程师 Mahmoud Felfel 就认为为 Medium 文章开发一款文本转语音 Chrome 扩展程序会很不错。这款扩展程序可以大声朗读任何 Medium 文章,并在 Product Hunt 上亮相。一年后,它催生了整个业务。
Syed 告诉 TechCrunch:“我们看到了帮助个人和组织为其应用程序创建逼真的音频内容的更大机会。”“无需构建自己的模型,他们就可以比以往更快地部署人类质量的语音体验。”
Syed 和 Felfel 的公司PlayAI(前身为 PlayHT)将自己定位为“人工智能的语音界面”。客户可以从多个预定义的声音中进行选择,也可以克隆声音,并使用 PlayAI 的 API 将文本转语音功能集成到他们的应用程序中。
切换开关允许用户调整声音的语调、节奏和音调。
PlayAI 还提供了一个“游乐场”,用户可以上传文件来生成朗读版本,以及一个仪表板,用于创建更精致的音频旁白和画外音。最近,该公司涉足“人工智能代理”领域,推出了可用于自动执行任务(例如在企业接听客户电话)的工具。
PlayAI 最有趣的实验之一是 PlayNote,它将 PDF、视频、照片、歌曲和其他文件转换成播客风格的节目、朗读摘要、一对一辩论,甚至儿童故事。与 Google 的NotebookLM一样,PlayNote 会根据上传的文件或 URL 生成脚本,并将其输入到一组 AI 模型中,这些模型共同制作出成品。
我试用了一下,效果还不错。PlayNote 的“播客”设置制作的剪辑在质量上与 NotebookLM 差不多,而且该工具能够摄取照片和视频,因此创作出了一些引人入胜的作品。根据我最近吃的鸡肉酱菜的照片,PlayNote 编写了一个五分钟的播客脚本。真的,我们生活在未来。
当然,与所有 AI 工具一样,该工具也会不时产生奇怪的伪像和幻觉。虽然 PlayNote 会尽力将文件调整为您选择的格式,但不要指望枯燥的法律文件能成为最好的源材料。
PlayNote 的播客格式是由 PlayAI 的最新模型 PlayDialog 实现的,Syed 表示,该模型可以使用对话的“背景和历史”来生成反映对话流程的语音。“使用对话的历史背景来控制韵律、情感和节奏,PlayDialog 可以自然地传递对话,语调也恰如其分,”他继续说道。
PlayAI 是 ElevenLabs 的竞争对手,过去曾因其对安全的放任态度而受到批评。该公司的语音克隆工具要求用户勾选一个方框,表明他们“拥有克隆声音的所有必要权利或同意”——但没有任何强制机制。我毫不费力地从录音中克隆了卡玛拉·哈里斯的声音。
考虑到诈骗和深度伪造的可能性,这令人担忧。
PlayAI 还声称它会自动检测并屏蔽“性、冒犯、种族主义或威胁性内容”。但在我的测试中情况并非如此。我使用 Harris 克隆来生成我无法在此处嵌入的语音,并且从未看到过警告消息。
与此同时,PlayNote 的社区门户充斥着公开生成的内容,其中有一些文件标题露骨,例如“女人进行口交”。
Syed 告诉我,PlayAI 对未经同意克隆声音的举报(例如此举报)的回应是屏蔽相关用户并立即删除克隆声音。他还指出,PlayAI 的最高保真度克隆声音需要 20 分钟的声音样本,其价格高于大多数骗子愿意支付的价格(每年 49 美元或每月 99 美元)。
“PlayAI 制定了多项道德保障措施,”Syed 表示。“例如,我们实施了强大的机制来识别语音是否是使用我们的技术合成的。如果报告任何滥用行为,我们会立即核实内容来源,并采取果断行动纠正情况,防止进一步违反道德规范。”
我当然希望情况确实如此——希望 PlayAI 不再以已故科技名人为主题进行营销活动。如果 PlayAI 的审核不够严格,它可能会面临田纳西州的法律挑战,该州有一项法律禁止平台托管人工智能未经授权录制人的声音。
PlayAI 训练语音克隆 AI 的方法也有点模糊。该公司不愿透露其模型的数据来源,表面上是出于竞争原因。
Syed 表示:“PlayAI 主要使用开放数据集(以及授权数据)和内部构建的专有数据集。我们不使用产品的用户数据进行训练,也不使用创作者来训练模型。我们的模型经过数百万小时的真实人类语音训练,能够以多种语言和口音传递男性和女性的声音。”
大多数人工智能模型都是在公共网络数据上训练的,其中一些数据可能受版权保护或受限制许可。许多人工智能供应商认为, 合理使用 原则可以保护他们免受版权索赔。但这并没有阻止数据所有者提起集体诉讼,指控供应商未经许可使用他们的数据。
PlayAI 尚未被起诉。然而,其服务条款表明,如果用户受到法律威胁,它不会为他们辩护。
PlayAI 等语音克隆平台面临演员的批评,他们担心配音最终会被人工智能生成的声音所取代,而且演员几乎无法控制他们的数字替身的使用方式。
好莱坞演员工会美国演员工会(SAG-AFTRA)已与一些初创公司达成协议,包括在线人才市场 Narrativ 和 Replica Studios,以达成其所称的“公平”和“合乎道德”的声音克隆协议。但即使是这些合作也受到了包括美国演员工会(SAG-AFTRA)成员在内的严格审查。
在加利福尼亚州,法律要求依赖表演者数字复制品(例如克隆声音)的公司提供复制品的预期用途说明,并与表演者的法律顾问进行协商。法律还要求娱乐业雇主在使用已故表演者的数字克隆品之前,必须征得其遗产的同意。
Syed 表示,PlayAI“保证”通过其平台生成的每个语音克隆都是创作者独有的。“这种独有性对于保护用户的创作权利至关重要,”他补充道。
日益增加的法律负担是 PlayAI 面临的一个不利因素。另一个因素是竞争。Papercup 、Deepdub、Acapela、Respeecher和Voice.ai ,以及亚马逊、微软和谷歌等大型科技公司都提供 AI 配音和语音克隆工具。据说,上述最知名的语音克隆供应商之一 ElevenLabs 正在以超过 30 亿美元的估值筹集新资金。
不过,PlayAI 并不急于寻找投资者。本月,这家由 Y Combinator 支持的公司完成了一轮 2100 万美元的种子轮融资,由 500 Startups 和 Kindred Ventures 联合领投,Race Capital、500 Global 和 Soma Capital 参投。
Syed 表示:“新资本将用于投资我们的生成式 AI 语音模型和语音代理平台,并缩短企业打造人类品质语音体验的时间。”他补充说,PlayAI 计划扩大其 40 名员工的员工队伍。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/playai-gen-ju-zhi-ling-ke-long-sheng-yin