人工智能如何解决“鸡尾酒会问题”及其对未来音频技术的影响

点点 • 2024年9月26日下午6:00 • AI前沿 • 187 views

想象一下，你参加一场人头攒动的活动中，周围都是声音和背景噪音，然而你却能够专心与面前的人交谈。这种在嘈杂背景中分离出特定声音的能力被称为鸡尾酒会问题，该术语由英国科学家 Colin Cherry 于 1958 年首次提出，用来描述人类大脑的这种非凡能力。几十年来，人工智能专家一直在努力用机器模仿人类的这种能力，但这仍然是一项艰巨的任务。然而，人工智能的最新进展开辟了新天地，为该问题提供了有效的解决方案。这为音频技术的变革性转变奠定了基础。在本文中，我们将探讨人工智能在解决鸡尾酒会问题方面取得的进展以及它对未来音频技术的潜力。在深入研究人工智能如何解决这个问题之前，我们必须首先了解人类是如何解决这个问题的。

人类如何破解鸡尾酒会难题

人类拥有独特的听觉系统，可以帮助我们在嘈杂的环境中辨别方向。我们的大脑以双耳方式处理声音，这意味着我们使用双耳的输入来检测时间和音量的细微差异，从而帮助我们检测声音的位置。这种能力使我们能够专注于我们想听到的声音，即使其他声音也在争夺我们的注意力。

除了听觉之外，我们的认知能力也进一步增强了这一过程。选择性注意力可以帮助我们过滤掉不相关的声音，让我们专注于重要信息。同时，语境、记忆和视觉线索（如唇读）有助于将语音与背景噪音区分开来。这种复杂的感官和认知处理系统非常高效，但将其复制到机器智能中仍然令人望而生畏。

为何人工智能依然面临挑战？

从在繁忙的咖啡馆中识别我们命令的虚拟助手到帮助用户专注于单个对话的助听器，AI 研究人员一直在努力复制人脑解决鸡尾酒会问题的能力。这一探索促成了盲源分离 (BSS)和独立成分分析 (ICA)等技术的开发，旨在识别和隔离不同的声源以进行单独处理。虽然这些方法在受控环境中显示出良好的前景 – 其中声源是可预测的并且频率上不会显着重叠 – 但它们在区分重叠的声音或实时隔离单个声源时会遇到困难，特别是在动态和不可预测的环境中。这主要是因为缺乏人类自然利用的感官和情境深度。没有视觉信号或对特定音调的熟悉程度等额外提示，AI 在管理日常环境中遇到的复杂、混乱的声音混合方面面临挑战。

WaveSciences 如何利用 AI 解决问题

2019 年，由电气工程师 Keith McElveen 于 2009 年创立的美国公司WaveSciences在解决鸡尾酒会问题方面取得了突破。他们的解决方案是空间掩蔽释放 (SRM)，利用人工智能和声音传播的物理学将说话者的声音与背景噪音隔离开来。由于人类听觉系统会处理来自不同方向的声音，因此 SRM 使用多个麦克风来捕捉声波在空间中的传播。

这一过程中的一个关键挑战是声波在环境中不断反弹和混合，因此很难从数学上分离出特定的声音。然而，WaveSciences 利用人工智能开发了一种方法，可以精确定位每个声音的来源，并根据其空间位置过滤掉背景噪音和环境声音。这种适应性使 SRM 能够实时处理变化，例如移动的扬声器或引入新的声音，这使得它比以前那些难以应对真实世界音频设置的不可预测性的方法更有效。这一进步不仅增强了在嘈杂环境中专注于对话的能力，还为音频技术的未来创新铺平了道路。

人工智能技术的进步

人工智能（尤其是深度神经网络）的最新进展显著提高了机器解决鸡尾酒会问题的能力。深度学习算法在混合音频信号的大型数据集上进行训练，擅长识别和分离不同的声源，即使在重叠的语音场景中也是如此。BioCPPNet 等项目已通过分离动物发声成功证明了这些方法的有效性，表明它们适用于人类语音以外的各种生物环境。研究人员已经表明，深度学习技术可以将在音乐环境中学习到的语音分离应用到新情况中，从而增强模型在不同环境中的稳健性。

神经波束形成进一步增强了这些功能，它利用多个麦克风来集中注意力于特定方向的声音，同时最大限度地降低背景噪音。该技术通过根据音频环境动态调整焦点来改进。此外，AI 模型采用时频掩蔽，通过音频源的独特频谱和时间特性来区分音频源。先进的说话人分类系统可以隔离声音并跟踪单个说话人，从而促进有组织的对话。AI 可以通过结合视觉提示（例如嘴唇运动）和音频数据来更准确地隔离和增强特定声音。

鸡尾酒会问题的实际应用

这些发展为音频技术的进步开辟了新的途径。一些实际应用包括：

法医分析：据BBC 报道，语音识别和处理 (SRM) 技术已在法庭上用于分析音频证据，特别是在背景噪音使说话者及其对话的识别变得困难的情况下。通常，在这种情况下，录音无法用作证据。然而，SRM 在法医环境中已被证明是无价之宝，成功解码了关键音频以供法庭出示。
降噪耳机：研究人员为降噪耳机开发了一个名为“目标语音听力”的原型人工智能系统，该系统允许用户选择特定人的声音以保持可听性，同时消除其他声音。该系统使用基于鸡尾酒会问题的技术，在计算能力有限的耳机上高效运行。它目前是一个概念验证，但创建者正在与耳机品牌商谈可能采用该技术。
助听器：现代助听器在嘈杂的环境中经常出现问题，无法将特定的声音与背景声音隔离开来。虽然这些设备可以放大声音，但它们缺乏先进的过滤机制，无法使人耳在众多噪音中专注于单个对话。这种限制在拥挤或动态环境中尤其具有挑战性，因为这些环境中存在重叠的声音和波动的噪音水平。鸡尾酒会问题的解决方案可以通过隔离所需声音同时最大限度地减少周围噪音来增强助听器的性能。
电信：在电信领域，人工智能可以通过过滤背景噪音和强调说话者的声音来提高通话质量。这可以使通信更清晰、更可靠，尤其是在繁忙的街道或拥挤的办公室等嘈杂环境中。
语音助手：亚马逊的 Alexa 和苹果的 Siri 等人工智能语音助手可以在嘈杂的环境中发挥更大的作用，并更有效地解决鸡尾酒会问题。这些进步使设备能够准确理解和响应用户命令，即使在背景聊天期间也是如此。
音频录制和编辑：人工智能技术可以协助音频工程师进行后期制作，通过隔离录制材料中的单个声源。此功能可实现更清晰的音轨和更高效的编辑。

底线

鸡尾酒会问题是音频处理领域的一大难题，而人工智能技术已取得了显著进展。空间掩蔽释放 (SRM) 和深度学习算法等创新正在重新定义机器在嘈杂环境中隔离和分离声音的方式。这些突破增强了日常体验，例如在拥挤的环境中实现更清晰的对话，以及改进助听器和语音助手的功能。此外，它们还具有为法医分析、电信和音频制作应用带来变革的潜力。随着人工智能的不断发展，其模仿人类听觉能力的能力将推动音频技术取得更大进步，最终重塑我们在日常生活中与声音互动的方式。

原创文章，作者：点点，如若转载，请注明出处：https://www.dian8dian.com/ren-gong-zhi-neng-ru-he-jie-jue-ji-wei-jiu-hui-wen-ti-ji-qi

AI WaveSciences 人工智能深度神经网络语音助手

Like (0)

点点

0 0

获得准确结果的五大反向视频搜索工具

Previous 2024年9月26日

2024年电子游戏发布时间表在“从《星球大战不法分子》中学习”后，《刺客信条：阴影》推迟到2025年2024年电子游戏发布时间表

Next 2024年9月26日

AI前沿

OpenAI获英伟达B200最强超算，GPT-5训练无底洞，微软算力却严重不足

就在刚刚，OpenAI收到了来自英伟达的首批工程版DGX B200！此情此景，不得不让人联想到，刚刚成立的OpenAI在接收英伟达初代DGX时的画面。如今，早已物是人非。依然…

点点
2024年10月9日
000
AI前沿

实时数据、区块链和人工智能：智能应用的游戏规则改变者

当我们谈论实时数据时，我们指的是那些在创建和获取后即可使用的信息。数据不是被存储，而是在收集后立即直接转发到应用程序，并立即可用（没有任何延迟），以支持实时、即时的决策。实时数据…

点点
2024年10月15日
000
AI前沿

Google 的 DataGemma AI 是统计向导

谷歌正在扩大其 AI 模型系列，同时解决该领域的一些最大问题。今天，该公司推出了 DataGemma，这是一对开源的、指令调整的模型，它们朝着缓解幻觉挑战迈出了一步——大型语言模型…

王浩然
2024年9月15日
000
AI前沿

Together AI 有望通过私有云企业 AI 平台实现更快的推理速度和更低的成本

在公共云中运行人工智能可能会给企业带来许多有关数据隐私和安全的担忧。这就是为什么一些企业会选择在私有云或本地环境中部署 AI。Together AI是寻求解决挑战的供应商之一，这…

王浩然
2024年9月24日
000
AI前沿

SambaNova 和 Gradio 让每个人都能使用高速人工智能——其工作原理如下

SambaNova Systems和Gradio推出了一项新的集成，让开发人员只需几行代码即可访问最快的 AI 推理平台之一。此次合作旨在让高性能 AI 模型更易于访问，并加快开发…

王浩然
2024年10月19日
000
AI前沿

人形机器人为中国汽车制造商制造汽车

一家中国汽车制造商推出了一款新型轮式人形机器人，据称该机器人将于 2026 年开始应用于汽车制造。国有企业广州汽车集团在上海的一场活动上发布了第三代GoMate。 GoMate…

王浩然
2025年1月3日
000
AI前沿

反对人工智能艺术的案例

无论生成式人工智能变得多么强大，作家特德姜说它都永远无法创造出真正的艺术。姜是当今最受推崇的科幻小说作家之一，最著名的作品是中篇小说《你一生的故事》（改编成电影《降临》）。但他也…

王浩然
2024年9月3日
000
AI前沿

NVIDIA Isaac GR00T N1：重新定义人形机器人的未来

在人工智能和机器人技术的交汇点，NVIDIA的Isaac GR00T N1项目正引领着人形机器人领域的一场革命。这一创新不仅展现了技术在模拟人类动作和智能方面的惊人进步，更预示着一…

王浩然
2025年3月25日
000
AI前沿

Salesforce 首席执行官 Marc Beinoff 抨击 Microsoft Copilot 为“Clippy 2.0”

“Clippy” 当然是微软1996 年推出的 Clippit 虚拟屏幕 Word 和 Office 对话助手的流行昵称。虽然现在人们以它可爱的表情和大眼睛的眼光看待它，但在 20…

王浩然
2024年10月19日
000
AI前沿

Adobe Firefly AI 视频生成器首次亮相——迄今为止最“IP 安全”的 AI 工具？

Adobe发布新的视频生成模型，扩展其生成式 AI 功能，这标志着该公司在为专业创作者提供可在商业项目中安全使用的 AI 工具方面迈出了重要一步。该公司今天宣布，其Firefly…

王浩然
2025年2月16日
000
AI前沿

谷歌推出 Gemini 2.0 Pro、Flash-Lite 并将推理模型 Flash Thinking 连接到 YouTube、地图和搜索

谷歌的 Gemini 系列人工智能大型语言模型 (LLM) 在近一年前刚开始并不顺利，出现了一些令人尴尬的图像生成错误事件，但自那以后，它一直在稳步改进，而且该公司似乎有意让其第二…

王浩然
2025年2月6日
000
AI前沿

大型科技公司产生的核废料将去往何处

缅因州威斯卡西特（人口 3,742）有一块田地，由武装警卫把守。田地上是一道铁丝网围栏，围着一块混凝土垫。垫子上有 60 个水泥和钢罐，里面装有 1,400 根用过的核燃料棒，这些…

王浩然
2024年12月23日
000
AI前沿

振动编码在企业级AI工具中的应用：全面覆盖开发全生命周期

随着人工智能技术的飞速发展，振动编码（Vibe Coding）现象正逐渐从一个小众概念演变为主流开发方法。开发者们日益依赖AI来生成和辅助编写代码，GitHub Copilot等工…

王浩然
9 mins ago
000
AI前沿

Aesthetic 推出“时尚版 Shazam”

Aesthetic 是一家新成立的时尚公司，致力于成为“服装界的 Shazam”。该公司本周成立，利用人工智能帮助人们识别和购买他们在社交媒体上寻找的服装。这款名为 Alma …

王浩然
2024年10月30日
000
AI前沿

人工智能的未来可能与 Twitter 很相似

大约一个月前，Michael Sayman 意识到他终于可以开发他多年来一直在思考的应用程序：一个社交网络，除了你之外的每个人都是人工智能机器人。大型语言模型终于足够好，足够便宜，…

王浩然
2024年9月30日
000
AI前沿

“不受限制”的人工智能集团 Nous Research 推出首个聊天机器人

Nous Research是一家致力于创建“个性化、不受限制”的人工智能模型的人工智能研究机构，旨在替代 OpenAI、Anthropic、Google、Meta 等较为保守的企业…

王浩然
2024年11月9日
000
AI前沿

DeepSeek宣布重大决策：将开源部分在线服务核心代码

DeepSeek公司近期做出了一项具有深远影响的决策——计划将其部分在线服务的核心代码进行开源。这一举措被视为DeepSeek对技术开放与共享理念的坚定践行，旨在通过代码的全面公开…

王浩然
2025年2月25日
000
AI前沿

构建还是购买？2025 年扩展您的企业级 AI 管道

扩大生成工具的采用范围一直是平衡野心与实用性的挑战，而在 2025 年，风险比以往任何时候都高。竞相采用大型语言模型 (LLM) 的企业正在面临一个新的现实：扩大规模不仅仅是部署更…

王浩然
2025年1月19日
000
AI前沿

Liquid AI 推出 Liquid Foundation 模型：生成式 AI 领域的游戏规则改变者

麻省理工学院的衍生公司Liquid AI在一份开创性的声明中推出了其首批Liquid Foundation 模型(LFM)。这些模型是根据第一原理设计的，为生成式 AI领域树立了新…

点点
2024年10月6日
000
AI前沿

Meta 让企业能够创建嵌入广告的聊天机器人

在周三于门洛帕克举行的Meta Connect 2024 开发者大会上，Meta 宣布将利用点击消息广告将其人工智能商业聊天机器人扩展到 WhatsApp 和 Messenger …

王浩然
2024年9月29日
000