微软声称其新工具可以纠正人工智能幻觉，但专家建议谨慎行事

王浩然 • 2024年9月25日下午9:00 • AI前沿 • 144 views

人工智能是出了名的骗子，但微软现在表示已经解决了这个问题。可以理解的是，这会引起一些人的关注——而且有理由持怀疑态度。

微软今天发布了一项服务，名为 Correction，旨在自动修改人工智能生成的错误文本。Correction 首先标记可能存在错误的文本（例如，公司季度收益电话会议摘要中可能存在错误引用），然后通过将文本与事实来源（例如上传的记录）进行比较来核实事实。

Correction 是微软 Azure AI 内容安全 API（目前处于预览阶段）的一部分，可与任何文本生成 AI 模型一起使用，包括 Meta 的Llama和 OpenAI 的GPT-4o。

微软发言人：“纠正功能由一种新流程提供支持，即利用小型语言模型和大型语言模型将输出与基础文档对齐。我们希望这一新功能能够为医学等领域的生成式人工智能的开发者和用户提供支持，因为应用程序开发人员认为响应的准确性非常重要。”

今年夏天，谷歌在其人工智能开发平台 Vertex AI 中推出了类似的功能，让客户可以使用来自第三方提供商、他们自己的数据集或谷歌搜索的数据来“奠定”模型。

但专家警告称，这些接地方法并不能解决幻觉的根本原因。

“试图消除生成式人工智能中的幻觉就像试图消除水中的氢一样，”华盛顿大学研究新兴技术伦理影响的博士生奥斯·凯斯 (Os Keyes) 表示。“这是技术运作方式的重要组成部分。”

文本生成模型会产生幻觉，因为它们实际上“不知道”任何事情。它们是统计系统，可以识别一系列单词中的模式，并根据训练过的无数示例预测接下来会出现哪些单词。

因此，模型的响应不是答案，而只是对问题在训练集中如何回答的预测。因此，模型往往会对事实不甚了解。一项研究发现，OpenAI 的ChatGPT在回答医疗问题时有一半时间是错误的。

微软的解决方案是一对交叉引用、类似文字编辑的元模型，旨在突出和重写幻觉。

分类器模型会查找 AI 生成的文本中可能不正确、虚构或不相关的片段（幻觉）。如果检测到幻觉，分类器会引入第二个模型（语言模型），该模型会尝试根据指定的“基础文档”纠正幻觉。

微软发言人表示：“纠正可以帮助应用程序开发人员减少用户不满和潜在的声誉风险，从而显著提高人工智能生成内容的可靠性和可信度。”“值得注意的是，基础检测并不能解决‘准确性’问题，但有助于将生成式人工智能输出与基础文档对齐。”

凯斯对此表示怀疑。

“这或许能减少一些问题，”他们说道，“但也会产生新的问题。毕竟，Correction 的幻觉检测库也可能会产生幻觉。”

当被问及校正模型的背景时，发言人指出微软研究团队最近发表了一篇论文，描述了该模型的预生产架构。但该论文忽略了关键细节，例如使用哪些数据集来训练模型。

玛丽女王大学 (Queen Mary University) 专门研究人工智能的研究员迈克·库克 (Mike Cook) 认为，即使 Correction 真的像宣传的那样有效，它也有可能加剧人工智能的信任和可解释性问题。该服务可能会发现一些错误，但也可能让用户陷入一种虚假的安全感——认为模型比实际情况更真实。

“微软、OpenAI 和谷歌都造成了这个问题，即在模型经常出错的情况下，人们仍然依赖这些模型，”他说。“微软现在正在做的是在更高层次上重复这个错误。假设这将我们的安全程度从 90% 提高到 99%——问题实际上从来不在那 9% 上。它总是出现在我们尚未检测到的 1% 的错误中。”

库克补充说，微软将 Correction 捆绑在一起的做法也带有商业偏见。该功能本身是免费的，但 Correction 需要检测幻觉才能进行修正的“扎根检测”每月最多只能免费提供 5,000 条“文本记录”。超过 5,000 条文本记录则需要支付 38 美分。

微软确实面临着向客户和股东证明其人工智能值得投资的压力。

仅在第二季度，这家科技巨头就投入了近 190 亿美元的资本支出和设备，其中大部分与人工智能有关。但该公司尚未从人工智能中获得可观的收入。本周，一位华尔街分析师下调了该公司的股票评级，理由是对其长期人工智能战略存在怀疑。

据《The Information》报道，由于性能和成本方面的担忧，许多早期采用者已经暂停部署微软的旗舰生成式人工智能平台Microsoft 365 Copilot 。据报道，一位使用 Copilot 进行 Microsoft Teams 会议的客户称，该人工智能会虚构与会者，并暗示通话内容涉及从未真正讨论过的主题。

毕马威的一项民意调查显示，准确性和产生幻觉的可能性已成为企业在试用人工智能工具时最担心的问题之一。

“如果这是一个正常的产品生命周期，生成式人工智能仍将处于学术研发阶段，并致力于改进它并了解其优缺点，”库克说。“相反，我们已经将它部署到十几个行业。微软和其他公司已经把所有人都装上了他们令人兴奋的新火箭飞船，并决定在前往目的地的途中建造起落架和降落伞。”

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/wei-ruan-sheng-cheng-qi-xin-gong-ju-ke-yi-jiu-zheng-ren

Like (0)

王浩然作者

0 0

OpenAI 推出高级语音模式，提供更多声音和新外观

Previous 2024年9月25日下午8:00

加密货币骗子入侵 OpenAI 在 X 上的新闻账号

Next 2024年9月25日下午10:00

AI前沿

YC 初创公司 Pharos 获得 Felicis 领投的 500 万美元种子轮融资，旨在将 AI 引入医院质量报告

医务人员和行政人员每天都要填写大量文书工作，工作压力越来越大。数十家甚至数百家初创公司看到了利用生成式人工智能减轻这些官僚程序负担的机会。这些公司正在开发人工智能医疗文书、预授权…

王浩然
2024年10月26日
000
AI前沿

Dottxt 获 1190 万美元融资，帮助 AI 模型回答问题

正如我们之前报道的那样，企业 CIO 正在缓慢地推进生成式 AI。其中一个原因是 AI 不适合现有的软件工程工作流程，因为它实际上使用的不是同一种语言。例如，LLM（又称大型语言模…

点点
2024年10月18日
000
AI前沿

这一届AI创业者：不敢再谈理想，怕伤钱

ChatGPT引发的人工智能热潮被疯狂追捧一年多后，AI行业开始陷入迷茫。距离OpenAI发布GPT-4已超过一年半，GPT-5还迟迟不见踪影，文生视频大模型Sora也没有全面开…

点点
2024年9月25日
000
AI前沿

OpenAI的战略之举：Agent SDK及其对企业AI的深远影响

一、引言在AI领域，OpenAI一直是引领创新的先锋。近期，OpenAI发布了一项重大更新——Agent SDK，这一举措不仅巩固了其在企业AI市场的地位，还预示着AI技术应用的…

王浩然
2025年3月15日
000
AI前沿

特斯拉的“We, Robot”活动：Robovan 透露 Cybercab 的回顾

特斯拉的“We, Robot”活动已经结束，但仍有许多事情需要关注。特斯拉宣称 Cybercab 是自动驾驶交通的未来，据透露，该车是双座车，售价不到 30,000 美元。随后…

王浩然
2024年10月12日
000
AI前沿

OpenAI最新估值达到1500亿美元？

据媒体报道，美国人工智能（AI）研究公司OpenAI的最新估值达到了惊人的1500亿美元，但这有一个重要前提，那就是OpenAI需要改变自身复杂的公司结构，取消其对投资者设置的利润…

点点
2024年9月16日
000
AI前沿

人工智能有助于缩小公司与客户之间的“信任差距”

沃达丰商业公司发布的一份新报告发现，人工智能可以帮助企业缩小与客户之间的信任差距。大多数受访者认为，精通人工智能的企业更有可能做出准确的预测。与伦敦政治经济学院合作进行的《适应未…

点点
2024年10月8日
000
AI前沿

研究发现：基于不安全代码训练的AI模型具有毒性‌

最新研究表明，使用未受保护或存在安全漏洞的代码来训练的AI模型，可能会表现出“毒性”特征，即这些模型在生成代码或做出决策时可能包含恶意代码、偏见或错误逻辑。 ‌一、研究背景‌ 在人…

王浩然
2025年3月2日
000
AI前沿

IBM 和 NASA 如何重新定义地理空间 AI 以应对气候挑战

随着气候变化加剧洪水、飓风、干旱和野火等恶劣天气事件，传统的灾害应对方法难以跟上。虽然卫星技术、无人机和远程传感器的进步使监测更加有效，但只有少数组织才能访问这些重要数据，许多研究…

点点
2024年10月8日
000
AI前沿

百度发布新型LLM：ERNIE 4.5与ERNIE X1，成本低于DeepSeek与OpenAI，但尚未开源‌

近日，中国搜索引擎巨头百度宣布推出两款全新的人工智能模型——ERNIE 4.5与ERNIE X1。ERNIE 4.5作为一款多模态语言模型，而ERNIE X1则专注于推理能力。百度…

王浩然
2025年3月20日
000
AI前沿

AI图像生成新纪元：迎接Reve Image 1.0的到来

在人工智能领域，图像生成技术一直是一个令人兴奋且充满挑战的研究方向。随着技术的不断进步，我们见证了从模糊到清晰、从简单到复杂的图像生成过程的演变。如今，一款名为Reve Image…

王浩然
2025年3月28日
000
AI前沿

‌Sakana声称其AI论文通过同行评审，但情况更为复杂‌

在人工智能领域，每一项新的研究成果都可能引领行业的变革。近日，一家名为Sakana的初创公司宣布，其关于人工智能的最新研究论文已经通过了严格的同行评审。然而，在深入探究后，我们发现…

王浩然
2025年3月13日
000
AI前沿

Mistral 发布针对笔记本电脑和手机优化的新型 AI 模型

法国人工智能初创公司Mistral发布了其首批生成式人工智能模型，旨在在笔记本电脑和手机等边缘设备上运行。 Mistral 称之为“Les Ministraux”的新模型系列可用于…

王浩然
2024年10月17日
000
AI前沿

冷静一下：DeepSeek-R1 很棒，但 ChatGPT 的产品优势还远未结束

就在一周前——2025 年 1 月 20 日——中国人工智能初创公司 DeepSeek 发布了一个名为 R1 的新开源人工智能模型，该模型最初可能会被误认为是自OpenAI两年多前…

王浩然
2025年1月28日
000
AI前沿

英国获得63亿英镑数据基础设施投资

美国四大公司宣布计划向英国数据基础设施投资总计 63 亿英镑。英国科技大臣彼得·凯尔在国际投资峰会上宣布了这一消息，称这是对英国与企业合作推动增长的方式的“信任投票”…

点点
2024年10月15日
000
AI前沿

Anthropic的Claude聊天机器人：疑似采用Brave浏览器驱动其网页搜索功能

在人工智能领域，每一次技术创新都可能引发行业的广泛关注。近日，Anthropic公司旗下的Claude聊天机器人被曝出疑似采用Brave浏览器作为其网页搜索功能的强大后盾。这一消息…

王浩然
2025年3月24日
000
AI前沿

这些是 2025 年收入最高的编程语言

根据美国劳工统计局(BLS)的数据，对软件工程师的需求仍然很高，而且这种趋势还将继续下去。报告预测，到 2031 年，软件开发人员、质量保证分析师和测试人员的就业人数将增长 25…

王浩然
2025年1月22日
000
AI前沿

麻省理工学院的 Clio 如何增强机器人的场景理解

机器人感知长期以来一直受到现实环境复杂性的挑战，通常需要固定设置和预定义对象。麻省理工学院的工程师开发了 Clio，这是一个突破性的系统，可让机器人直观地理解并优先考虑周围环境中的…

点点
2024年10月7日
000
AI前沿

出现了一种神秘的新图像生成模型

一种神秘的新图像生成模型在众包人工智能分析基准上击败了 Midjourney、Black Forest Labs 和 OpenAI 的模型。该模型名为“ red_pa nda…

王浩然
2024年10月29日
000
AI前沿

人工智能先驱李飞飞表示，人工智能政策必须以“科学而非科幻小说”为基础

斯坦福大学计算机科学家兼初创公司创始人李飞飞，有时被称为“人工智能教母”，她在下周于巴黎举行的人工智能行动峰会之前概述了“未来人工智能政策制定的三大基本原则”。首先，李飞飞表示，…

王浩然
2025年2月10日
000

发表回复

Please Login to Comment

微软声称其新工具可以纠正人工智能幻觉，但专家建议谨慎行事

相关推荐

发表回复

Share To :