“稻草人”问题：如何克服人工智能的局限性

点点 • 2024年10月14日下午4:00 • AI前沿 • 102 views

到目前为止，像ChatGPT和Claude这样的大型语言模型（LLM）已经成为全球的一个日常词。许多人开始担心人工智能正在为他们工作，因此看到几乎所有基于法学硕士的系统都在一项直接的任务中挣扎，这很具有讽刺意味：计算“草莓”一词中的“r”数。它们并非只在字母“r”上失败；其他例子包括在“哺乳動物”中计算“m”s，以及在“河马”中计算“p”。在本文中，我将分解这些失败的原因，并提供一个简单的变通办法。

LLM是强大的人工智能系统，在大量文本上进行训练，以理解和生成类似人类的语言。他们擅长回答问题、翻译语言、总结内容，甚至通过根据他们收到的输入预测和构建连贯的回应来产生创造性写作等任务。LLM旨在识别文本中的模式，这使得它们能够以令人印象深刻的准确性处理广泛的语言相关任务。

你准备好使用人工智能代理了吗？

尽管他们很有本能，但未能计算“草莓”一词中的“r”数量，这提醒我们，LLMs没有能力像人类那样“思考”。他们不会像人类那样处理我们提供给他们的信息。

几乎所有的当前高性能LLM都是建立在变压器上。这种深度学习架构不会直接摄取文本作为他们的输入。他们使用一个叫做令牌化的过程，该过程将文本转换为数字表示或令牌。一些令牌可能是完整的单词（如“猴子”），而其他令牌可能是单词的一部分（如“mon”和“key”）。每个令牌都像模型理解的代码。通过将所有东西分解成令牌，该模型可以更好地预测句子中的下一个令牌。

LLM不记住单词；他们试图了解这些代币如何以不同的方式结合在一起，使他们擅长猜测接下来会发生什么。在“河马”一词的情况下，模型可能会看到字母“hip”、“pop”、“o”和“tamus”的符号，并且不知道“河马”一词是由字母组成的——“h”、“i”、“p”、“p”、“o”、“p”、“o”、“t”、“a”、“m”、“u”、“s”组成。

一个可以直接查看单个字母而不将其标记的模型架构可能没有这个问题，但对于今天的变压器架构来说，它在计算上是不可行的。

此外，看看LLM如何生成输出文本：他们根据之前的输入和输出令牌预测下一个单词会是什么。虽然这适用于生成上下文感知的类似人类文本，但它不适合计数字母等简单任务。当被要求回答“草莓”一词中的“r”数时，LLM纯粹是根据输入句的结构来预测答案。

这里有一个变通办法

虽然法学硕士可能无法“思考”或逻辑推理，但他们擅长理解结构化文本。结构化文本的一个很好的例子是计算机代码，它有许多编程语言。如果我们要求ChatGPT使用Python来计算“strawberry”中的“r”数，它很可能会得到正确答案。当LLM需要进行计数或任何其他可能需要逻辑推理或算术计算的任务时，可以设计更广泛的软件，以便提示包括要求LLM使用编程语言来处理输入查询。

结论

一个简单的字母计数实验揭示了ChatGPT和Claude等LLM的根本局限性。尽管这些人工智能模型在生成类似人类的文本、编写代码和回答向他们提出的任何问题方面具有令人印象深刻的能力，但他们还不能像人类一样“思考”。该实验展示了模型，模式匹配预测算法，而不是能够理解或推理的“智能”。然而，事先了解哪种类型的提示效果好，可以在一定程度上缓解问题。随着人工智能在我们生活中的整合增加，认识到其局限性对于负责任地使用和对这些模型的现实期望至关重要。

原创文章，作者：点点，如若转载，请注明出处：https://www.dian8dian.com/dao-cao-ren-wen-ti-ru-he-ke-fu-ren-gong-zhi-neng-de-ju-xian

Like (0)

点点

0 0

人工智能真的能与人类数据科学家竞争吗？OpenAI的新基准对它进行了测试

Previous 2024年10月14日

数据中心技术正在蓬勃发展，但对于初创企业来说采用并不容易

Next 2024年10月14日

AI前沿

研究发现法学硕士可以识别自己的错误

大型语言模型 (LLM) 的一个众所周知的问题是它们倾向于生成不正确或无意义的输出，通常被称为“幻觉”。虽然许多研究都集中于从用户的角度分析这些错误，但由以色列理工学院、谷歌研究院…

王浩然
2024年11月1日
000
AI前沿

Meta 不愿透露是否利用智能眼镜拍摄的照片来训练 AI

Meta 的 AI 驱动雷朋眼镜正面有一个隐蔽的摄像头，不仅会在你要求时拍照，还会在 AI 功能触发某些关键词（例如“看”）时拍照。这意味着这款智能眼镜会收集大量照片，包括有意拍摄…

点点
2024年10月2日
000
AI前沿

苹果研究揭露法学硕士“推理”能力严重缺陷

不相关的干扰性论点会导致逻辑推理“灾难性”失败。

点点
2024年10月16日
000
AI前沿

解锁医疗保健的未来：探索 AI 环境临床语音和 AI 医疗文书员

医疗保健行业正在迅速进入技术驱动的新时代，而人工智能 (AI) 是其主要加速器。数据显示，75% 的医疗保健提供商和专业人士认为，未来三年内，人工智能相关技术将“普及”。虽然行业领…

点点
2024年9月10日
000
AI前沿

SXSW 2025：我们关注的焦点‌

随着SXSW（南西南交互、设计与电影节）2025年的临近，科技、创意和文化领域的目光再次聚焦于此。今年的SXSW不仅将展示一系列前沿技术和创新项目，还将探讨科技如何继续塑造我们的世…

王浩然
2025年3月10日
000
AI前沿

特朗普总统废除拜登的人工智能行政命令

上任第一天，总统唐纳德·特朗普撤销了前总统乔·拜登签署的一项2023 年行政命令，该命令旨在降低人工智能对消费者、工人和国家安全构成的潜在风险。拜登的行政命令指示商务部国家标准与…

王浩然
2025年1月21日
000
AI前沿

Meta 确认它可以根据你要求 Ray-Ban Meta AI 分析的任何图像来训练其 AI

最近询问 Meta 是否利用用户使用雷朋 Meta 智能眼镜拍摄的照片和视频来训练 AI。该公司最初并没有透露太多信息。自此以后，Meta 就提供了更多精彩内容。简而言之，您与 …

点点
2024年10月3日
000
AI前沿

SpaceX 将于周日尝试历史性地接回星际飞船助推器

星际飞船已准备好再次飞行——SpaceX 将首次尝试将助推器带回发射场，并用一双超大号的“筷子”接住它。 SpaceX 将于周日在太平洋标准时间凌晨 5 点（当地时间早上 7 点）…

点点
2024年10月13日
000
AI前沿

企业如何评估和选择AI工具

1. **明确问题与需求**：在考虑采用新的AI系统前，企业应先明确自身面临的问题、关键挑战和核心需求。只有当AI技术能解决公司已有的、可衡量的问题时，才值得进一步探索。 2. *…

王浩然
2025年2月11日
000
AI前沿

Brookfield 承诺投资 200 亿美元，法国 AI 生态系统投资额达 850 亿美元

据法新社证实，加拿大投资公司 Brookfield 计划到 2030 年向法国人工智能项目投资 200 亿欧元（按当前汇率计算约为 207 亿美元）。这笔资金的大部分将用于建设以人…

王浩然
2025年2月10日
000
AI前沿

人工智能公司与沃尔沃联手开发自动驾驶卡车

人工智能初创公司 Waabi正与沃尔沃合作，共同开发和大规模部署自动驾驶卡车。两家公司正在建立长期战略合作关系，他们表示这将加速自动驾驶卡车在美国各地的推广。根据该协议，…

王浩然
2025年2月8日
000
AI前沿

人工智能深度伪造如何威胁选举公正性——以及如何应对

竞选广告已经变得有点混乱和有争议。现在想象一下，你被一则竞选广告所吸引，其中一位候选人表达了强有力的立场，影响了你的投票——而这则广告甚至不是真的。这是一个深度伪造的广告。这不…

点点
2024年10月21日
000
AI前沿

AWS SageMaker 正在转型为数据和 AI 的综合中心

今天，亚马逊网络服务 (AWS) 在其年度大型会议re:Invent 2024上宣布了其下一代基于云的机器学习 (ML) 开发平台 SageMaker，将其转变为一个统一的中心，使…

王浩然
2024年12月4日
000
AI前沿

斯嘉丽·约翰逊、凯莉·詹娜和泰勒·斯威夫特位列被利用人工智能诈骗的名人榜首

你可能在社交媒体上看到过这些荒谬的视频。有一位名人——可能是悉尼·斯威尼或汤姆·汉克斯——直接对着镜头谈论某种产品，但似乎有些不对劲。也许是因为他们的嘴巴似乎没有和他们的话完美同步…

王浩然
2024年10月10日
000
AI前沿

OpenAI 首席技术官和其他两人离职，Altman 否认与重组计划有关

OpenAI 首席技术官 Mira Murati在社交网络 X 上分享了她令人意外的辞职信，宣布她将离开公司。Murati 于 2018 年加入 OpenAI，在六年半的时间里担任…

点点
2024年10月1日
000
AI前沿

AI 是销售的未来吗？Salesforce 的新模式可能会改变游戏规则

Salesforce是领先的云端客户关系管理软件提供商，它推出了两种先进的人工智能模型——xGen-Sales和xLAM，旨在帮助企业提高自动化程度和效率。今天发布的这一消息反映了…

王浩然
2024年9月9日
000
AI前沿

搜索的未来：当人工智能从检索转向深度推理时

随着生成式人工智能重新定义我们与技术的互动，我们搜索信息的方式也在发生深刻的转变。传统的搜索引擎依赖于关键词匹配和检索，而现在正逐渐被更先进的系统所取代，这些系统利用生成式人工智能…

王浩然
2024年8月27日
000
AI前沿

少即是多：加州大学伯克利分校与谷歌通过简单采样解锁大型语言模型潜力‌

在人工智能领域，大型语言模型（LLMs）的推理能力一直是研究者和开发者关注的焦点。近期，来自谷歌研究和加州大学伯克利分校的研究人员发表了一篇新论文，揭示了一种令人惊讶的简单测试时间…

王浩然
2025年3月24日
000
AI前沿

OpenAI 研究人员开发新模型，将媒体生成速度提高 50 倍

OpenAI 的两位研究人员发表了一篇论文，描述了一种新型模型——具体来说是一种新型的连续时间一致性模型 (sCM)——与传统扩散模型相比，该模型将人工智能生成图像、视频和音频等多…

王浩然
2024年10月25日
000
AI前沿

盘点中国 1024 家潜在独角兽公司：估值已超过 10 亿元；AI 领域最集中

大家对独角兽公司的概念已经耳熟能详，那些估值超过 10 亿美元的创业公司是市场所追逐的明星公司。除了独角兽，我们还关注那些「潜在独角兽企业」，即估值超过 10 亿人民币，又还没到…

点点
2024年10月9日
000

发表回复

Please Login to Comment

“稻草人”问题：如何克服人工智能的局限性

这里有一个变通办法

结论

相关推荐

发表回复

Share To :