到目前为止,像ChatGPT和Claude这样的大型语言模型(LLM)已经成为全球的一个日常词。许多人开始担心人工智能正在为他们工作,因此看到几乎所有基于法学硕士的系统都在一项直接的任务中挣扎,这很具有讽刺意味:计算“草莓”一词中的“r”数。它们并非只在字母“r”上失败;其他例子包括在“哺乳動物”中计算“m”s,以及在“河马”中计算“p”。在本文中,我将分解这些失败的原因,并提供一个简单的变通办法。
LLM是强大的人工智能系统,在大量文本上进行训练,以理解和生成类似人类的语言。他们擅长回答问题、翻译语言、总结内容,甚至通过根据他们收到的输入预测和构建连贯的回应来产生创造性写作等任务。LLM旨在识别文本中的模式,这使得它们能够以令人印象深刻的准确性处理广泛的语言相关任务。
你准备好使用人工智能代理了吗?
尽管他们很有本能,但未能计算“草莓”一词中的“r”数量,这提醒我们,LLMs没有能力像人类那样“思考”。他们不会像人类那样处理我们提供给他们的信息。
几乎所有的当前高性能LLM都是建立在变压器上。这种深度学习架构不会直接摄取文本作为他们的输入。他们使用一个叫做令牌化的过程,该过程将文本转换为数字表示或令牌。一些令牌可能是完整的单词(如“猴子”),而其他令牌可能是单词的一部分(如“mon”和“key”)。每个令牌都像模型理解的代码。通过将所有东西分解成令牌,该模型可以更好地预测句子中的下一个令牌。
LLM不记住单词;他们试图了解这些代币如何以不同的方式结合在一起,使他们擅长猜测接下来会发生什么。在“河马”一词的情况下,模型可能会看到字母“hip”、“pop”、“o”和“tamus”的符号,并且不知道“河马”一词是由字母组成的——“h”、“i”、“p”、“p”、“o”、“p”、“o”、“t”、“a”、“m”、“u”、“s”组成。
一个可以直接查看单个字母而不将其标记的模型架构可能没有这个问题,但对于今天的变压器架构来说,它在计算上是不可行的。
此外,看看LLM如何生成输出文本:他们根据之前的输入和输出令牌预测下一个单词会是什么。虽然这适用于生成上下文感知的类似人类文本,但它不适合计数字母等简单任务。当被要求回答“草莓”一词中的“r”数时,LLM纯粹是根据输入句的结构来预测答案。
这里有一个变通办法
虽然法学硕士可能无法“思考”或逻辑推理,但他们擅长理解结构化文本。结构化文本的一个很好的例子是计算机代码,它有许多编程语言。如果我们要求ChatGPT使用Python来计算“strawberry”中的“r”数,它很可能会得到正确答案。当LLM需要进行计数或任何其他可能需要逻辑推理或算术计算的任务时,可以设计更广泛的软件,以便提示包括要求LLM使用编程语言来处理输入查询。
结论
一个简单的字母计数实验揭示了ChatGPT和Claude等LLM的根本局限性。尽管这些人工智能模型在生成类似人类的文本、编写代码和回答向他们提出的任何问题方面具有令人印象深刻的能力,但他们还不能像人类一样“思考”。该实验展示了模型,模式匹配预测算法,而不是能够理解或推理的“智能”。然而,事先了解哪种类型的提示效果好,可以在一定程度上缓解问题。随着人工智能在我们生活中的整合增加,认识到其局限性对于负责任地使用和对这些模型的现实期望至关重要。
原创文章,作者:点点,如若转载,请注明出处:https://www.dian8dian.com/dao-cao-ren-wen-ti-ru-he-ke-fu-ren-gong-zhi-neng-de-ju-xian