到目前为止,ChatGPT 和 Claude 等大型语言模型 ( LLM ) 已成为全球的日常用语。许多人开始担心人工智能会抢走他们的工作,因此,几乎所有基于 LLM 的系统都无法完成一个简单的任务,这很讽刺:计算单词“strawberry”中“r”的数量。它们不仅无法计算字母“r”,其他例子包括计算“mammal”中的“m”和“hippopotamus”中的“p”。在本文中,我将分析这些失败的原因并提供一个简单的解决方法。
LLM 是功能强大的 AI 系统,经过大量文本训练,能够理解和生成类似人类的语言。它们擅长回答问题、翻译语言、总结内容,甚至根据收到的输入预测和构建连贯的响应,从而生成创意写作。LLM 旨在识别文本中的模式,这使它们能够以惊人的准确性处理各种与语言相关的任务。
尽管法学硕士能力超群,但他们却无法数出“ strawberry ”这个词中“r”的数量,这说明他们无法像人类一样“思考”。他们无法像人类一样处理我们提供给他们的信息。
目前几乎所有的高性能 LLM 都是基于transformers构建的。这种深度学习架构并不直接将文本作为输入。它们使用一种称为标记化的过程,将文本转换为数字表示或标记。一些标记可能是完整的单词(如“monkey”),而另一些标记可能是单词的一部分(如“mon”和“key”)。每个标记都像是模型理解的代码。通过将所有内容分解为标记,模型可以更好地预测句子中的下一个标记。
LLM 不会记住单词;它们会尝试理解这些标记如何以不同的方式组合在一起,从而善于猜测接下来会发生什么。以单词“hippopotamus”为例,模型可能会看到字母“hip”、“pop”、“o”和“tamus”的标记,但不知道单词“hippopotamus”是由字母“h”、“i”、“p”、“p”、“o”、“p”、“o”、“t”、“a”、“m”、“u”、“s”组成的。
可以直接查看单个字母而不对其进行标记的模型架构可能不会出现此问题,但对于当今的变压器架构而言,这在计算上是不可行的。
此外,看看 LLM 如何生成输出文本:它们根据先前的输入和输出标记预测下一个单词是什么。虽然这适用于生成具有上下文感知的类似人类的文本,但它不适合计数字母等简单任务。当被要求回答单词“strawberry”中“r”的数量时,LLM 纯粹是根据输入句子的结构来预测答案。
这是一个解决方法
虽然法学硕士可能无法“思考”或逻辑推理,但他们擅长理解结构化文本。结构化文本的一个典型例子是计算机代码,包括许多编程语言。如果我们要求 ChatGPT 使用 Python 计算“strawberry”中“r”的数量,它很可能会得到正确的答案。当法学硕士需要进行计数或任何其他可能需要逻辑推理或算术计算的任务时,可以设计更广泛的软件,使提示包括要求法学硕士使用编程语言来处理输入查询。
结论
一个简单的字母计数实验揭示了 ChatGPT 和 Claude 等 LLM 的根本局限性。尽管这些人工智能模型在生成类似人类的文本、编写代码和回答任何问题方面具有令人印象深刻的能力,但它们还不能像人类一样“思考”。实验表明,这些模型是模式匹配预测算法,而不是能够理解或推理的“智能”。然而,事先了解哪种类型的提示效果良好可以在一定程度上缓解这个问题。随着人工智能在我们生活中的融入度不断提高,认识到它的局限性对于负责任地使用这些模型和对这些模型抱有现实的期望至关重要。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/strawberry-wen-ti-ru-he-ke-fu-ren-gong-zhi-neng-de-ju-xian