大多数人工智能基准测试并没有告诉我们太多信息。它们提出的问题可以通过死记硬背来解决,或者涉及与大多数用户不相关的主题。
因此一些人工智能爱好者开始通过游戏来测试人工智能解决问题的能力。
自由职业人工智能开发者 Paul Calcraft 开发了一款应用,让两个人工智能模型可以互相玩类似画图猜词的游戏。其中一个模型涂鸦,而另一个模型则试图猜测涂鸦代表什么。
“我觉得这听起来超级有趣,从模型能力的角度来看可能很有意思,”卡尔克拉夫特在接受 TechCrunch 采访时说。“所以我在一个阴天的星期六坐在室内完成了它。”
卡尔克拉夫特的灵感来自英国程序员西蒙·威利森(Simon Willison)的一个类似项目,该项目要求模型绘制一幅骑自行车的鹈鹕的矢量图。威利森和卡尔克拉夫特一样,也选择了一项他认为可以迫使模型“思考”训练数据内容之外内容的挑战。
“我们的想法是建立一个无法被攻克的基准,”卡尔克拉夫特说。“这个基准无法通过记住特定答案或之前在训练中见过的简单模式来超越。”
Minecraft 也属于这种“不适合玩”的类别,至少 16 岁的 Adonis Singh 是这么认为的。他创建了一个工具mc-bench,它可以让模型控制 Minecraft 角色并测试其设计结构的能力,类似于微软的Project Malmo。
“我认为 Minecraft 测试模型的资源丰富程度,并赋予它们更多自主权,”他告诉 TechCrunch。“它不像 [其他] 基准测试那样受到限制和饱和。”
使用游戏来衡量人工智能并不是什么新鲜事。这个想法可以追溯到几十年前:数学家 克劳德·香农 在 1949 年提出,像国际象棋这样的游戏对于“智能”软件来说是一个值得挑战的游戏。最近,Alphabet 的 DeepMind 开发了一个可以玩 Pong 和 Breakout 的模型;OpenAI 训练人工智能参加Dota 2比赛;而 Meta 设计了一种可以与专业德州扑克玩家抗衡的算法。
但现在的不同之处在于,爱好者们正在将大型语言模型(LLM)(具有分析文本、图像等能力的模型)连接到游戏中,以探究它们的逻辑能力。
从Gemini和Claude到GPT-4o ,法学硕士的数量非常多,可以说,他们都有不同的“氛围”。他们在一次互动和下一次互动中的“感觉”是不同的——这种现象很难量化。
卡尔克拉夫特说:“众所周知,法学硕士对提问的特定方式很敏感,而且通常不可靠且难以预测。”
阿尔伯塔大学人工智能研究员兼教授马修·古兹戴尔表示,与基于文本的基准相比,游戏提供了一种视觉、直观的方式来比较模型的性能和行为。
“我们可以认为,每个基准测试都为我们提供了针对特定类型问题(如推理或交流)的不同现实简化,”他说。“游戏只是利用人工智能进行决策的另一种方式,因此人们像使用其他方法一样使用它们。”
熟悉生成式人工智能历史的人会注意到,Pictionary 与生成对抗网络 (GAN) 有多么相似,其中创建者模型将图像发送给鉴别器模型,然后对其进行评估。
卡尔克拉夫特认为,画图猜词游戏可以体现法学硕士对形状、颜色和介词等概念的理解能力(例如,“in”和“on”的含义)。他不会说这个游戏是可靠的推理测试,但他认为获胜需要策略和理解线索的能力——而模型发现这两者都不容易。
“我也非常喜欢 Pictionary 游戏的近乎对抗性,类似于 GAN,游戏中有两个不同的角色:一个负责画图,另一个负责猜图,”他说。“画得最好的不是最具艺术性,而是能够最清楚地向其他 LLM 的观众传达想法的那个(包括速度更快、能力更差的模型!)。”
“画图猜词游戏只是一个玩具问题,无法立即投入实际使用或实现,”卡尔克拉夫特警告说。“尽管如此,我确实认为空间理解和多模态性是人工智能发展的关键要素,因此法学硕士画图猜词游戏可能是这一旅程的一小步。”
Singh 认为 Minecraft 也是一个有用的基准,可以衡量法学硕士的推理能力。“从我迄今为止测试过的模型来看,结果与我对推理相关模型的信任程度完全一致,”他说。
其他人并不那么确定。
玛丽女王大学专门研究人工智能的研究员迈克·库克 (Mike Cook) 并不认为 Minecraft 作为人工智能测试平台有什么特别之处。
“我认为,Minecraft 的魅力部分来自于游戏界以外的人,他们可能认为,因为它看起来像‘现实世界’,所以它与现实世界的推理或行动有更密切的联系,”库克告诉 TechCrunch。“从解决问题的角度来看,它与 Fortnite、Stardew Valley 或魔兽世界等视频游戏并没有太大不同。它只是表面不同,看起来更像是日常任务,比如建造东西或探索。”
正如库克所言,即使是最好的游戏人工智能系统通常也无法很好地适应新环境,也无法轻松解决它们从未见过的问题。例如,一个擅长玩《我的世界》的模型不太可能真正熟练地玩《毁灭战士》。
“我认为从人工智能的角度来看,Minecraft 的优点是奖励信号非常弱,世界是程序化的,这意味着挑战不可预测,”库克继续说道。“但它并不比任何其他视频游戏更能代表现实世界。”
既然如此,观看法学硕士建造城堡确实是一件令人着迷的事情。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/pictionary-he-minecraft-ke-yi-ce-shi-ai-mo-xing-de-chuang