自调用代码基准可帮助您决定使用哪些 LLM 来完成编程任务

自调用代码基准可帮助您决定使用哪些 LLM 来完成编程任务

随着大型语言模型 (LLM) 在编码方面的不断改进,用于评估其性能的基准变得越来越不实用。

这是因为,尽管许多 LLM 在这些基准上获得了类似的高分,但了解在特定的软件开发项目和企业中使用哪些 LLM 可能会很困难。

耶鲁大学和清华大学的一篇新论文提出了一种新方法来测试模型解决“自调用代码生成”问题的能力,这些问题需要推理、生成代码和在解决问题时重用现有代码。

自调用代码生成比基准测试更类似于现实的编程场景,并且它可以更好地理解当前 LLM 解决现实世界编码问题的能力。

自调用代码生成

用于评估 LLM 编码能力的两个流行基准是HumanEvalMBPP(主要是基本的 Python 问题)。这些是手工制作问题的数据集,需要模型为简单任务编写代码。 

然而,这些基准测试仅涵盖了软件开发人员在现实世界中面临的挑战的一部分。在实际情况下,软件开发人员不仅要编写新代码,还必须理解和重用现有代码,并创建可重用的组件来解决复杂问题。

研究人员写道:“理解并随后利用自己生成的代码的能力,[换句话说]自调用代码生成,对于 LLM 利用其推理能力进行代码生成起着重要作用,而当前的基准测试无法捕捉到这一点。”

为了测试 LLM 在自调用代码生成方面的能力,研究人员创建了两个新的基准,HumanEval Pro 和 MBPP Pro,它们扩展了现有的数据集。HumanEval Pro 和 MBPP Pro 中的每个问题都建立在原始数据集中现有示例的基础上,并引入了需要模型解决基本问题并调用该解决方案来解决更复杂问题的额外元素。 

自调用代码基准可帮助您决定使用哪些 LLM 来完成编程任务

例如,原始问题可以很简单,比如编写一个函数,用新字符替换字符串中出现的所有给定字符。

扩展问题是编写一个函数,用给定的替换项更改字符串中多个字符的出现次数。这将要求模型编写一个新函数来调用它在简单问题中生成的上一个函数。 

研究人员写道:“对自调用代码生成的评估提供了对 LLM 编程能力的更深入的洞察,超出了单一问题代码生成的范围。”

LLM 在自调用代码生成方面表现不佳

研究人员在 20 多个开放和私有模型上测试了 HumanEval Pro 和 MBPP Pro,其中包括GPT-4o、OpenAI o1-mini和Claude 3.5 Sonnet,以及 QwenDeepSeekCodestral系列。

他们的发现表明,传统编码基准与自调用代码生成任务之间存在显著差异。研究人员写道:“尽管前沿法学硕士擅长生成单个代码片段,但他们往往难以有效地[利用]自己生成的代码来解决更复杂的问题。”

自调用代码基准可帮助您决定使用哪些 LLM 来完成编程任务

例如,单代(pass@1)中,o1-mini 在 HumanEval 上达到了 96.2%,但在 HumanEval Pro 上仅达到了 76.2%。

另一个有趣的发现是,虽然指令微调在简单的编码任务上提供了显著的改进,但它在自调用代码生成方面显示出收益递减。研究人员指出,“当前基于指令的微调方法对于更复杂的自调用代码生成任务效果不够好”,这表明我们需要重新思考如何为编码和推理任务训练基础模型。

为了推动自调用代码生成的研究,研究人员提出了一种技术,可以自动将现有的编码基准重新用于自调用代码生成。该方法使用前沿 LLM 根据原始问题生成自调用问题。然后,他们生成候选解决方案并通过执行代码和运行测试用例来验证其正确性。该流程最大限度地减少了手动代码审查的需要,以帮助以更少的努力生成更多示例。

自调用代码基准可帮助您决定使用哪些 LLM 来完成编程任务

复杂的形势

这一新的基准测试系列发布之际,旧的编码基准测试正迅速被前沿模型所征服。当前的前沿模型(如 GPT-4o、o1 和 Claude 3.5 Sonnet)已经在 HumanEval 和 MBPP 以及其更高级版本 HumanEval+ 和 MBPP+ 上获得了非常高的分数。 

与此同时,还有更复杂的基准测试,例如SWE-Bench,它评估模型在端到端软件工程任务中的能力,这些任务需要广泛的技能,例如使用外部库和文件以及管理 DevOps 工具。SWE-Bench 是一个非常困难的基准测试,即使是最先进的模型也只表现出中等的性能。例如,OpenAI o1 在 SWE-Bench Verified 上表现不一致。

自调用代码生成介于简单基准和 SWE-Bench 之间。它有助于评估一种非常特殊的推理能力:使用模块中的现有代码来解决复杂问题。自调用代码基准可以证明 LLM 在现实世界中的实用性,在现实世界中,人类程序员处于控制地位,而 AI 副驾驶员帮助他们在软件开发过程中完成特定的编码任务。

研究人员写道:“HumanEval Pro 和 MBPP Pro 有望成为代码相关评估的宝贵基准,并通过揭示当前模型的缺陷和鼓励培训方法的创新来激发未来 LLM 的发展。”

原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/zi-diao-yong-dai-ma-ji-zhun-ke-bang-zhu-nin-jue-ding-shi

Like (0)
王 浩然的头像王 浩然作者
Previous 4小时前
Next 53 mins ago

相关推荐

发表回复

Please Login to Comment