自调用代码基准可帮助您决定使用哪些 LLM 来完成编程任务

王浩然 • 2025年1月11日下午7:00 • AI前沿 • 62 views

随着大型语言模型 (LLM) 在编码方面的不断改进，用于评估其性能的基准变得越来越不实用。

这是因为，尽管许多 LLM 在这些基准上获得了类似的高分，但了解在特定的软件开发项目和企业中使用哪些 LLM 可能会很困难。

耶鲁大学和清华大学的一篇新论文提出了一种新方法来测试模型解决“自调用代码生成”问题的能力，这些问题需要推理、生成代码和在解决问题时重用现有代码。

自调用代码生成比基准测试更类似于现实的编程场景，并且它可以更好地理解当前 LLM 解决现实世界编码问题的能力。

自调用代码生成

用于评估 LLM 编码能力的两个流行基准是HumanEval和MBPP（主要是基本的 Python 问题）。这些是手工制作问题的数据集，需要模型为简单任务编写代码。

然而，这些基准测试仅涵盖了软件开发人员在现实世界中面临的挑战的一部分。在实际情况下，软件开发人员不仅要编写新代码，还必须理解和重用现有代码，并创建可重用的组件来解决复杂问题。

研究人员写道：“理解并随后利用自己生成的代码的能力，[换句话说]自调用代码生成，对于 LLM 利用其推理能力进行代码生成起着重要作用，而当前的基准测试无法捕捉到这一点。”

为了测试 LLM 在自调用代码生成方面的能力，研究人员创建了两个新的基准，HumanEval Pro 和 MBPP Pro，它们扩展了现有的数据集。HumanEval Pro 和 MBPP Pro 中的每个问题都建立在原始数据集中现有示例的基础上，并引入了需要模型解决基本问题并调用该解决方案来解决更复杂问题的额外元素。

例如，原始问题可以很简单，比如编写一个函数，用新字符替换字符串中出现的所有给定字符。

扩展问题是编写一个函数，用给定的替换项更改字符串中多个字符的出现次数。这将要求模型编写一个新函数来调用它在简单问题中生成的上一个函数。

研究人员写道：“对自调用代码生成的评估提供了对 LLM 编程能力的更深入的洞察，超出了单一问题代码生成的范围。”

LLM 在自调用代码生成方面表现不佳

研究人员在 20 多个开放和私有模型上测试了 HumanEval Pro 和 MBPP Pro，其中包括GPT-4o、OpenAI o1-mini和Claude 3.5 Sonnet，以及 Qwen、DeepSeek 和Codestral系列。

他们的发现表明，传统编码基准与自调用代码生成任务之间存在显著差异。研究人员写道：“尽管前沿法学硕士擅长生成单个代码片段，但他们往往难以有效地[利用]自己生成的代码来解决更复杂的问题。”

例如，单代（pass@1）中，o1-mini 在 HumanEval 上达到了 96.2%，但在 HumanEval Pro 上仅达到了 76.2%。

另一个有趣的发现是，虽然指令微调在简单的编码任务上提供了显著的改进，但它在自调用代码生成方面显示出收益递减。研究人员指出，“当前基于指令的微调方法对于更复杂的自调用代码生成任务效果不够好”，这表明我们需要重新思考如何为编码和推理任务训练基础模型。

为了推动自调用代码生成的研究，研究人员提出了一种技术，可以自动将现有的编码基准重新用于自调用代码生成。该方法使用前沿 LLM 根据原始问题生成自调用问题。然后，他们生成候选解决方案并通过执行代码和运行测试用例来验证其正确性。该流程最大限度地减少了手动代码审查的需要，以帮助以更少的努力生成更多示例。

复杂的形势

这一新的基准测试系列发布之际，旧的编码基准测试正迅速被前沿模型所征服。当前的前沿模型（如 GPT-4o、o1 和 Claude 3.5 Sonnet）已经在 HumanEval 和 MBPP 以及其更高级版本 HumanEval+ 和 MBPP+ 上获得了非常高的分数。

与此同时，还有更复杂的基准测试，例如SWE-Bench，它评估模型在端到端软件工程任务中的能力，这些任务需要广泛的技能，例如使用外部库和文件以及管理 DevOps 工具。SWE-Bench 是一个非常困难的基准测试，即使是最先进的模型也只表现出中等的性能。例如，OpenAI o1 在 SWE-Bench Verified 上表现不一致。

自调用代码生成介于简单基准和 SWE-Bench 之间。它有助于评估一种非常特殊的推理能力：使用模块中的现有代码来解决复杂问题。自调用代码基准可以证明 LLM 在现实世界中的实用性，在现实世界中，人类程序员处于控制地位，而 AI 副驾驶员帮助他们在软件开发过程中完成特定的编码任务。

研究人员写道：“HumanEval Pro 和 MBPP Pro 有望成为代码相关评估的宝贵基准，并通过揭示当前模型的缺陷和鼓励培训方法的创新来激发未来 LLM 的发展。”

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/zi-diao-yong-dai-ma-ji-zhun-ke-bang-zhu-nin-jue-ding-shi

Like (0)

王浩然作者

0 0

突破数据瓶颈：Salesforce 的 ProVision 利用图像场景图加速多模式 AI 训练

Previous 2025年1月11日

人工智能酒店计划在拉斯维加斯开业：CES 2025

Next 2025年1月11日

AI前沿

什么是 Apple Intelligence，它何时会到来以及谁将会获得它？

经过数月的猜测，Apple Intelligence终于在6 月份的 WWDC 2024 上成为焦点。该平台是在谷歌和 Open AI 等公司发布大量生成式人工智能消息之后发布的，…

王浩然
2024年10月26日
000
AI前沿

什么阻碍了数字孪生的演进和应用？

数字孪生技术具有巨大的潜力，它能够创建物理对象、流程和环境的数字复制品，可应用于各个行业，从复制危险环境到展示用于远程培训的航天器。麦肯锡最近的分析表明，人们对数字孪生的兴趣非常浓…

点点
2024年10月24日
000
AI前沿

微软刚刚开发出一款设计未来材料的人工智能：它的工作原理如下

微软研究院今天推出了一个强大的新型人工智能系统，该系统可以生成具有特定所需特性的新型材料，有可能加速更好的电池、更高效的太阳能电池和其他关键技术的开发。该系统名为MatterGe…

王浩然
2025年1月19日
000
AI前沿

Adobe Firefly AI 视频生成器首次亮相——迄今为止最“IP 安全”的 AI 工具？

Adobe发布新的视频生成模型，扩展其生成式 AI 功能，这标志着该公司在为专业创作者提供可在商业项目中安全使用的 AI 工具方面迈出了重要一步。该公司今天宣布，其Firefly…

王浩然
2025年2月16日
000
AI前沿

构建一个对话式人工智能需要花费多少钱？

超过 40% 的营销、销售和客户服务组织已采用生成式人工智能，仅次于 IT 和网络安全。在所有生成式人工智能技术中，对话式人工智能将在这些领域迅速普及，因为它能够弥合企业与客户之间…

王浩然
2024年9月15日
000
AI前沿

Adobe发布“项目幻灯片惊叹”（Project Slide Wow）：从原始客户数据自动生成PowerPoint演示文稿

在拉斯维加斯举行的Adobe年度数字创新大会Summit 2024上，Adobe公司展示了“项目幻灯片惊叹”（Project Slide Wow），这是一款基于生成式人工智能（AI…

王浩然
2025年3月22日
000
AI前沿

开放深度搜索：挑战Perplexity与ChatGPT搜索的新势力‌

在人工智能（AI）搜索领域，一场新的变革正在悄然发生。Sentient基金会的研究人员近期发布了开放深度搜索（Open Deep Search，简称ODS），这一开源框架旨在与诸如…

王浩然
2025年4月6日
000
AI前沿

人工智能规模扩张的终结可能尚未到来：接下来会发生什么？

随着人工智能系统在日益复杂的任务中实现超越人类的表现，业界正在努力解决是否有可能建立更大的模型，或者创新是否必须走不同的道路。大型语言模型 (LLM) 开发的一般方法是规模越大越…

王浩然
2024年12月2日
000
AI前沿

大厂养不起大模型？

身处于观望期的大模型赛道，似乎任何风吹草动，都让市场有了不同以往的波动。近日，摩根士丹利发布报告称，中国AI正在面临更大的变现问题，文中直接指出AI应用先行者业绩不及预期，金山办…

点点
2024年9月16日
000
AI前沿

进入“Whisperverse”：人工智能语音代理将如何指导我们度过每一天

人们普遍批评大型科技公司，称它们的平台将用户视为可以通过定向广告赚钱的玻璃眼球。这种情况很快就会改变，但这并不是因为科技平台不再积极瞄准用户。相反，我们的耳朵即将成为最有效的渠道，…

王浩然
2024年11月4日
000
AI前沿

人为因素：企业如何预防云灾难

大公司非常努力地确保他们的服务不会中断，原因很简单——严重的中断会损害你的品牌，并促使客户选择具有更好记录的竞争产品。构建可靠的互联网服务是一个技术难题，但对于公司领…

王浩然
2024年10月20日
000
AI前沿

AI编程助手并非万能解决方案

近期的一份报告显示，人工智能（AI）编程助手虽然在一定程度上提高了编程效率，但并非所有编程问题的万能解决方案。这一结论基于对当前市场上主流AI编程助手功能的深入分析，以及对开发者实…

王浩然
2025年2月25日
000
AI前沿

飞行汽车公司利用人工智能进行车辆设计

SkyDrive 与 Braid Technologies 合作，利用人工智能对数千种设计模式进行微调，以优化其电动飞行器

点点
2024年9月27日
000
AI前沿

人工智能水下机器人改变海上风电检测方式

Beam部署了世界上第一台人工智能驱动的自动水下机器人，用于海上风电场检查。该技术已通过检查苏格兰最大的海上风电场Seagreen 的导管架结构证明了其实力。Seagreen 是 …

点点
2024年9月26日
000
AI前沿

平台工程：简化现代软件开发

随着我们加速迈向工业 4.0，数字化转型以前所未有的水平重塑了企业。如今，组织面临着更快、更可靠、更大规模地交付软件的巨大压力。云环境的日益复杂以及对无摩擦客户体验的需求不断增加…

点点
2024年11月5日
000
AI前沿

OpenAI 又失去了一位首席安全研究员 Lilian Weng

OpenAI 另一位首席安全研究员 Lilian Weng 周五宣布她将离开这家初创公司。Weng 自 8 月起担任研究和安全副总裁，在此之前，她曾担任 OpenAI 安全系统团队…

王浩然
2024年11月11日
000
AI前沿

前谷歌CEO泄露AI高级机密，英伟达将引爆“抢购潮”

上个周末，前谷歌CEO 埃里克·施密特在斯坦福大学进行了一场关于如果更智能的重要讲座，在不知道全程直播的情况下泄露了“AI行业的高级机密”，其中就包括了英伟达接下来的重磅利好消息。…

点点
2024年8月21日
000
AI前沿

Anthropic 首席执行官发表 15,000 字赞颂人工智能，充满技术乐观主义

Anthropic 首席执行官 Dario Amodei 希望你知道，他并不是人工智能“末日论者”。至少，这是我对 Amodei 上周五晚间在其博客上发表的一篇约 15,000 …

点点
2024年10月13日
000
AI前沿

Ubitium 推出新型通用处理器，解决边缘 AI 等问题

随着企业不断探索不同的方式来优化其在数据中心和边缘处理不同工作负载的方式，一家名为Ubitium 的新兴创业公司脱颖而出，提出了一种有趣的、节省成本的计算方法：通用处理。在半导体…

王浩然
2024年11月25日
000
AI前沿

南加州大学计算机科学副教授 Sean Ren – 访谈系列

Sean Ren是南加州大学(USC)计算机科学副教授，也是 Andrew and Erna Viterbi 早期职业主席。他领导智能与知识发现 (INK) 研究实验室，并在USC…

点点
2024年10月22日
000