HumanEval

AI前沿

自调用代码基准可帮助您决定使用哪些 LLM 来完成编程任务

随着大型语言模型 (LLM) 在编码方面的不断改进，用于评估其性能的基准变得越来越不实用。这是因为，尽管许多 LLM 在这些基准上获得了类似的高分，但了解在特定的软件开发项目和企…

王浩然
2025年1月11日
000
AI前沿

Qwen2.5-Coder 改变了人工智能编程的游戏规则——而且它是免费的

阿里云发布了新的 AI 编程助手Qwen2.5-Coder，它已经成为Hugging Face Spaces上第二受欢迎的演示。早期测试表明，它的性能可与 GPT-4o 相媲美，并…

王浩然
2024年11月13日
000