HumanEval
-
自调用代码基准可帮助您决定使用哪些 LLM 来完成编程任务
随着大型语言模型 (LLM) 在编码方面的不断改进,用于评估其性能的基准变得越来越不实用。 这是因为,尽管许多 LLM 在这些基准上获得了类似的高分,但了解在特定的软件开发项目和企…
-
Qwen2.5-Coder 改变了人工智能编程的游戏规则——而且它是免费的
阿里云发布了新的 AI 编程助手Qwen2.5-Coder,它已经成为Hugging Face Spaces上第二受欢迎的演示。早期测试表明,它的性能可与 GPT-4o 相媲美,并…