OpenAI推出了一种测量机器学习工程中人工智能能力的新工具。这个被称为MLE-bench的基准,通过来自机器学习竞赛的流行平台Kaggle的75场真实世界数据科学比赛来挑战人工智能系统。
随着科技公司加紧努力开发更有能力的人工智能系统,出现了这一基准。MLE-bench超越了测试人工智能的计算或模式识别能力;它评估人工智能是否可以在机器学习工程的复杂领域进行规划、故障排除和创新。
你准备好使用人工智能代理了吗?
人工智能对Kaggle:令人印象深刻的胜利和令人惊讶的挫折
结果揭示了当前人工智能技术的进步和局限性。OpenAI最先进的模型o1-preview,当与名为AIDE的专用脚手架配对时,在16.9%的比赛中取得了值得获得奖牌的表现。这种性能值得一提,表明在某些情况下,人工智能系统可以在与熟练的人类数据科学家相媲美的水平上竞争。
然而,这项研究也凸显了人工智能和人类专业知识之间的重大差距。人工智能模型经常成功应用标准技术,但在需要适应性或创造性解决问题的任务上却很吃力。这一限制凸显了人类洞察力在数据科学领域的持续重要性。
机器学习工程涉及设计和优化使人工智能能够从数据中学习的系统。MLE-bench根据该过程的各个方面评估人工智能代理,包括数据准备、模型选择和性能调整。
从实验室到工业:人工智能在数据科学中的深远影响
这项研究的影响超出了学术兴趣。能够独立处理复杂机器学习任务的人工智能系统的开发可以加速各行业的科学研究和产品开发。然而,这也提出了关于人类数据科学家不断变化的作用以及人工智能能力快速进步的潜力的问题。
OpenAI决定让MLE-benc开源,允许更广泛地检查和使用基准。此举可能有助于建立评估人工智能在机器学习工程中进展的共同标准,有可能塑造该领域的未来发展和安全考虑。
随着人工智能系统在专业领域接近人类水平的性能,MLE-bench等基准为跟踪进度提供了关键的指标。它们针对人工智能能力的夸大主张提供了现实检查,为当前人工智能的优势和劣势提供了明确、可量化的衡量标准。
人工智能和人类协作在机器学习中的未来
正在进行的增强人工智能能力的努力正在获得势头。MLE-bench为这一进步提供了新的视角,特别是在数据科学和机器学习领域。随着这些人工智能系统的改进,它们可能很快就会与人类专家协同工作,有可能拓宽机器学习应用的视野。
然而,重要的是要注意,虽然基准显示了有希望的结果,但它也表明,人工智能在能够完全复制经验丰富的数据科学家的细微差别决策和创造力之前还有很长的路要走。现在的挑战在于弥合这一差距,并确定如何在机器学习工程领域最好地将人工智能功能与人类专业知识相结合。
原创文章,作者:点点,如若转载,请注明出处:https://www.dian8dian.com/ren-gong-zhi-neng-zhen-de-neng-yu-ren-lei-shu-ju-ke-xue-jia