人工智能真的能与人类数据科学家竞争吗？OpenAI的新基准对它进行了测试

点点 • 2024年10月14日下午3:00 • AI前沿 • 91 views

OpenAI推出了一种测量机器学习工程中人工智能能力的新工具。这个被称为MLE-bench的基准，通过来自机器学习竞赛的流行平台Kaggle的75场真实世界数据科学比赛来挑战人工智能系统。

随着科技公司加紧努力开发更有能力的人工智能系统，出现了这一基准。MLE-bench超越了测试人工智能的计算或模式识别能力；它评估人工智能是否可以在机器学习工程的复杂领域进行规划、故障排除和创新。

你准备好使用人工智能代理了吗？

人工智能对Kaggle：令人印象深刻的胜利和令人惊讶的挫折

结果揭示了当前人工智能技术的进步和局限性。OpenAI最先进的模型o1-preview，当与名为AIDE的专用脚手架配对时，在16.9%的比赛中取得了值得获得奖牌的表现。这种性能值得一提，表明在某些情况下，人工智能系统可以在与熟练的人类数据科学家相媲美的水平上竞争。

然而，这项研究也凸显了人工智能和人类专业知识之间的重大差距。人工智能模型经常成功应用标准技术，但在需要适应性或创造性解决问题的任务上却很吃力。这一限制凸显了人类洞察力在数据科学领域的持续重要性。

机器学习工程涉及设计和优化使人工智能能够从数据中学习的系统。MLE-bench根据该过程的各个方面评估人工智能代理，包括数据准备、模型选择和性能调整。

从实验室到工业：人工智能在数据科学中的深远影响

这项研究的影响超出了学术兴趣。能够独立处理复杂机器学习任务的人工智能系统的开发可以加速各行业的科学研究和产品开发。然而，这也提出了关于人类数据科学家不断变化的作用以及人工智能能力快速进步的潜力的问题。

OpenAI决定让MLE-benc开源，允许更广泛地检查和使用基准。此举可能有助于建立评估人工智能在机器学习工程中进展的共同标准，有可能塑造该领域的未来发展和安全考虑。

随着人工智能系统在专业领域接近人类水平的性能，MLE-bench等基准为跟踪进度提供了关键的指标。它们针对人工智能能力的夸大主张提供了现实检查，为当前人工智能的优势和劣势提供了明确、可量化的衡量标准。

人工智能和人类协作在机器学习中的未来

正在进行的增强人工智能能力的努力正在获得势头。MLE-bench为这一进步提供了新的视角，特别是在数据科学和机器学习领域。随着这些人工智能系统的改进，它们可能很快就会与人类专家协同工作，有可能拓宽机器学习应用的视野。

然而，重要的是要注意，虽然基准显示了有希望的结果，但它也表明，人工智能在能够完全复制经验丰富的数据科学家的细微差别决策和创造力之前还有很长的路要走。现在的挑战在于弥合这一差距，并确定如何在机器学习工程领域最好地将人工智能功能与人类专业知识相结合。

原创文章，作者：点点，如若转载，请注明出处：https://www.dian8dian.com/ren-gong-zhi-neng-zhen-de-neng-yu-ren-lei-shu-ju-ke-xue-jia

Like (0)

点点

0 0

AI21首席执行官表示，由于错误延续，变压器不适合人工智能代理

Previous 2024年10月14日

“稻草人”问题：如何克服人工智能的局限性

Next 2024年10月14日

AI前沿

苹果针对性别语言翻译的解决方案

苹果公司刚刚与南加州大学合作发表了一篇论文，探讨了用于让 iOS18 操作系统用户在翻译时拥有更多性别选择权的机器学习方法。在 iOS18 中，用户可以在原生翻译应用中为翻译的单…

点点
2024年10月9日
000
AI前沿

欧盟人工智能法案：早期准备可使企业获得竞争优势

《欧盟人工智能法案》预计将于 2026 年 8 月全面生效，但一些条款的生效时间甚至会更早。该立法为人工智能系统建立了首个监管框架，采用基于风险的方法，根据人工智能应用对安全、人…

点点
2024年10月24日
000
AI前沿

许多公司不愿透露是否会遵守加州的人工智能培训透明度法

周日，加州州长加文·纽瑟姆签署了一项法案AB-2013，要求开发生成式人工智能系统的公司发布用于训练其系统的数据的高级摘要。除其他事项外，摘要必须涵盖谁拥有数据、数据是如何获得或授…

王浩然
2024年10月7日
000
AI前沿

【2024 CX报告】AI成客户体验王牌，成本却让人意外！

一份新报告显示，尽管企业将生成式人工智能(GenAI) 视为改变客户体验 (CX) 的关键因素，但许多企业仍为实施成本而苦恼。该研究结果来自 CallMiner 的《2024 年客…

点点
2024年9月11日
000
AI前沿

尽管存在风险，Vinod Khosla 对人工智能仍持乐观态度

维诺德·科斯拉 (Vinod Khosla) 坚信，人类在人工智能的推动下的未来是光明的。这位 Sun Microsystems 联合创始人、现任著名投资者预测，“工作需求将会消…

王浩然
2024年10月29日
000
AI前沿

为什么必须挑战人工智能独裁者才能做得更好

如果说我们从人工智能时代学到了什么，那就是这个行业正在努力应对巨大的能源挑战。这些挑战既是字面意义上的挑战——比如如何找到满足人工智能数据中心巨大能源需求的方法——也是比喻意义上的…

点点
2024年9月5日
000
AI前沿

谷歌 DeepMind 开源 AlphaFold 3，开启药物研发和分子生物学新时代

Google DeepMind意外发布了AlphaFold 3的源代码和模型权重，供学术使用，这标志着一项重大进展，可能加速科学发现和药物开发。就在几周前，该系统的创建者 Demi…

王浩然
2024年11月13日
000
AI前沿

以下是增强 AI 性能的 3 个关键 LLM 压缩策略

在当今快节奏的数字环境中，依赖人工智能的企业面临着新的挑战：运行人工智能模型的延迟、内存使用和计算能力成本。随着人工智能的快速发展，支持这些创新的模型变得越来越复杂和资源密集。虽然…

王浩然
2024年11月11日
000
AI前沿

AI 编码助手 Supermaven 从 OpenAI 和 Perplexity 联合创始人处筹集资金

雅各布·杰克逊 (Jacob Jackson) 在职业生涯早期全身心投入人工智能领域。杰克逊与他人共同创立了Tabnine，这是一款 AI 编码助手，后来筹集了近 6000 万美…

王浩然
2024年9月17日
000
AI前沿

Runway 拨款 500 万美元资助多达 100 部使用 AI 生成视频的电影

AI 视频生成器需要相信电影制作者会在制作过程中使用他们的模型。否则它为何存在？为了启动新的 AI 电影生态系统，Runway拨出 500 万美元现金和更多服务积分，用于资助多达…

王浩然
2024年9月27日
000
AI前沿

Quantexa获1.75亿美元融资，估值达26亿美元，加码人工智能数据分析‌

近期，数据分析领域的创新企业Quantexa宣布成功获得1.75亿美元的融资，公司估值随之跃升至26亿美元。这笔资金将主要用于加速Quantexa在人工智能数据分析领域的布局，进一…

王浩然
2025年3月6日
000
AI前沿

改变我们在董事会中对 GenAI 的看法：把握短期和长期投资回报率

随着世界各地的领导团队开始规划 2025 年，每个人都在思考一个问题：他们在人工智能和/或生成式人工智能 (GenAI) 上的投资何时能获得回报。Google Cloud 的最新研…

点点
2024年10月11日
000
AI前沿

谷歌利用人工智能识别量子误差

谷歌的DeepMind和Quantum AI团队开发了AlphaQubit，这是一种基于神经网络的解码器，可以比以前的方法更准确地识别量子计算错误。量子计算机可以解决传统计算机目…

王浩然
2024年12月2日
000
AI前沿

DeepSeek 有助于加速威胁检测，但同时也引发了国家安全担忧

DeepSeek 及其 R1 模型不会浪费任何时间来实时重写网络安全 AI 规则，从初创公司到企业提供商等所有公司都在本月试行集成到他们的新模型中。 R1 是在中国开发的，基于纯强…

王浩然
2025年2月3日
000
AI前沿

商业基础设施 AI 的未来：为何 Apple Silicon 驱动的私有裸机解决方案是 IT 部门的理想选择

随着企业（尤其是中小型 IT 部门）寻求将 AI 纳入其运营，他们面临着一个复杂且不断变化的市场。尽管 AI 的前景令人兴奋，但前景充满不确定性。公共 AI 聊天机器人广泛可用，但…

王浩然
2025年1月13日
000
AI前沿

量子媒体与娱乐营销总监 Skip Levens – 访谈系列

Skip Levens是 Quantum 的产品负责人和 AI 策略师，Quantum 是 AI 和非结构化数据数据管理解决方案领域的领导者。他目前负责推动 Quantum 端到端…

点点
2024年10月16日
000
AI前沿

IBM 研究：大多数 CEO 担心人工智能的准确性和偏见

根据 IBM 商业价值研究院关于人工智能治理的最新调查，近一半的首席执行官担心人工智能的准确性和偏见。 IBM 商业价值研究院针对人工智能治理的最新调查还发现，21% 的高管表示其…

王浩然
2024年11月8日
000
AI前沿

YouTube 将使用人工智能生成创意、标题甚至完整视频

人工智能在谷歌的整个产品组合中都大行其道，YouTube 也采用了该公司的一些最新技术来帮助创作者进行创作。周三，在纽约市举行的 Made on YouTube 活动上，该公司宣布…

王浩然
2024年9月20日
000
AI前沿

蝙蝠侠：阿卡姆影的VR版《黑暗骑士》现在有发布日期

我们已经知道它将于今年10月上映，但《蝙蝠侠：阿卡姆之影》——Rocksteady广受好评的超级英雄系列的有前途的VR版本——现在有一个合适的发布日期。它将于今年10月22日为Me…

点点
2024年9月26日
000
AI前沿

TikTok 将自动标记平台上的 AI 生成内容

TikTok 将使用“内容凭证”技术，该技术将元数据附加到内容上，表明该内容是使用人工智能创建的。 TikTok 表示，将开始自动标记从其他平台上传的人工智能生成内容 (AIGC)…

王浩然
2024年9月15日
000