代理实验室：AMD 和约翰霍普金斯大学共同组建的虚拟研究团队

王浩然 • 2025年1月14日下午5:00 • AI前沿 • 82 views

当每个人都在热议人工智能代理和自动化时，AMD 和约翰霍普金斯大学一直在致力于改善人类和人工智能在研究中的协作方式。他们的新开源框架Agent Laboratory完全重新构想了如何通过人机协作加速科学研究。

在研究了众多人工智能研究框架后，Agent Laboratory 因其实用方法而脱颖而出。它并不像许多现有解决方案那样试图取代人类研究人员，而是专注于通过处理研究中耗时的方面来增强他们的能力，同时让人类保持主导地位。

这里的核心创新简单但强大：代理实验室并不追求完全自主的研究（这通常会导致可疑的结果），而是创建了一个虚拟实验室，其中多个专门的人工智能代理一起工作，每个代理处理研究过程的不同方面，同时坚持人类的指导。

虚拟实验室剖析

可以将 Agent Laboratory 视为一个精心组织的研究团队，但其中的 AI 代理会扮演专门的角色。就像真正的研究实验室一样，每个代理都有特定的职责和专长：

博士代理处理文献综述和研究规划
博士后代理帮助改进实验方法
ML 工程师代理负责技术实施
教授代理对研究成果进行评估和评分

该系统的特别之处在于其工作流程。与孤立运行的传统 AI 工具不同，Agent Laboratory 创建了一个协作环境，这些代理可以在其中进行交互并相互借鉴。

该过程遵循自然的研究进程：

文献综述：博士代理使用arXiv API搜索学术论文，收集和组织相关研究
计划制定：博士和博士后代理人合作制定详细的研究计划
实施： ML 工程师代理编写和测试代码
分析和文档：团队共同解释结果并生成综合报告

但它的实用性在于：该框架具有计算灵活性，这意味着研究人员可以根据其计算能力和预算限制来分配资源。这使它成为专为实际研究环境设计的工具。

人为因素：人工智能与专业知识的交融

虽然 Agent Laboratory 拥有令人印象深刻的自动化功能，但真正的魔力在于他们所谓的“副驾驶模式”。在这种设置下，研究人员可以在流程的每个阶段提供反馈，从而在人类专业知识和人工智能协助之间建立真正的协作。

副驾驶反馈数据揭示了一些令人信服的见解。在自主模式下，Agent Laboratory 生成的论文在人工评估中的平均得分为 3.8/10。但当研究人员采用副驾驶模式时，这些分数跃升至 4.38/10。特别有趣的是这些改进表现在哪里——论文在清晰度（+0.23）和呈现（+0.33）方面的得分明显更高。

但现实情况是这样的：即使有人类参与，这些论文的得分仍比NeurIPS论文的平均得分（5.85）低 1.45 分。这不是失败，而是关于人工智能和人类专业知识如何相互补充的重要学习。

评估结果还揭示了另一件有趣的事情：人工智能审阅者对论文的评分始终比人类审阅者高出约 2.3 分。这一差距凸显了为什么人类监督在研究评估中仍然至关重要。

数据解析

在研究环境中什么才是真正重要的？成本和性能。Agent Laboratory 的模型比较方法揭示了这方面的一些令人惊讶的效率提升。

GPT-4o 成为速度冠军，仅用 1,165.4 秒就完成了整个工作流程——比 o1-mini 快 3.2 倍，比 o1-preview 快 5.3 倍。但更重要的是，每篇论文的成本仅为 2.33 美元。与之前成本约为 15 美元的自主研究方法相比，我们预计成本将降低 84%。

查看模型性能：

o1-preview 在实用性和清晰度方面得分最高
o1-mini 取得了最佳实验质量分数
GPT-4o 在指标上落后，但在成本效率上领先

这对现实世界有着重大的影响。

研究人员现在可以根据自己的特定需求选择方法：

需要快速制作原型？GPT-4o 提供速度和成本效益
优先考虑实验质量？o1-mini 可能是你最好的选择
寻找最精致的输出？o1 预览版前景看好

这种灵活性意味着研究团队可以根据他们的资源和要求调整框架，而不是被锁定在一个千篇一律的解决方案中。

研究的新篇章

在研究了 Agent Laboratory 的能力和成果后，我确信我们正在目睹研究方式的重大转变。但占据头条新闻的并不是替代的叙述——而是更加微妙和强大的东西。

虽然 Agent Laboratory 的论文本身尚未达到顶级会议标准，但它们正在为研究加速创造一种新范式。想象一下拥有一支永不休息的人工智能研究助理团队，每个人都专注于科学过程的不同方面。

这对研究人员的影响是深远的：

花费在文献综述和基本编码上的时间可以用于创意构思
由于资源限制而被搁置的研究想法变得可行
快速制作原型并测试假设的能力可能会带来更快的突破

当前的限制，例如人工智能和人类评分之间的差距，都是机遇。这些系统的每次迭代都让我们更接近人类和人工智能之间更复杂的研究合作。

展望未来，我认为有三个关键发展可能重塑科学发现：

随着研究人员学会有效利用这些工具，将会出现更复杂的人机协作模式
成本和时间的节省可以使研究更加民主化，使小型实验室和机构能够开展更雄心勃勃的项目
快速原型制作能力可以带来更多的研究实验方法

最大限度地发挥这一潜力的关键是什么？要明白 Agent Laboratory 和类似框架是放大工具，而不是自动化工具。研究的未来不是在人类专业知识和人工智能能力之间做出选择，而是找到创新的方式来结合它们。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/dai-li-shi-yan-shi-amd-he-yue-han-huo-pu-jin-si-da-xue-gong

Like (0)

王浩然作者

0 0

代理人工智能与空间计算的融合是否会在人工智能革命中增强人类能动性？

Previous 2025年1月14日

Nscale 将向英国数据中心投资 25 亿美元，助力生成式人工智能和政府雄心

Next 2025年1月14日

AI前沿

OpenAI 推出 o3-mini 高级推理模型，对抗 DeepSeek 的崛起

OpenAI 及时发布了新的专有 AI 模型，以对抗开源竞争对手 DeepSeek-R1 的快速崛起——但这足以削弱后者的成功吗？今天，经过几天的谣言和社交媒体上人工智能用户的日…

王浩然
2025年2月2日
000
AI前沿

Spotter 推出 AI 工具，帮助 YouTube 用户集思广益制作视频创意、缩略图等

为内容创作者提供财务解决方案的初创公司Spotter周二宣布推出其新的人工智能创意套件。该解决方案名为Spotter Studio，旨在为 YouTube 创作者提供整个创作过程的…

王浩然
2024年9月4日
000
AI前沿

非营利组织加入伊隆·马斯克的行列，阻止 OpenAI 向营利性转型

Encode 是一家非营利组织，也是加利福尼亚州命运多舛的 SB 1047人工智能安全法案的共同发起人，该组织已请求允许提交一份法庭之友陈述，以支持埃隆·马斯克的禁令，阻止 Ope…

王浩然
2024年12月29日
000
AI前沿

Cerebras 与 Nvidia：新的推理工具有望实现更高的性能2

人工智能硬件初创公司Cerebras创建了一种新的人工智能推理解决方案，可能与 Nvidia 为企业提供的 GPU 产品相媲美。 Cerebras Inference 工具基于该公…

36氪
2024年8月31日
000
AI前沿

放射学AI软件供应商Gleamer通过两项小型收购进军MRI领域‌

放射学AI领域的佼佼者Gleamer近日宣布了两项重要的小型收购，标志着其正式进军MRI（磁共振成像）市场。此次战略扩展，旨在强化Gleamer在医疗影像诊断方面的技术实力和市场地…

王浩然
2025年3月12日
000
AI前沿

AI招聘初创公司Mercor：由21岁青年创立，以20亿美元估值融资1亿美元

近日，一家专注于人工智能招聘领域的初创公司Mercor宣布成功完成1亿美元的融资，公司估值达到20亿美元。这家创新企业由一群仅21岁的青年才俊共同创立，致力于通过人工智能技术颠覆传…

王浩然
2025年2月24日
000
AI前沿

不只是炒菜，AI正在全面渗透餐饮

AI推动餐饮行业智能化革命，机器人正取代厨师、制茶师、咖啡师。 9月13日，北京市发出首张“具身智能机器人食品经营许可证”。所谓具身智能机器人，指将人工智能融入机器人这个物理实体…

点点
2024年9月21日
000
AI前沿

IBM 研究：大多数 CEO 担心人工智能的准确性和偏见

根据 IBM 商业价值研究院关于人工智能治理的最新调查，近一半的首席执行官担心人工智能的准确性和偏见。 IBM 商业价值研究院针对人工智能治理的最新调查还发现，21% 的高管表示其…

王浩然
2024年11月8日
000
AI前沿

人工智能生成的内容如何增加维基百科编辑的工作量

随着 OpenAI 的 GPT 等大型语言模型 (LLM) 的兴起，人工智能生成的垃圾内容占据了越来越多的用户生成的互联网领域，请为维基百科编辑们着想。除了他们通常的工作，即清除糟…

王浩然
2024年10月12日
000
AI前沿

OpenAI的GPT 4.5模型向更多ChatGPT用户开放‌

随着人工智能技术的不断进步，OpenAI再次引领行业潮流，宣布将其最新的GPT 4.5模型向更多的ChatGPT用户开放。这一消息无疑为人工智能爱好者及从业者带来了振奋人心的消息，…

王浩然
2025年3月8日
000
AI前沿

1X 发布生成世界模型来训练机器人

机器人初创公司1X Technologies开发了一种新的生成模型，可以大大提高在模拟中训练机器人系统的效率。该公司在一篇新博客文章中宣布了这一模型，它解决了机器人技术的一个重要挑…

王浩然
2024年9月20日
000
AI前沿

NaNoWriMo 拒绝谴责人工智能写作工具，引发争议

随着秋季的临近，有抱负的小说家们纷纷腾出时间参加美国小说写作月 (NaNoWriMo)，这是一项国际创意写作活动，参与者需要在 11 月期间撰写 50,000 字的手稿。该活动自 …

点点
2024年9月11日
000
AI前沿

ApertureData 使用多模式数据为企业提供 10 倍速度提升

数据是人工智能的圣杯。从敏捷的初创公司到全球企业集团，世界各地的组织都在投入数十亿美元来调动数据集，以打造高性能的人工智能应用程序和系统。但即使付出了这么多努力，现实情况是，访问…

王浩然
2024年10月15日
000
AI前沿

加密货币骗子入侵 OpenAI 在 X 上的新闻账号

OpenAI 在 X 上的官方新闻账号似乎也遭到了加密货币骗子的攻击，前几个月攻击该公司领导层的账号的也是同样的情况。周一下午晚些时候，OpenAI Newsroom（OpenA…

王浩然
2024年9月25日
000
AI前沿

AWS SageMaker 正在转型为数据和 AI 的综合中心

今天，亚马逊网络服务 (AWS) 在其年度大型会议re:Invent 2024上宣布了其下一代基于云的机器学习 (ML) 开发平台 SageMaker，将其转变为一个统一的中心，使…

王浩然
2024年12月4日
000
AI前沿

Automattic 为员工提供了另一次辞职机会——这次的遣散费为 9 个月

Automattic 首席执行官马特·穆伦维格 (Matt Mullenweg) 向有意离职的员工提供为期六个月的遣散费，几天后， 159 人接受了这一提议。10 月 16 日晚，…

王浩然
2024年10月24日
000
AI前沿

Tessl 以 5 亿美元以上的估值筹集 1.25 亿美元，用于构建编写和维护代码的 AI

许多初创公司和大型科技公司都尝试开发人工智能来编写软件。现在，又有一家新公司从幕后走出来，加入竞争行列，其使命是解决人类和所有这些人工智能一起编写代码时出现的许多问题。 Tessl…

王浩然
2024年11月15日
000
AI前沿

Runware 使用定制硬件和高级编排实现快速 AI 推理

有时，演示就是您了解产品所需的全部内容。Runware 就是这种情况。如果您访问Runware 的网站，输入提示并按 Enter 生成图像，您会惊讶于 Runware 为您生成图像…

王浩然
2024年10月2日
000
AI前沿

Zeekr 将使用 Nvidia 超级芯片；向 Waymo 交付自动驾驶出租车：CES 2025

中国高端品牌 Zeekr在CES 上发布了几项重要公告，表明其将成为自动驾驶汽车(AV) 市场中一股不容忽视的力量。首先，该公司确认将推出一款采用 Nvidia Drive…

王浩然
2025年1月12日
000
AI前沿

xAI 凭借“Colossus”人工智能训练系统打破纪录

埃隆·马斯克的xAI推出了其破纪录的 AI 训练系统，被称为“Colossus”。马斯克透露，经过 122 天的准备，xAI 团队已成功将 Colossus 100k H100 …

点点
2024年9月4日
000