麻省理工学院的工程师开发了人工智能框架来识别可以推动生物启发材料发展的证据驱动假设。
提出独特且有前景的研究假设是任何科学家的基本技能。这也可能很耗时:新博士生可能会在项目的第一年里决定在实验中究竟要探索什么。如果人工智能能帮上忙呢?
麻省理工学院的研究人员通过人机协作,创建了一种跨领域自主生成和评估有前景的研究假设的方法。在一篇新论文中,他们描述了如何使用这个框架来创建证据驱动的假设,以满足生物启发材料领域尚未满足的研究需求。
该项研究于周三发表在《先进材料》杂志上,由原子和分子力学实验室 (LAMM) 的博士后 Alireza Ghafarollahi 与麻省理工学院土木与环境工程系和机械工程系的杰里·迈克菲工程学教授兼 LAMM 主任 Markus Buehler 共同撰写。
研究人员将这个框架称为 SciAgents,它由多个 AI 代理组成,每个代理都具有特定的能力和数据访问权限,它们利用“图形推理”方法,其中 AI 模型利用知识图来组织和定义不同科学概念之间的关系。多代理方法模仿了生物系统将自身组织为基本构件组的方式。Buehler 指出,这种“分而治之”原则是生物学中许多层面的一个突出范例,从材料到昆虫群再到文明——所有这些例子都表明,总体智力远远大于个人能力的总和。
“通过使用多个人工智能代理,我们试图模拟科学家群体的发现过程,”Buehler 说道。“在麻省理工学院,我们通过让一群具有不同背景的人一起工作并在咖啡店或麻省理工学院的无限走廊中相遇来实现这一点。但这是偶然的,而且进展缓慢。我们的任务是通过探索人工智能系统是否具有创造力并做出发现来模拟发现过程。”
自动化好主意
正如最近的发展所表明的那样,大型语言模型 (LLM) 表现出了令人印象深刻的回答问题、总结信息和执行简单任务的能力。但在从头开始产生新想法方面,它们的能力相当有限。麻省理工学院的研究人员希望设计一个系统,使人工智能模型能够执行更复杂的多步骤过程,而不仅仅是回忆训练期间学到的信息,还可以推断和创造新知识。
他们的方法的基础是本体知识图谱,它可以组织和建立各种科学概念之间的联系。为了制作这些图谱,研究人员将一组科学论文输入生成式人工智能模型。在之前的工作中,Buehler 使用数学领域中的范畴论来帮助人工智能模型将科学概念抽象为图谱,以定义组件之间的关系为根基,这样其他模型就可以通过称为图推理的过程对其进行分析。这使人工智能模型专注于开发一种更有原则的方式来理解概念;这也使它们能够更好地跨领域推广。
“这对于我们创建以科学为中心的人工智能模型非常重要,因为科学理论通常植根于可推广的原则,而不仅仅是知识回忆,”Buehler 说。“通过以这种方式将人工智能模型的重点放在‘思考’上,我们可以超越传统方法,探索人工智能的更多创造性用途。”
在最近的论文中,研究人员使用了大约 1,000 项关于生物材料的科学研究,但 Buehler 表示,知识图谱可以使用任何领域的更多或更少的研究论文来生成。
在建立图表后,研究人员开发了一个用于科学发现的人工智能系统,其中有多个专门在系统中扮演特定角色的模型。大多数组件都是基于 OpenAI 的 ChatGPT-4 系列模型构建的,并使用了一种称为上下文学习的技术,其中提示提供有关模型在系统中角色的上下文信息,同时允许它从提供的数据中学习。
框架中的各个代理相互交互,共同解决一个复杂的问题,而这些问题是它们单独无法解决的。它们面临的第一个任务是提出研究假设。LLM 交互在从知识图谱中定义子图后开始,这可以随机发生,也可以通过手动输入论文中讨论的一对关键词来发生。
在该框架中,研究人员将一种语言模型命名为“本体论者”,该模型负责定义论文中的科学术语并检查它们之间的联系,充实知识图谱。然后,一个名为“科学家 1”的模型根据其发现意外属性和新颖性的能力等因素制定研究提案。该提案包括对潜在发现、研究影响的讨论以及对潜在作用机制的猜测。“科学家 2”模型扩展了这个想法,提出了具体的实验和模拟方法并进行了其他改进。最后,“批评家”模型强调了它的优点和缺点并提出了进一步的改进建议。
“这关乎组建一支专家团队,他们的想法并不完全一致,”Buehler 说道。“他们必须有不同的想法,并具备不同的能力。Critic 智能体被刻意设计用来批评其他人,因此你不会看到每个人都同意并说这是一个好主意。你会看到一个智能体说,‘这里有一个弱点,你能更好地解释一下吗?’这使得输出与单一模型大不相同。”
系统中的其他代理能够搜索现有文献,这为系统提供了一种不仅可以评估可行性而且可以创造和评估每个想法的新颖性的方法。
让系统更加强大
为了验证他们的方法,Buehler 和 Ghafarollahi 根据“丝绸”和“能源密集型”这两个词构建了一个知识图谱。利用该框架,“科学家 1”模型提出将丝绸与蒲公英基颜料相结合,以创造具有增强光学和机械性能的生物材料。该模型预测这种材料将比传统的丝绸材料强得多,并且加工所需的能量更少。
随后,科学家 2 提出了一些建议,例如使用特定的分子动力学模拟工具来探索所提议材料如何相互作用,并补充说,这种材料的一个很好的应用是仿生粘合剂。随后,Critic 模型强调了所提议材料的几个优点和需要改进的领域,例如其可扩展性、长期稳定性以及溶剂使用对环境的影响。为了解决这些问题,Critic 建议进行工艺验证的试点研究,并对材料耐久性进行严格的分析。
研究人员还使用随机选择的关键词进行了其他实验,产生了各种原始假设,包括更高效的仿生微流控芯片、增强基于胶原蛋白的支架的机械性能以及石墨烯和淀粉样蛋白原纤维之间的相互作用以创建生物电子设备。
“该系统能够根据知识图谱中的路径提出这些新的、严谨的想法,”Ghafarollahi 说。“就新颖性和适用性而言,这些材料似乎既坚固又新颖。在未来的工作中,我们将产生数千或数万个新的研究想法,然后我们可以对它们进行分类,尝试更好地了解这些材料的生成方式以及如何进一步改进它们。”
展望未来,研究人员希望将新的信息检索和模拟工具融入到他们的框架中。他们还可以轻松地将框架中的基础模型换成更先进的模型,让系统适应人工智能的最新创新。
“由于这些代理的交互方式,一个模型的改进,即使是很小的改进,也会对系统的整体行为和输出产生巨大的影响,”Buehler 说。
自从研究人员发布了包含其方法的开源细节的预印本以来,他们已经联系了数百人,他们有兴趣在各个科学领域甚至金融和网络安全等领域使用这些框架。
“有很多事情你不用去实验室就能做,”Buehler 说。“你基本上希望在这个过程的最后去实验室。实验室费用昂贵,需要很长时间,所以你需要一个可以深入研究最佳想法、制定最佳假设并准确预测突发行为的系统。我们的愿景是让它易于使用,这样你就可以使用应用程序引入其他想法或拖入数据集来真正挑战模型以做出新发现。”
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/xu-yao-yan-jiu-jia-she-ma-wen-wen-ren-gong-zhi-neng