向分子世界的视频生成模型迈进

新系统从模拟中的单个帧开始,使用生成式人工智能模拟分子的动态,连接静态分子结构并将模糊的图片开发成视频。

向分子世界的视频生成模型迈进

随着生成式人工智能模型能力的不断增强,您可能已经看到它们如何将简单的文本提示转换为超现实的图像甚至扩展的视频片段。

最近,生成式人工智能已显示出帮助化学家和生物学家探索静态分子(如蛋白质和 DNA)的潜力。像 AlphaFold 这样的模型可以预测分子结构以加速药物发现,而麻省理工学院辅助的“ RFdiffusion ”可以帮助设计新的蛋白质。然而,一个挑战是分子不断移动和抖动,这对于构建新蛋白质和药物时的建模非常重要。使用物理学在计算机上模拟这些运动(一种称为分子动力学的技术)可能非常昂贵,需要在超级计算机上进行数十亿次时间步骤。

为了更有效地模拟这些行为,麻省理工学院计算机科学与人工智能实验室 (CSAIL) 和数学系的研究人员开发了一种从先前数据中学习的生成模型。该团队的系统称为 MDGen,可以拍摄 3D 分子的帧并像视频一样模拟接下来会发生什么,连接单独的静止图像,甚至填充缺失的帧。通过点击分子上的“播放按钮”,该工具可能有助于化学家设计新分子,并密切研究他们用于治疗癌症和其他疾病的药物原型与其想要影响的分子结构的相互作用情况。

共同主要作者 Bowen Jing SM ’22 表示,MDGen 是一个早期的概念证明,但它预示着一个令人兴奋的新研究方向的开始。“早期,生成式 AI 模型制作了一些简单的视频,比如一个人眨眼或一只狗摇尾巴,”CSAIL 的博士生 Jing 说。“快进几年,现在我们有了像 Sora 或 Veo 这样令人惊叹的模型,它们可以以各种有趣的方式发挥作用。我们希望为分子世界灌输类似的愿景,其中动态轨迹就是视频。例如,你可以给模型第一帧和第十帧,它会为中间的内容制作动画,或者它可以从分子视频中去除噪音并猜测隐藏了什么。”

研究人员表示,MDGen 代表了与之前类似的生成式 AI 工作的范式转变,它能够实现更广泛的用例。以前的方法是“自回归的”,这意味着它们依赖于前一个静止帧来构建下一个静止帧,从第一帧开始创建视频序列。相比之下,MDGen 生成帧与扩散并行。这意味着除了在初始帧上按播放键外,MDGen 还可用于连接端点处的帧,或“上采样”低帧率轨迹。

这项研究成果发表在去年 12 月举行的神经信息处理系统会议 (NeurIPS) 上的一篇论文中。去年夏天,该成果因其潜在的商业影响而在国际机器学习会议的 ML4LMS 研讨会上获奖。

分子动力学的一些小进步

在实验中,Jing 和他的同事发现 MDGen 的模拟类似于直接运行物理模拟,但产生的轨迹速度要快 10 到 100 倍。

该团队首先测试了他们的模型接收分子的 3D 帧并生成接下来的 100 纳秒的能力。他们的系统将这些代的连续 10 纳秒块拼凑在一起以达到该持续时间。该团队发现 MDGen 能够与基线模型的精度相媲美,同时在大约一分钟内完成视频生成过程 – 仅为基线模型模拟相同动态所需三个小时的一小部分。

当给定一纳秒序列的第一帧和最后一帧时,MDGen 还会对中间的步骤进行建模。研究人员的系统在超过 100,000 个不同的预测中表现出一定程度的真实性:在短于 100 纳秒的片段上,它模拟的分子轨迹比基线更可能。在这些测试中,MDGen 还表明它能够对以前从未见过的肽进行概括。MDGen

的功能还包括模拟帧内的帧,“上采样”每纳秒之间的步骤,以更充分地捕捉更快的分子现象。它甚至可以“修复”分子结构,恢复被删除的有关它们的信息。研究人员最终可以利用这些特征来设计蛋白质,这些蛋白质基于分子不同部分应如何移动的规范。

摆弄蛋白质动力学

Jing 和共同第一作者 Hannes Stärk 表示,MDGen 是朝着更高效地生成分子动力学方向取得进展的早期迹象。尽管如此,他们仍缺乏数据,无法让这些模型立即影响设计药物或分子,从而诱导化学家希望在目标结构中看到的运动。

研究人员的目标是将 MDGen 从分子建模扩展到预测蛋白质随时间的变化。“目前,我们正在使用玩具系统,”同样是 CSAIL 博士生的 Stärk 说。“为了增强 MDGen 预测蛋白质建模的能力,我们需要在现有架构和可用数据的基础上进行构建。我们还没有用于这些类型模拟的 YouTube 规模存储库,因此我们希望开发一种单独的机器学习方法,以加快我们模型的数据收集过程。”

目前,MDGen 为肉眼看不见的分子变化建模提供了一条令人鼓舞的前进道路。化学家还可以利用这些模拟深入研究癌症或结核病等疾病的药物原型的行为。

“从物理模拟中学习的机器学习方法代表了科学人工智能的一个新兴前沿,”麻省理工学院西蒙斯数学教授、CSAIL 首席研究员、论文高级作者 Bonnie Berger 说。“MDGen 是一个多功能、多用途的建模框架,连接了这两个领域,我们非常高兴能在这个方向上分享我们的早期模型。”

“对分子状态之间真实的过渡路径进行采样是一项重大挑战,”本文共同资深作者、麻省理工学院电气工程与计算机科学 Thomas Siebel 教授、数据、系统和社会研究所以及 CSAIL 首席研究员 Tommi Jaakkola 说道。“这项早期工作展示了我们如何通过将生成建模转变为完整的模拟运行来开始应对这些挑战。”

生物信息学领域的研究人员都对该系统模拟分子转变的能力表示赞赏。“MDGen 将分子动力学模拟建模为结构嵌入的联合分布,捕捉离散时间步骤之间的分子运动,”查尔姆斯理工大学副教授 Simon Olsson 说道(他没有参与这项研究)。“利用掩蔽的学习目标,MDGen 可以实现创新用例,例如过渡路径采样、绘制连接亚稳态相的修复轨迹的类比。”

研究人员在 MDGen 上的工作得到了美国国立普通医学科学研究所、美国能源部、美国国家科学基金会、药物发现与合成机器学习联盟、阿卜杜勒·拉蒂夫·贾米尔健康机器学习诊所、国防威胁降低局和国防高级研究计划局的部分支持。

原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/xiang-fen-zi-shi-jie-de-shi-pin-sheng-cheng-mo-xing-mai-jin

Like (0)
王 浩然的头像王 浩然作者
Previous 2025年1月27日
Next 2025年1月27日

相关推荐

发表回复

Please Login to Comment