蛋白质是生物的分子机器。它们是我们身体的建造者——制造肌肉、骨骼和大脑;调节器——控制系统;以及本地互联网——负责在细胞和区域之间传递信息。总之,蛋白质对我们的生存至关重要。当它们工作时,我们是健康的。当它们不工作时,我们就不健康。
这就是为什么我们最近对蛋白质结构的理解有了飞跃,并且通过人工智能从头开始设计全新蛋白质的能力有了如此巨大的进步。这也是为什么今年有三位计算机科学家因其在该领域的工作而获得诺贝尔化学奖。
事情绝不会停滞不前。2024 年将是 AI 蛋白质设计的又一个胜利之年。
今年早些时候,科学家扩展了人工智能模拟蛋白质如何与其他生物分子(如 DNA、RNA 以及调节其形状和功能的小分子)结合的能力。这项研究扩大了流行的蛋白质设计人工智能工具 RoseTTAFold 的范围,使其能够在原子水平上绘制复杂的基于蛋白质的分子机器——从而为更复杂的疗法铺平了道路。
DeepMind随后很快发布了 AlphaFold3,这是一种能够预测蛋白质与其他分子相互作用的人工智能模型。这款先进的人工智能工具现已向研究人员开放,很可能会催生出大量创新、治疗方法和对生物过程的洞察。
与此同时,蛋白质设计在今年变得更加灵活。人工智能模型生成了“效应”蛋白,这些蛋白可以在分子开关存在的情况下变形。这种翻转结构改变了它们对细胞的生物学影响。其中一些蛋白变形为各种结构,包括可以像微型宇宙飞船一样封装和运送药物的笼状结构。
这些蛋白质很新颖,但人工智能设计的蛋白质真的有效吗?根据多项研究,确实有效。
其中一个团队利用人工智能构想出了一个潜在的 CRISPR 基因编辑器世界。受大型语言模型(例如催生 ChatGPT 的语言模型)的启发,该研究中的人工智能模型最终设计出了一种基因编辑系统,在细胞测试中与现有的基于 CRISPR 的工具一样准确。另一个人工智能设计了圆形蛋白质,可以可靠地将干细胞转化为不同类型的血管细胞。其他人工智能生成的蛋白质将蛋白质“垃圾”引导到溶酶体中,溶酶体是一种充满细胞内酸的废物处理团,可保持细胞整洁。
在医学之外,人工智能设计了矿物质形成蛋白,如果将其整合到水生微生物中,就有可能吸收多余的碳并将其转化为石灰石。虽然这项技术还处于早期阶段,但它可以通过持续数百万年的碳吸收来应对气候变化。
似乎想象力是人工智能蛋白质设计的唯一限制。但仍有一些情况人工智能还无法完全处理。《自然》杂志有一份详尽的清单,但这些情况尤为突出。
回归基础:活页夹
当蛋白质相互作用时,结合分子可以增强或破坏这些相互作用。这些分子最初引起了蛋白质设计师的注意,因为它们可以作为药物阻止破坏性的细胞反应或促进有用的细胞反应。
已经取得了一些成功。生成式人工智能模型,如RFdiffusion,可以轻松模拟结合剂,尤其是针对细胞内自由漂浮的蛋白质。这些蛋白质协调细胞的大部分内部信号,包括引发衰老或癌症的信号。破坏通信链的结合剂可能会停止这些过程。它们还可以开发成诊断工具。在一个例子中,科学家设计了一种夜光标签来监测细胞的状态,当结合剂抓住细胞时,可以检测到激素的存在。
但粘合剂仍然难以开发。它们需要与蛋白质的关键区域相互作用。但由于蛋白质是扭曲和转动的动态三维结构,因此通常很难确定粘合剂附着在哪些区域至关重要。
然后是数据问题。由于公共数据库中有数十万种蛋白质结构,生成式 AI 模型可以学习预测蛋白质之间的相互作用。相比之下,粘合剂通常由制药公司保密——每个组织都有一个内部数据库,记录小分子如何与蛋白质相互作用。
目前,有几个团队正在使用人工智能设计简单的粘合剂用于研究。但专家强调,这些粘合剂需要在生物体中进行测试。人工智能尚无法预测粘合剂的生物学后果——它可能会促进或阻止某个过程。然后是幻觉问题,即人工智能模型会想象出完全不切实际的粘合剂。
从这里开始,我们的目标是收集更多更好的数据,了解蛋白质如何抓住分子,并可能增加一些其潜在的生物物理学信息。
设计新型酶
酶是催化生命的蛋白质。它们分解或构建新分子,使我们能够消化食物、增强体质并保持大脑健康。合成酶的作用甚至更多,例如吸收大气中的二氧化碳或分解塑料废物。
但设计酶仍然很难制造。大多数模型都是用天然酶训练的,但生物功能并不总是依赖相同的结构来做同样的事情。看起来截然不同的酶可以进行类似的化学反应。人工智能评估的是结构,而不是功能——这意味着我们需要更好地理解一种酶是如何导致另一种酶的。
和粘合剂一样,酶也有“热点”。科学家们正在竞相利用机器学习寻找这些热点。有早期迹象表明,人工智能可以在新酶上设计热点,但它们仍需要经过严格审查。活跃的热点通常需要大量的支架才能正常工作——如果没有支架,它可能无法抓住目标,或者即使抓住了,也无法放开它。
酶是一个难啃的骨头,尤其是因为它们处于运动状态。目前,人工智能很难模拟它们的转变。事实证明,这对整个领域来说都是一个挑战。
变形性头痛
AI 模型是在静态蛋白质结构上进行训练的。这些快照是经过数十年艰苦努力获得的,科学家们及时冻结蛋白质以对其结构进行成像。但这些图像只能捕捉蛋白质最稳定的形状,而不是其运动时的形状——例如当蛋白质抓住粘合剂或酶扭曲以适应蛋白质角落时。
为了让人工智能真正“理解”蛋白质,研究人员必须在蛋白质变形时训练模型以适应不断变化的结构。生物物理学可以帮助模拟蛋白质的曲折,但这极其困难。科学家们现在正在生成合成和天然蛋白质库,并逐渐对每种蛋白质进行变异,以观察简单的变化如何改变它们的结构和灵活性。
在 AI 模型生成新结构的方式上增加一点“随机性”也可能有所帮助。基于AlphaFold2构建的AF-Cluster在预测已知的变形蛋白质时将一些不确定性注入其神经网络过程,并且在多种结构上表现良好。
蛋白质预测是一场竞争。但团队可能也需要共同努力。建立一个快速共享数据的协作基础设施可以加快工作速度。添加所谓的“负面数据”,例如当人工智能设计的蛋白质或粘合剂对细胞有毒时,也可以指导其他蛋白质设计师。更难的问题是,验证人工智能设计的蛋白质可能需要数年时间——当底层算法已经更新时。
无论如何,毫无疑问,人工智能正在加速蛋白质设计。让我们看看明年会发生什么。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/neng-gou-cong-ling-kai-shi-she-ji-sheng-ming-ji-qi-de-ren