腺核苷三磷酸果壳:蛋白质分析AI工具全新升级
原创 腺嘌呤核苷三磷酸 果壳
如果将生命体比作一个拼好的乐高积木,那蛋白核酸等大分子就像一个个独立的乐高零件。在过去的五十年里,理解每一个乐高零件的形状就是结构生物学家的主要工作。他们并非不关心零件是如何拼成整个积木的,只是并不具备这种能力——他们连零件长成什么样子都不甚清楚。
而让他们梦想成真。
最新,谷歌发布了重磅消息:他们的蛋白质分析AI工具全新升级,迎来了第三代版本。
和前代相比, 3的分析准确性又有了显著提升,而且在蛋白质本身以外,它还能够预测“几乎所有分子类型”的蛋白质复合物结构。新闻报道声称,这一工具将会在生物医药研究领域带来“戏剧性”的改变。
3到底有多厉害?它能帮助人类尽快用上新药吗?我们与一位实际使用AI工具的结构生物学研究者聊了聊。
知道蛋白质结构为什么重要?
如果生命科学是一部书,那在书的扉页能看到一段费曼的寄语:一切生命世界的行为都可以被理解为原子的颤动和扭动。这意味着想要真正的理解蛋白质,就必须从三维空间深入到原子分辨率,这才是蛋白质发挥功能的尺度。结构生物学就是在这样一种理念下诞生的。
在AI参与之前,
蛋白质结构是怎么研究的?
获取蛋白质结构的主要方式分成实验测定和计算预测两个流派。
在AI入局之前,其实人们就已经在用计算机分析蛋白质了。但是,那时候预测准确率较低,结构的细节往往不被采信,但是这些预测结构有时会被当作晶体结构解析的模板使用。
真正确认蛋白质结构要靠实验测定,方法包括蛋白质晶体X射线衍射、冷冻电镜、核磁共振等等。通过实验获得高分辨率的蛋白质结构又慢又困难:在晶体时代,弄清一个晶体结构往往就会消耗一个博士生的整个求学生涯。
实验解析的结构会被上传到蛋白质数据库(),过去五十年间,大约有二十万个结构被提交到这个数据库。这些既往数据是训练时重要的学习材料,可以说的诞生是对几代结构生物学家辛勤工作的一种报偿。
诞生,
让研究发生了多大改变?
蛋白质结构预测的里程碑式事件是在2020年的上,预测蛋白质的分辨率达到了近原子级别。更重要的是,这些结构在细节上是“对”的——也就是说,在药物筛选等研究场合,AI的预测结果变得很有用。
在速度上,也远远甩开了实验手段:消耗一个博士生几个月甚至几年的时间才能得到的结构,一张GPU花半个小时就可以得到一个近似的,这在之前是无法想象的。
正是依靠这样的效率,在很短的时间内就预测了六七亿个蛋白质结构。而在这之前,经过几代结构生学家的努力,人类在半个世纪内仅仅只累积了二十万个蛋白质的结构。
从1代到3代,改进了什么?
和过去的预测模型相比,1代的出现就好比从“流水线”变到了“一体成型”。
以往的结构预测方法是同源建模,它更像一个流水线,由很多个模块构成。模块A处理完交给B,B处理完交给C,这导致每个步骤产生的误差会相互累积放大,导致最终的模型偏差比较大。
而是一个神经网络方法,它是‘端到端’的,原来的流水线换成了一体成型的工艺,误差累积的问题被完美解决。初始的是一个很简单的模型,但在当时它的表现已经十分领先。
此后的 2更是一个划时代的工程——它做到了史无前例的准确。采用了经典的卷积神经网络架构,而则将能力更强的架构引入进来。有了更深更强网络的加持,使人类第一次可以预测原子级分辨率的蛋白质结构。
而的进步则在于它不止可以处理蛋白质,还可以同时输入核酸、小分子、金属离子等物质,并预测它们会如何与蛋白质结合。拥有这种能力对于结构预测是极其重要的,因为蛋白质不可能孤立地发挥作用,它一定要与其他物质产生交流。而这个与其他物质交流的过程,往往是科学家最关心的,也是药物设计中最重要的过程。
对于使用者它的研究者,
这意味着什么?
让我们的研究发生了以下改变:
提高效率
对于结构生物学的研究者来说,在出现之前,大量的精力是用来进行模型搭建的。尤其在晶体时代,由于方法本身的限制,并不是所有的衍射数据都能获得蛋白质结构,往往需要一个相对正确的模板。可以说完全解决了这个问题,自从它诞生以来,由于缺少模板无法求解的晶体结构变得凤毛麟角。并且它将科研工作者从繁重的模型搭建工作里解放出来,甚至从源头减少了模型搭建错误的产生。
工作流程简化
对与结构生物学家和药物设计工程师来说,工作的起点往往是一个高分辨率的结构。在过去,他们耗费很大的精力和努力去获得结构,然后进行实验的设计和验证。
但是现在,这个最耗时的过程可以省略或者先绕过,通过预测得到的蛋白质结构进行实验的设计、机理的阐释、药物的开发。的出现已经从根本上改变了和简化了工作的流程。
窥探“终极秘密”
如果将生命体比作一个拼好的乐高积木,那蛋白核酸等大分子就像一个个独立的乐高零件。在过去的五十年里,理解每一个乐高零件的形状就是结构生物学家的主要工作。他们并非不关心零件是如何拼成整个积木的,只是并不具备这种能力——如果连零件长成什么样子都不清楚就想知道整个积木的形状,那是天方夜谭。在很长的时间里,理解清楚每个零件的形状是结构生物学家的梦想。
让梦想成真。如今的不止告诉我们每个零件的形状,他也开始告诉我们零件和零件之间是怎样拼接的。他给研究者提供了一种可能性:也许今天我们可以窥探从零件到整个积木的秘密了。
这些技术有什么厉害的应用进展吗?
我们普通人也能感受到吗?
AI参与药物设计的案例和进展已经有了不少,它在药物研发早期的表现也很亮眼。
但是,药物研发是一个很漫长的过程,AI参与的蛋白质研究和药物分子筛选只是其中最初的步骤。这些研究成果后续还需要大量时间进行临床研究验证,然后才能进行应用。所以我们大概还要过些年才能用上AI参与开发的药物。
不过,更有可能让人体会到变化的也许是蛋白质工程领域。随着技术的进步,AI引导的合成生物学可能会彻底改变人们的生活。
好用吗,
使用起来是什么感觉?
实际试用后,有如下几点感受:
UI设计更人性化
提供了开源版和colab版本,没有经过封装,可视化效果比较简陋。但是提供了网页版的 ,对于不熟悉代码的使用者非常友好。
Colab
小分子-蛋白复合物预测精准
一直以来,小分子-蛋白质复合物预测是一个重要但艰巨的任务。从目前跑完的几个案例来看,在这项任务上的完成度很好,与实验结果非常接近,令人惊喜。
但是,目前的测试版本并没有开放所有的小分子输入,其他没有列出的分子表现如何还需要进一步测试来验证。
实验结构(蓝色)与预测结构(绿色橙色)的对比
抗体-蛋白复合物预测准确度有所提高
抗体-蛋白复合物预测是另一类难度很大但是非常有意义的任务,因为这项任务直接指向了生物大分子药物的开发。相比较新版本在这项任务上结合模式向着准确迈进,但是细节上仍有很大的差异。这方面未来仍需要更多改进。
蛋白质-DNA复合物预测精准
从测试结果来看,在这方面的表现相当精准。如果非常乐观的话,可以认为已经解决这个问题了,以后DNA结合蛋白的研究方式和逻辑可能会发生根本性的变化。
蓝色预测 vs绿色实验
可以肯定的是上图的任务并未出现在它的训练集里。
速度变快
不可思议的是相比较,的运行速度提高非常明显。这可能是因为模型的构架更加合理,或者谷歌提供了更多的算力支持。
不过,目前的还只是并不能自由使用的beta版本,它究竟能对研究产生多大影响,还要看后续的更新与开源情况才能确定。