氨基酸结构模型
华为介入新药研发领域
一款创新药从研发到上市,平均成本超过10亿美元、研发周期大于10年——这是医药界公认的「双10定律」。
高成本的研发投入的同时,可能还会面临高失败率和低回报率。新药研发的投资回报率从2010年的10.1%下降至2018年的1.9%,新上市药物的平均销售峰值从2010年的8.16亿美元下降至2018年的4.07亿美元。
(注:造成低回报率和高成本主要原因是,一款新药的诞生便会无形提高未来新药研发的门槛;患者用药的决定权在医生非患者,所以品牌忠诚度低)
为了解决加速新药研发进程、平衡研发投入与成果产出之间的关系,多家AI算法公司纷纷入局AI新药研发,如谷歌、英伟达等。
7月23日谷歌旗下DeepMind团队发布由人工智能系统AlphaFold预测的蛋白结构数据库(AlphaFold Protein Structure Database),这一数据库将免费提供给全球的科研人员开放使用。
其所公布的蛋白3D结构数据库包含了AlphaFold人工智能系统预测的约35万个蛋白结构,其中人类蛋白质组方面,AI对98.5%的人类蛋白的结构做出了预测。此前,科学家们历经数十年努力,解析的蛋白结构只覆盖了人类蛋白序列中17%的氨基酸。
研究人员指出,AlphaFold能够对人类蛋白质组中58%的氨基酸的结构位置做出可信预测,对36%的氨基酸的结构预测达到很高置信度。
华为云盘古药物分子大模型,开启AI药物研发新模式
当被美国制裁之后,华为为了活下去,不断从多维度切入多场景生态。AI新药研发是华为云的生态布局之一,同时也在追赶谷歌最新的Alphafold。
论述新型蛋白质的开发与利用及其应用前景
来源:中安在线
中安在线 中安新闻客户端讯 中国科学技术大学刘海燕教授、陈泉副教授团队基于数据驱动原理,开辟出一条全新的蛋白质从头设计路线,在蛋白质设计这一前沿科技领域实现了关键核心技术的原始创新,为工业酶、生物材料、生物医药蛋白等功能蛋白的设计奠定了坚实的基础。相关成果北京时间2月10日发表于《自然》。
蛋白质是生命的基础,是生命功能的主要执行者,其结构与功能由氨基酸序列所决定。目前,能够形成稳定三维结构的蛋白质,几乎全部是天然蛋白质,其氨基酸序列是长期自然进化形成。在天然蛋白结构功能不能满足工业或医疗应用需求时,想要得到特定的功能蛋白,就需要对其结构进行设计。近年来,国际上蛋白质从头设计的代表性工作主要采用RosettaDesign——使用天然结构片段作为构建模块来拼接产生人工结构。然而,这种方法存在设计结果单一、对主链结构细节过于敏感等不足,显著限制了设计主链结构的多样性和可变性。
中国科学技术大学相关团队长期深耕计算结构生物学方向的基础研究和应用基础研究。施蕴渝院士是国内这一领域的开拓者。刘海燕教授、陈泉副教授团队十余年来致力于发展数据驱动的蛋白质设计方法。该团队首先建立了给定主链结构设计氨基酸序列的ABACUS模型,进而发展了能在氨基酸序列待定时从头设计全新主链结构的SCUBA模型。理论计算和实验证明,用SCUBA设计主链结构,能够突破只能用天然片段来拼接产生新主链结构的限制,从而显著扩展从头设计蛋白的结构多样性,甚至设计出不同于已知天然蛋白的新颖结构。“SCUBA模型+ABACUS模型”构成了能够从头设计具有全新结构和序列的人工蛋白完整工具链,是RosettaDesign之外目前唯一经充分实验验证的蛋白质从头设计方法,并与之互为补充。在论文中,团队报道了9种从头设计的蛋白质分子的高分辨晶体结构,其中5种蛋白质具有不同于已知天然蛋白的新颖结构。
审稿人认为,这项工作中提出的方法具有足够的新颖性和实用性;从头设计蛋白质具有挑战性,本工作中6种不同蛋白质的高分辨率设计是一项重要成就,证明这种方法运行良好。(桂运安 记者 汪乔)
相关论文信息:
https://doi.org/10.1038/s41586-021-04383-5
本文来自【中安在线】,仅代表作者观点。全国党媒信息公共平台提供信息发布传播服务。
ID:jrtt
我国科学家建立蛋白质从头设计新方法,论述新型蛋白质的开发与利用及其应用前景
重磅:英国人工智能(AlphaFold2)从830万蛋白质中挑出了700种「复合物」
在蛋白质结构预测上,AI革命还在继续。这次是探寻蛋白质之间的相互所用。华盛顿大学新研究确定了1000多种可能发生相互作用的不同蛋白质,并绘制出数百种蛋白质的精确结构。蛋白质结构预测领域的AI革命仍在继续!
这次的焦点不是蛋白质结构和形态,而是进一步关注不同蛋白质之间的相互作用。
一年前,软件程序首次成功地模拟了单个蛋白质的3D形状,其精度与几十年前的实验技术测出的一样准确。几个月前,研究人员使用AI程序编程了一个近乎完整的人类蛋白质结构目录。
现在,研究人员更进一步,使用AI技术确定了不同蛋白质之间可能的相互作用,以及由这种相互作用的「复合体」产物是什么样子的。
这项新发现会促进细胞生物学领域产生一系列新观点,并为发现下一代治疗药物指明新方向。
从蛋白质结构到相互作用,AI技术立大功
过去几十年来,精确重现人类蛋白质的形态和结构,一直是研究人员的目标。过去,要追求这个目标是很困难的,需要昂贵且缓慢的实验,比如X射线晶体学和核磁共振光谱学实验。而且,即使实验取得进展,也只能得到单个蛋白质某些结构。
计算机专家一直致力于加快速度。借助AI和深度学习算法,研究人员在过去两年内取得了重大突破。该算法使用实验解决的蛋白质结构数据库来训练软件程序如何根据蛋白质的氨基酸序列预测蛋白质的结构。
走在前面的是DeepMind和华盛顿大学。
今年7月15日,DeepMind在Nature上发表论文,开源了其基于深度学习神经网络的AlphaFold 2模型。AlphaFold对人类蛋白质组的结构预测,覆盖了98.5%的所有人类蛋白质组,还对20种其它生物蛋白质的结构进行了预测。
几天后,在Science上,华盛顿大学也发表了自己开发的蛋白质预测工具 RoseTTAFold。RoseTTAFold不仅性能上和AlphaFold 2相当,预测蛋白质结构也「快、狠、准」。
这些程序都可以预测出成千上万的蛋白质结构,还为少数已知的蛋白质复合物生成了结构。但在真核生物中,蛋白质之间的相互作用通常还是未知的。
为了实现这个目标,两个研究团队都调整了AI程序。
今天,华盛顿大学团队在《科学》期刊发文,使用AI技术工具解决了真核生物中712 种复合物(蛋白质相互作用下的产物)的结构问题。
该研究同时使用了华盛顿大学的RoseTTAFold和DeepMind的AlphaFold工具,筛选了830万对酵母蛋白的配对多序列比对,识别出了1505种可能的相互作用,并为 106 个以前未识别的部分和 806 个尚未结构表征的部分构建了结构模型。
为了找到可以形成复合物的蛋白质,团队首先将所有6000种酵母蛋白质的氨基酸序列,与 2026 种其他真菌、4325种其他真核生物的氨基酸序列进行比较。
在比较过程中,研究人员追踪这些蛋白质的进化过程,并识别出不同蛋白质中同时发生变化的序列。据此推断,这些蛋白质可能会形成复合物,并会逐步改变以保持它们之间的相互作用。
团队使用自研的RoseTTAFold 的 AI 程序以及此前DeepMind已开源的 AlphaFold工具,尝试解决每组候选对象的 3D 结构。
在总共830万个「候选」酵母蛋白质对中,两个AI工具合力识别出了 1506 个可能发生相互作用的蛋白质,并成功绘制出其中 712个 3D 结构,约占成功识别数的一半。
研究团队核心成员、论文共同通讯作者David Baker和Qian Cong介绍:
「这些相互作用涵盖了真核细胞的所有活动。这个研究的亮点在于发现了蛋白质复合物的结构。这种复合物在细胞活动中发挥着不可替代的重要作用。」
「比如让细胞修复 DNA 损伤,将RNA翻译成核糖体中的蛋白质,在细胞繁殖过程中将染色体拉开,并将分子运送通过细胞膜等。」
同样密切关注这一研究的DeepMind团队,也对这一发现的意义给予了高度评价。
AlphaFold工具的首席开发人员John Jumper表示,「这是再现蛋白质3D结构的一个很有前途的研究实例。明白了蛋白质之间如何相互作用,生物学家就可以进一步发现复合物细胞内执行多项任务的机制。
「这些模型为实验人员提供了可测试的假设,而且,由于破坏这些相互作用,可能获得干预各种疾病的新方法,可以说,这一发现为未来新靶向药物的研发提供了更多可能。」Qian Cong表示。
上个月,Jumper 和他的同事在bioRxiv 上发布了一篇预印本论文,介绍了AlphaFold AI工具的新版本,名为AlphaFold-Multimer。
该工具绘制出了 4433 种蛋白质复合物的结构,准确率达到了69%。
「对于结构生物学来说,这确实是一个激动人心的时刻」,Baker说。
来源:新智元