投稿须知
请将投稿文章及个人信息(作者、用户名、手机号、个人简介等)发送到邮箱tougao@iyiou.com,一经审核会有专人和您联系
我知道了
专栏申请
请将您的专栏名称、手机号、邮箱、个人简介(20字以内)等信息,发送至邮箱 tougao@iyiou.com,若有已投稿的文章可附上链接。一经审核,我们会以邮件的形式进行回复。
我知道了

专访广州实验室研究员陈红明:从CADD到AIDD中的遗憾和惊喜

收藏
大健康
作者:魏江翰
编辑:刘聪 2021-11-02 10:37
[文章导读]
对于AI在药物性质预测上缺乏根本性突破的遗憾,以及AI在分子生成和逆合成路线预测带给人们的惊喜,经历了从CADD到AI整个变迁的陈红明,有着自己的总结与思考。
研究员 陈红明

题图来自“外部授权”

“过去,我们本以为AI会最先在药物性质预测环节实现突破。” 接受亿欧大健康专访时,广州实验室研究员陈红明如此说道。如今,陈红明和他的课题组却将研究方向聚焦在了分子生成和逆合成路线预测。

AI与制药在这两个环节最先擦出火花其实出乎很多人的预料,陈红明也是其中之一。1998年,陈红明取得了中国科学院化工冶金研究所的计算化学博士学位,之后又在德国拜耳公司Wuppertal药物研发中心从事了3年博士后研究工作。此后近20年时间,陈红明都在阿斯利康从事计算化学和新药研发工作。阿斯利康是最早使用AI方法进行药物开发的MNC之一,在这里,陈红明完成了从传统CADD方法向AI与传统CADD相融合的转变,也为他如今在广州实验室的研究工作打下了基础。

今年5月,他们关于用化学空间覆盖度重新评估AI生成模型算法的论文被刊登在美国化学会(ACS)的JCIM(化学信息与建模)杂志上;他们预计今年年底,在与其他课题组合作的药物开发项目中,能取得两款PCC(临床前候选化合物)。

对于AI在药物性质预测上缺乏根本性突破的遗憾,以及AI在分子生成和逆合成路线预测带给人们的惊喜,经历了从CADD到AI整个变迁的陈红明有着自己的总结与思考。

未达到预期的药物性质预测

6年前,还在阿斯利康从事CADD相关工作的陈红明,在参与一个欧盟的联合科研项目的过程中第一次接触了基于深度学习的AI方法,相比于传统CADD,其基于深层神经网络的算法特点给陈红明留下了深刻印象。根据他当时的判断,AI最先大放异彩的环节应该是在药物性质的预测,包括分子的生物活性预测和ADMET的性质预测。

分子生物活性的预测模型可以为药物开发提供高效率、低成本的试错手段。ADMET是吸收(absorption)、分布(distribution)、代谢(metabolism)、排泄(excretion)和毒性(Toxicity)的联合缩写,属于药代动力学的范畴,对其预测的目的在于确保实验药物在人体内有理想的暴露量和良好安全性。

陈红明认为突破将率先发生在这些环节并非没有依据。就事实而言,基于定量构效关系的神经网络早在上世纪90年代就在药物研发领域被尝试用于分子的活性预测,只不过效果相对有限。直到2012年,在默克公司发起的一场“分子活性预测”算法挑战赛上,Geoffrey Hinton和他的团队凭借深度神经网络技压全场,将绝大多数采用随机森林模型等传统机器学习方法的竞争者狠狠踩在了脚下。

当陈红明第一次在药物设计领域接触AI之时,Geoffrey Hinton已被誉为“深度学习之父”,从他运用“深度学习”取得分子活性预测大赛的冠军开始算起,4年时间,移动通信技术恰好完成了从3G向4G网络的过渡,这让陈红明有理由相信,同样的技术迭代很可能也发生在AI对药物性质的预测上。但事实并非如他所料,AI在分子生成模型上应用所产生的影响比药物性质预测上来得更加显著。

陈红明认为,AI在药物性质预测上未达到类似于在图像识别领域的革命性突破的主要原因还是出在了数据上,他总结的两点原因分别是数据获取成本高与实验数据本身的误差大。成本高的背后反映出制药领域整体数据量的匮乏。AI的核心作用是基于高通量数据的准确预测,数据之困是训练AI完成药物性质预测的高山险阻。而原本就不多的开源数据很多情况下是来自不同的实验室,数据集之间存在着系统误差,给整合工作增加了难度。同时,生物试验数据本身也存在试验误差。“现在并没有一个有效的整合标准,”陈洪明解释说:“这将直接导致AI引入一些系统误差,最终放大到对结果预测的表现上。”

 分子生成上的AI和CADD

在2017年,陈红明做出研究策略上的调整:由传统的CADD方法为主全面转向了对人工智能方法的探索;在具体的研究方向上,从药物性质预测转向为分子生成模型和化学反应预测研究。

促使陈红明转变的原因来自于几篇当时最新的论文,这些论文详细阐述了AI能够不基于规则地生成分子结构。对于在企业从事CADD工作长达近20年的陈红明而言,这一发现像划过黑夜的闪电令他“耳目一新”。他难以忘记当初看到论文时的惊喜,因为“过去长时间以来,CADD在分子结构生成上几乎陷入了瓶颈,而AI出现后开辟了一个全新的领域。”陈红明领导的阿斯利康的研究小组在2017年开发了业内著名的REINVENT算法。

在分子生成环节,CADD的设计方法由来已久,通常是基于物理规则和一些药化学家依据经验归纳出的化学反应规则,利用计算对现有的组合库进行虚拟筛选。在这一范式下,化学搜索空间有限,CADD的虚拟筛选极度受制于组合库的大小。“例如用常见的ZINK数据库,它收纳了2.3亿结构数据,那么你只能在这2亿多分子集中做文章。”陈红明说。另外,基于组合库生成的分子结构相对单调,成药性不是很高。研究表明,类药空间的数量级约在10的60次方到10的100次方之间,而这都可以作为AI模型的筛选空间。作为一种统计模型,AI通过学习大量的化合物结构数据发现隐含的结构构成规则,“它相当于学习了一种概率分布。”陈红明说。其实AI生成模型并不需要极大算力,在分子生成上也比CADD更富有“创造力”。

而“创造力”源于算法。近年来,看到AI“创造力”的人越来越多,涉及分子生成业务的AI制药初创企业雨后春笋般涌现。这些初创企业采用的算法众多,且各不相同,如何评估这些算法的优劣成为摆在各家企业面前一个无法回避的问题。一些头部企业通常拥有数十种不同算法,而这还是不断迭代的结果——更早时候,算法的数量可能多达数百种。[1] 

除去事实的验证,为算法的优劣提供一个直观、快捷的评估方法,也是陈红明课题组一直希望解决的问题之一。2021年5月,陈红明课题组便针对现有分子生成模型评估方法的局限进行了研究,提出了一种基于化学空间覆盖度的生成模型效果评估方法。

陈红明认为,当下,现有主要的评估平台如MOSES、GuacaMol,它们普遍的不足在于评估生成模型时选取的参考分子集的空间分布并不均匀,因此难以准确评估生成模型的泛化能力。为此,他在论文中提出对GDB13分子集合的“化学空间覆盖度”来进行评估,这当中主要包含完整的分子结构、官能团和环系这三个维度。

“MOSES和GuacaMol,它们选取的标准集合取自一些特定的化合物库,我认为这样做不是非常理想,因为这些化合物库针对不同靶点的分子分布很不均匀。”而根据陈红明的介绍,不均匀的结果是导致评估结果容易产生“偏见”。而在陈红明课题组的研究中,他们采用了一个区别于MOSES和GuacaMol的小分子库GDB13。“这个小分子库包含将近10亿个重原子数小于13的分子结构,而且这些分子都是从理论上穷举出来的,我们认为这样的分布更加均匀,更适合作为参考分子集合。”

“黑马”逆合成反应预测

陈红明课题组第二个主要的研究方向是逆合成反应分析及化学反应预测,而这也是AI最早实现突破的另一个环节。

2018年,大名鼎鼎的《Nature》刊登了一篇来自德国明斯特大学和我国上海大学的联合论文,研究了利用深度学习进行逆向合成路线设计药物。这一突破被认为在化学界诞生了AlphaGo。“简单来说,AI在逆合成反应预测上提供了全新的工具,而且效果更好。”陈红明说。

过去,逆合成反应预测被用来描述通过断键将一个复杂的目标分子还原为一个简单前体的迭代过程。这一思想在上世纪60年代由有机合成大师埃里亚斯·科里(Elias Corey)首次提出,而这帮助他获得了1990年的诺贝尔化学奖。

一个常见的类比是将逆合成反应看做国际象棋:一步一步直达目标。事实上,合成一个分子远比国际象棋复杂得多,每个步骤中可能有数千条潜在的合成路线;而且不仅要知道逆合成的步骤和顺序,还要清楚每一步的反应条件。通常实验验证获取反应条件的方法会大量消耗时间和资源。药化学家们需要一些计算工具来预测最佳条件和试剂,以确保反应产生所需的产物。

显然,AI就是这样的工具。在2000年左右,逆合成预测相关的论文常常受到诟病,这些模型得出的反应路径中有很多不合理的路线。而对于有机化学专家来说,这些路线很容易被发现。而近年来,深度学习带来的改变让AI预测的逆合成路径与药化学家发现路径几乎没有区别。

陈红明告诉亿欧大健康,目前逆合成路线预测上已经出现了很多优秀的算法。据了解,但是这些算法模型的输出并不包含反应产率和反应条件。因此,逆合成分析上的突破固然令人欣喜,但距离利用AI进行自主的化学合成还有相当一段距离。

“AI为我们提供了更多路径,但能否在实验室被专家合成出来却是另外一个维度的问题。有时AI会提出一些甚至在文献中不存在的反应,也许它们看上去和文献中某些反应很类似,但更可能只是类似,文献中能做出来,实验室却不能。容器、温度、催化剂……每一项都能影响最终结果,所以路线预测不是最大的问题,问题是路线是否可行,以及如何去评估。” 陈红明分析道。

本文来源于亿欧网,原创文章,作者:魏江翰。
转载或合作请联系 hezuo@iyiou.com,违规转载法律必究。
文中涉及数据均已标明来源,如需数据服务可访问亿欧数据。 如您有「项目报道」或「项目对接」需求,请填写表单,我们将尽快与您取得联系。
预测模型阿斯利康科普研究员