近日,杨梦团队发布了一款称之为“EvoPlay”的蛋白质从头设计算法模型,EvoPlay由“Evo”和“Play”两个英文单词组合而成,前者意为进化,指蛋白质分子的功能进化;后者指的是博弈类搜索算法。 相关研究已发表在Nature Machine Intelligence上。 这也是 【借鉴下棋博弈,华大智造新型强化学习算法登Nature子刊,可快速进化功能蛋白】 近日,杨梦团队发布了一款称之为“EvoPlay”的蛋白质从头设计算法模型,EvoPlay由“Evo”和“Play”两个英文单词组合而成,前者意为进化,指蛋白质分子的功能进化;后者指的是博弈类搜索算法。 相关研究已发表在Nature Machine Intelligence上。 这也是继该团队在Nature Machine Intelligence上发表单细胞对比学习自监督Concerto算法后,时隔一年再度发表算法相关文章。 论文中指出,EvoPlay模型借鉴了围棋自博弈的方式搜索海量蛋白质突变空间,并通过结合不同的功能或结构预测模拟器,像自动驾驶一样训练一个智能体完成指定功能增强的蛋白进化。 进一步讲,在研究中,研究团队将AlphaFold家族模型和AlphaGo家族模型有机结合,从而实现以折叠结构为目标高效设计蛋白质。 21世纪初,领域迎来了第三次突破——体外版本的达尔文进化,定向进化——模仿自然选择的过程,将蛋白质或核酸的设计引向用户定义的目标。 2018年,化学工程师Frances Arnold因为在酶的定向进化领域的工作被授予2018年诺贝尔化学奖;2019年Arnold又引入了机器学习指导的定向进化MLDE(Machine-learning-guided directed evolution)以提高采样效率来加速进化,结果于同年发表在Nature Methods上。 不过,由于目前普通的MLDE的随机采样效率并不高效。 这主要是因为采样空间巨大,仅4个氨基酸位点就可以达到204(160,000)种组合可能性,随机采样方法难以应对;另一方面是因为采样空间稀疏,在巨大采样空间中有99%以上序列是无效的,其功能值远低于野生型序列或为0。 因此,如何高效率地采样一直是蛋白质设计的重要课题 加之,蛋白质的功能与其结构强相关,2020年DeepMind发布的AlphaFold2把人们的注意力重新拉回了对蛋白质结构的解析上。 AlphaFold2模型的前半部分包含了由MSA(多序列比对)承载的蛋白质的进化信息,此进化信息也越来越多的被证实可以由蛋白质语言预训练模型的输出替代,例如近期Meta发布的ESMFold。