新闻动态 - 国际院士科技创新中心

新闻动态

由数据驱动的生物学和医学革命

浏览次数：448 发布时间：2022-03-28 07:54:02

按：蛋白质作为人体的重要组成部分，执行着如生物化学反应催化、营养物质输运、生长和分化控制、生物信号识别和传递等重要工作，了解蛋白质结构对医疗、制药、分子机制研究意义重大，DeepMind公司运用大数据分析方法形成的AlphaFold程序在蛋白质结构预测中表现优于其他方法，生成的模型质量接近实验测定，这一结果对药物设计、识别致病变异、识别病原体中的药物靶点等诸多领域意义重大，并且将对实验和计算结构生物学产生重要影响。欧洲生物信息学研究所的珍妮特·桑顿、罗曼·拉斯科夫斯基、尼拉·博卡科蒂在《NATURE MEDICINE》上发文介绍相关技术进展。现予编发，供参阅。

一、背景

蛋白质是荷兰科学家格利特·马尔德在1838年发现的，是人体中一种复杂有机化合物，对调节生理功能、维持新陈代谢、遗传繁殖等生命活动有着极其重要的作用。氨基酸是组成蛋白质的基本单位，氨基酸通过脱水缩合连成肽链，蛋白质则是由一条或多条肽链在空间折叠组成的生物大分子，蛋白质的氨基酸种类、数目、排列顺序和肽链空间结构的不同会导致蛋白质功能存在差异。DeepMind公司是一家总部位于伦敦的人工智能（AI）公司，该公司现在是谷歌母公司Alphabet Inc.的一部分。DeepMind的AlphaFold人工智能程序在两年一次的蛋白质结构预测关键评估（CASP）中表现明显优于其他方法，生成的模型质量接近实验测定,随后AlphaFold程序公布。最近，其源代码和来自各种物种（包括人类）的近35万个蛋白质模型也被公开。这个蛋白质结构的宝库对实验和计算结构生物学意义深远。

二、潜在应用价值

对蛋白质结构的认识使人们更好地了解蛋白质的分子机制，从而深入了解蛋白质的工作原理及其可能导致的疾病或治疗方式。在过去的50年里，蛋白质结构一直是药物设计工作中不可或缺的一部分，许多大型制药公司都建立了自己的结构生物学团队。结构数据在确定特定蛋白质靶点的可制药性以及设计与之结合的小分子药物方面都发挥了关键作用。
1、药物设计大多数小分子药物的设计都得益于对结构的深入了解。未来的设计项目（无论是小分子、生物制剂、生物仿制药还是蛋白质水解靶向嵌合体疗法），在其实验结构不可用时将使用AlphaFold的模型。通过将目标蛋白与类似蛋白的AlphaFold模型进行比较分析，可用于产生效果更佳的药物，例如具有更少毒副作用的药物。此外，可以研究来自不同物种的AlphaFold模型数据，以便更明智地选择最合适的动物来测试针对人类的潜在药物。

2、识别致病变异结构数据有助于识别人类的致病变异，也就是那些导致疾病的变异。当前的挑战是在个体基因组中观察到的许多变异中找出这些致病性变异（例如，在发育性疾病或癌症进展中）。在ClinVar（一个关于基因组变异及其与人类健康关系的数据库）中，几乎50%的已知变异被归类为原因不明的变异（VUSs）。虽然AlphaFold在模拟个体突变的影响方面的价值有限。但可靠的模型可以用来识别可能的结合位点、酶活性位点、接口或结构性限制,从而识别那些比其他氨基酸更可能致病的变异。此外，大多数由序列或结构预测的功能依赖于密切或遥远的进化关系。预测的结构有可能让人们在进化时间上看到更远的过去，以识别最遥远的亲属——从中可以得出一些功能推断。
3、识别病原体中的药物靶点在世界生物多样性数据库中，病原体的结构数据覆盖率通常远低于其他生物。来自病原体（例如病毒、细菌和真菌）的蛋白质结构可用于评估药物的成药性以及可能与人类蛋白质的交叉反应，并帮助设计针对多种病原体的药物。在感染源中确定药物靶点可能是短期内最容易实现的目标。事实上，DeepMind已经在与“被忽视疾病药物倡议”等组织和其他合作伙伴合作。
4、加强疫苗和抗体设计随着COVID-19大流行和SARS-CoV-2疫苗的开发，对抗原刺突蛋白结构的了解有助于了解病毒的表面拓扑结构及其抗原性。截至2021年9月3日，世界蛋白质结构数据库中有1491个SARS-CoV-2蛋白质结构，这些结构由世界各地的实验室提供。与未来大流行中新出现的病毒的实验结构测定相比，准确预测病毒刺突蛋白的可能性将提供非常快速的分析。

三、技术未来前景

AlphaFold的蛋白质结构预测在医学上的影响可能是巨大的，AlphaFold很有可能只是生物学和医学领域基于数据驱动预测革命的开始。尽管目前的AlphaFold预测仅限于单个蛋白质链，并没有提供与其他分子相互作用的明确信息，但新的基于人工智能的工具可以预测蛋白质组之间的这种相互作用——深入研究不同细胞类型中的不同复合物，这些复合物随着环境和时间的变化而变化。从长远来看，人工智能方法将被开发并应用于蛋白质结构的许多方面，以提高可预测性。诸如“地球生物基因组”和“达尔文生命之树”这样的项目，最终寻求对所有生物进行测序，这些项目将产生大量新的蛋白质序列数据。AlphaFold是为所有这些不同物种生成完整结构蛋白质组的第一步，接下来的挑战是利用基因型到表现型的研究，根据每个生物体的体型、发育、行为和自然史来解释这些基因组。由于天然产物一直是许多药物的基础，因此，阐明许多新物种的基因组可能产生新的自然启发疗法。毫无疑问，人工智能方法将在这一探索中得到广泛应用。从医学角度来看，伴随着DeepMind方法的脚步，人工智能迎来了新的发展机遇，利用临床数据了解疾病——它们的诊断和预后，并以更全面的方式确定哪种治疗组合最适合特定患者。在过去20年中，来自美国国家生物技术信息中心（NCBI）和欧洲生物信息研究所（EMBL-EBI）（拥有许多不同类型的数据和可用的数据资源）等机构所提供的生物研究数据已经改变了生物学研究。临床数据的情况则完全不同。与生物数据一样，临床数据也是异质性很强的，它们很不容易获得，往往无法量化，难以跨国界共享，也难以通过有限的本体论和元数据进行描述。更复杂的是，这些数据不能在保持个人机密的情况下公开。因此，为了利用新的、强大的人工智能方法，当务之急应该是建立必要的国家和国际基础设施，以允许临床数据被收集、共享、整理和标准化。AlphaFold在预测蛋白质结构方面取得成功，这将加快寻找有效且适用于所有人的治疗方法的进程。在英国，英国健康数据研究所（Health Data Research UK）正在为临床数据创建可信的研究环境，以应对这一挑战。在全球范围内，全球健康联盟（Global Alliance for Global Health）正在建立标准和协议，以加快进展。要想取得成功，就需要多学科的团队，包括临床医生、领域专家和机器学习专家，来开发利用数据的工具。建立如今广泛使用的生物数据库花了许多年时间，而临床数据面临的挑战甚至更大。这就要求立即投资创建新的健康数据基础设施，使患者能够自豪地为改善人类健康贡献自己的数据，并使世界能够有信心面对新的大流行病。

四、启示建议

本文所描述的AlphaFold技术是大数据、人工智能、生物学三门学科相融合的产物，反应了一种未来的技术趋势，通过生物研究、临床实践获得数据，数据被用来训练人工智能模型，通过模型预测结果和实际进行对比检验，不断优化模型使模型对蛋白质等小分子结构的预测能力不断提升，最终将这种预测能力用于科研生产的方方面面。AlphaFold的不俗表现预示着AI已在生命科学领域显现出不凡实力，也反应出生物科学从15世纪的实证科学时代进入了现在的AI时代。
一是加强生物和临床数据库建设训练类似AlphaFold这类人工智能模型需要海量的数据，我国应加强生物和临床数据库建设，打通各个数据库之间的壁垒，确保非涉密数据全国共享，为模型优化打下坚实的数据基础。同时要加强相关数据标准化建设，提升数据的标准化程度，降低数据的使用成本，提升数据使用效率。
二是加强相关交叉学科建设AlphaFold模型涉及数学、生物学、计算机、统计学等多领域交叉学科，我国应站在未来生物科学发展方向和产业发展趋势的角度系统梳理未来产业发展所涉及的学科领域，在大学的课程设置等方面及早进行调整，不断适应未来科研和产业需要，避免人才供给与现实需求脱节。
三是密切国际合作交流欧美等发达国家在相关领域具有存量优势，一方面我们要继续坚持对外交流合作，及时了解相关信息，构建广泛的科研联系，另一方面应该对一批具有综合能力的海外领军科研人才特事特办，为他们来华创业、就业提供良好的环境。
四是强化产学研融合政府应对相关领域企业和科研院所牵线搭桥，政府机构、行业协会可举办相关科技产业论坛为相关企业和科研院所牵线搭桥提供便利。此外，可对相关产业给予适当财税政策倾斜，鼓励更多民间资本进入，加速技术成熟和人才涌入，尽快实现科研投入和商业盈利正向循环。

上一页：王缉慈：产业空间组织不是“产业链”的纯技术建构！

下一页：山东：山东省促进民营经济高质量发展2022年十大专项行动方案