发布时间:2024-07-18浏览:761次
栏目:[开放科学]
在药物发现领域,开放科学组织如何利用人工智能(AI)加速早期药物发现?Nature Communication上发表的最新研究《开放科学组织从事早期药物发现的数据科学路线图(A data science roadmap for open science organizations engaged in early-stage drug discovery)》,提出了一套数据管理、传播和科学应用的最佳实践。
国际开放科学组织,如结构基因组学联盟(Structural Genomics Consortium),致力于通过开放数据和合作推动科学进步。在药物发现领域,AI的应用被视为加速早期药物发现的关键。然而,如何最好地利用AI并生成、格式化和传播数据,以实现AI引导的药物发现的突破,是一个重要问题。
研究工作组提出了一系列建议,强调了精确的本体论和标准化词汇在稳健数据管理中的重要性。此外,集中式数据库架构有助于实验室之间的数据整合,形成高价值数据集。
文章强调,实验设计中应整合数据科学,实现数据科学家与实验人员的统一团队合作。这种融合不仅促进了数据共享和数据建模的边界,还推动了实验室自动化和电子实验室笔记本的开放,以支持数据挖掘。
为了构建强大的机器学习模型,研究者们提出了考虑透明和可重复的数据处理、选择最相关的数据表示、定义正确的训练和测试集以及估计预测不确定性等重要因素。强调遵循FAIR原则(可查找性、可访问性、互操作性和可重复使用性)的重要性。
文章还讨论了如何利用基于云的计算构建和传播机器学习模型,以及如何通过实时集成实验数据生成和建模工作流程,公开和大规模地进行设计-制作-测试-分析(DMTA)周期。
为了提升数据记录的质量,文章推荐了实验室自动化和开放ELN数据挖掘的方法。它还提出了最佳的数据归档和传播实践,包括结构化和文档化数据、透明的数据处理、多模态数据对象的创建、版本控制和数据托管。通过案例研究,如蛋白质生产和DNA编码库(DEL)筛选,展示了具体的数据管理工作流程和实践。集中化的数据库架构和电子实验记录本(ELN)及实验室信息管理系统(LIMS)的集成是关键,以实现数据的有效管理和共享。
文章指出人工智能和机器学习可以显著加速药物发现过程,但需要高质量的数据集和适当的数据表示方法。模型验证和预测不确定性估计是确保AI模型可靠性的关键策略。未来的愿景是通过实验设计中的数据科学集成和设计-制造-测试-分析(DMTA)循环中的主动学习,不断优化药物发现流程。
文章最后指出,数据管理、数据传播和数据科学的最佳实践不仅适用于SGC,也适用于不同环境下的研究操作。作者希望这些建议能够激发更多研究机构参与开放科学数据集的贡献,并拥抱AI以进行早期药物发现。
文章提出的路线图提供了一个战略和操作框架,以利用数据科学加速药物发现。随着AI技术的不断进步,开放科学组织在药物发现领域的潜力将得到进一步的挖掘。我们期待这一领域的未来发展能够带来更多的突破和创新。
文章由SGC的Kristina Edfeldt等多位专家合著,涵盖了从数据管理到AI应用的全方位视角。
新闻内容来自以下网站,不代表GoOA头条立场:
https://www.nature.com/articles/s41467-024-49777-x