大模型在化学研究中的应用进展
引言
近年来,人工智能领域取得了飞速发展,尤其是以Transformer模型为代表的大模型,凭借其强大的学习能力和泛化性能,正在深刻地改变着科学研究的范式。大模型通过海量数据的训练,能够捕捉数据中隐藏的复杂模式和规律,从而在各个领域展现出前所未有的潜力。化学作为一门实验科学,长期以来依赖于经验积累和试错探索。然而,随着化学数据爆炸式增长,传统的研究方法已经难以满足日益增长的需求。大模型为解决化学领域的难题提供了新的思路和工具,有望加速化学研究的进程,推动新材料、新药物的发现与设计。
本综述旨在探讨大模型在化学研究中的应用进展,重点关注其在分子性质预测、反应设计与合成优化、材料发现以及药物研发等关键领域的应用。首先,我们将深入探讨基于大模型的化学性质预测与理解,包括分子性质、反应活性、分子动力学模拟轨迹分析以及分子光谱的预测,旨在揭示大模型在提升预测精度和理解化学本质方面的作用。其次,我们将聚焦于大模型驱动的化学反应设计与合成优化,涵盖逆合成分析、催化剂设计、反应条件优化以及自动化合成平台构建,以展现大模型在加速反应发现和优化合成路线方面的潜力。随后,我们将考察大模型在材料发现与设计中的应用,包括材料结构预测、材料基因组数据挖掘以及材料缺陷预测,旨在说明大模型在加速新材料研发方面的价值。最后,我们将讨论大模型在药物发现中的应用,涵盖靶点识别、药物设计、ADMET性质预测以及药物重定位,以展示大模型在提升药物研发效率和降低成本方面的优势。通过对这些关键领域的深入分析,本综述将全面总结大模型在化学研究中的应用现状、挑战与未来发展趋势,并展望其在推动化学领域创新方面的巨大潜力。
基于大模型的化学性质预测与理解
基于大模型的分子性质预测已成为化学研究的前沿阵地,其应用范围涵盖经典性质乃至量子化学性质的预测。传统分子性质预测依赖于实验或高成本的计算化学方法,如密度泛函理论(DFT)。大模型的出现,为分子性质的快速、准确预测开辟了新路径。Rollins等人探索了一种多模态融合方法,将预训练的语言模型ChemBERTa-2与图神经网络结合,用于分子性质预测。研究表明,该模型在小分子水合自由能(FreeSolv)、实验水溶性(ESOL)、亲脂性(Lipo)和临床毒性任务(ClinTox)上的表现,可与最先进架构媲美,甚至超越它们,证明了语言和图表示的结合能够显著提高回归预测任务的性能。
除了经典性质,大模型也被应用于量子化学性质的预测。由于量子化学性质高度依赖于通过电子结构方法优化的3D平衡构象,而传统的1D SMILES序列或2D分子图难以达到高精度,Lu等人提出了Uni-Mol+方法来解决这一挑战。Uni-Mol+首先使用RDKit等廉价方法生成原始3D分子构象,然后使用神经网络迭代更新原始构象至目标DFT平衡构象,并使用学习到的构象来预测量子化学性质。该方法通过双轨Transformer模型骨干网络,并结合新颖的训练方法,显著提高了各种数据集上的量子化学性质预测精度。Qian等人则利用大语言模型(LLMs)生成语义丰富的解释,并将其作为分子表征,微调小规模语言模型用于下游任务,实验结果表明文本解释作为分子表征具有优越性。Balaji等人提出的GPT-MolBERTa,使用详细的分子文本描述来训练LLM,从而预测分子性质,并在各种分子性质基准测试中表现良好。Soares等人提出了MULTIMODAL-MOLFORMER,通过因果多阶段特征选择方法识别理化特征,并将其与MOLFORMER生成的分子嵌入向量空间相结合,从而在预测生物降解性和PFAS毒性等复杂任务中表现出优越的性能。
基于大模型的反应活性和选择性预测是化学研究的重要方向,旨在加速反应的发现和优化。传统上,反应活性和选择性的预测依赖于计算化学方法,如密度泛函理论(DFT),但这些方法计算成本高昂,难以应用于大规模的虚拟筛选。近年来,随着大模型的发展,研究者们开始探索利用大模型直接从分子结构预测反应结果的可能性。Winter et al. 提出了SMILES-to-properties-transformer (SPT),通过在大量合成数据上预训练,然后在实验数据上进行微调,能够准确预测未知分子的极限活度系数,将平均预测误差降低了一半 。Zahrt et al. 开发的用于预测不对称催化反应选择性的框架便是一个具体的例证 。他们针对手性磷酸催化的亚胺与硫醇的偶联反应,构建了一个包含800多个潜在催化剂的数据库,计算了每个催化剂多种构象的化学描述符,并使用实验数据训练机器学习算法,实现了对映选择性的高精度预测。该研究表明,即使训练数据中缺乏高选择性反应,深度前馈神经网络也能准确重现实验选择性数据,并成功预测最具选择性的反应。这突显了大模型在催化剂设计和筛选方面的巨大潜力,能够将催化剂的优化从经验指导转变为数学指导 。此外,Chen et al. 提出了一种新方法,通过化学语言模型预测活性化合物的效力,该模型基于条件Transformer架构,能够根据观察到的效力差异指导化合物设计,并成功预测了训练过程中未遇到的不同活性类别的已知有效化合物 。
大模型也逐渐应用于分子动力学(MD)模拟轨迹分析与性质提取。传统的MD轨迹分析依赖于算法和人为设定的参数,在大规模和复杂的体系中效率低下,且难以捕捉关键信息。机器学习模型能够从海量MD数据中学习并提取隐藏的模式和关系,从而实现对分子行为更准确、更快速的分析 。Singh等人开发了一种集成了机器学习的堆叠集成模型(SEM)与MD模拟的方法,用于分析水滴的动态性质,如接触角和氢键 。该SEM模型由随机森林、人工神经网络、支持向量回归等多个机器学习模型组成,通过两层网络结构提高了分析的准确性。实验结果表明,SEM模型在分析MD模拟轨迹时,能够更准确地捕捉关键信息,为新材料的发现和力场参数的开发提供了新的计算框架。Ma等人结合了多种基于OpenMM的平台,包括用于粗粒化建模的GPU加速openAWSEM包、用于轨迹分析的MDTraj和用于自由能计算的pyEMMA,研究了淀粉样蛋白纤维的生长过程 。他们通过分子动力学模拟探索了游离Abeta单体与现有纤维表面结合的自由能景观,揭示了表面依赖性事件的三个阶段:自由扩散、下坡引导和停靠锁定。该研究表明,在纤维表面添加新的单体是途径依赖性的,这导致了不同的二级过程。总的来说,大模型在MD轨迹分析中的应用,不仅提高了分析效率和准确性,也为理解复杂分子系统的行为提供了新的视角。
分子光谱预测与解析是化学研究中一个新兴的应用方向。大模型凭借强大的模式识别和泛化能力,能够从分子结构直接预测其光谱特征,或反之,从光谱数据解析分子结构信息。传统的光谱预测通常依赖于密度泛函理论(DFT)等量子化学计算,计算成本高昂,尤其对于复杂体系而言。大模型通过学习大量已有的分子结构和光谱数据,能够建立起二者之间的直接映射关系,从而实现快速、准确的光谱预测。Moayedpour等人开发了一种基于大型语言模型的脂质纳米颗粒(LNP)虚拟筛选方法,该方法使用脂质的简化分子输入行输入系统(SMILES)作为输入,并利用大型语言模型生成的嵌入向量进行下游梯度提升分类,从而预测脂质的性质,这表明大模型在分子性质预测方面具有巨大的潜力。Sadeghi等人的研究也表明,LLaMA等大型语言模型在生成SMILES嵌入方面表现出色,可用于分子性质预测。尽管目前大模型在光谱预测方面的研究相对较少,但可以预见,随着更多高质量光谱数据的积累和更先进模型架构的涌现,大模型将在分子光谱的预测和解析中发挥日益重要的作用。
大模型驱动的化学反应设计与合成优化
大模型在化学反应设计与合成优化领域展现出变革性的潜力。传统的化学合成依赖于经验和试错,效率低下且容易出错。而大模型通过学习海量的化学数据和合成规则,能够辅助化学家更高效地设计合成路线、优化反应条件、筛选催化剂,并最终构建自动化合成平台,从而加速化学研究的进程。
在逆合成分析与路线规划方面,大模型通过学习大量的化学反应数据和合成规则,可以自动提出合理的合成路线。例如,Schwaller等人利用微调后的GPT-3模型进行逆合成分析,该模型能够根据目标分子的描述生成一系列可能的反应物和反应条件,甚至可以通过反转问题执行逆向设计,例如,给定目标分子“paracetamol”,模型可以生成其前体分子“4-aminophenol”以及相应的反应条件“acetic anhydride, pyridine”。这种方法不仅加速了逆合成分析的过程,还帮助化学家发现新的合成路线,尤其是在数据量有限的情况下,其性能甚至超越传统的机器学习方法。此外,大模型还可以用于评估不同合成路线的可行性和效率,从而选择最优路线。例如,研究者正在探索利用大模型预测反应的产率和选择性,为合成路线的优化提供依据。Jablonka等人组织的黑客马拉松也探索了大模型在化学领域的应用,包括利用大模型设计工具的新型界面,促进逆合成分析工具的智能化发展。
大模型在催化剂设计与筛选中也扮演着日益重要的角色。传统方法依赖于经验和试错,效率低下,而大模型能够整合海量数据,学习复杂的构效关系,从而加速催化剂的发现和优化。Deng等人提出了一个基于MLP-Like和催化蒸馏图神经网络(CDGNN)的机器学习方法,用于解决催化中数据有限的挑战,并证明了CDGNN可以有效地从催化结构中学习嵌入,从而捕获结构-吸附关系 。在“Few-Shot Open Catalyst Challenge 2023”竞赛中,CDGNN在确定过氧化氢反应途径方面,比当前的图神经网络方法提高了16.1%,为催化中的少样本学习提供了一种有前景的方法 。Su等人也指出,人工智能和自动化技术的进步正在将催化剂的发现和设计从传统的试错模式转变为智能、高通量的数字化方法 。大型语言模型(LLMs)的出现为该领域增加了一个新的维度,在信息整合、决策和与人类研究人员交互方面提供了前所未有的灵活性,预示着催化剂设计领域的革命性变化 。
反应条件优化是基于大模型的另一个重要应用方向。传统反应条件的优化依赖于大量的实验摸索,耗时耗力。大模型通过学习海量的化学文献和实验数据,能够预测不同反应条件对反应结果的影响,从而指导实验,减少不必要的尝试。例如,Boiko等开发的Coscientist系统,利用GPT-4驱动,能够自主设计、计划和执行复杂的实验,包括钯催化交叉偶联反应的优化。该系统集成了互联网和文档搜索、代码执行和实验自动化等工具,展示了其在(半)自主实验设计和执行方面的先进能力。Coscientist的成功案例表明,大模型在反应条件优化方面具有巨大的潜力,能够加速化学研究的进程。此外,通过分析大量的反应数据,大模型还可以发现一些隐藏的反应规律,为化学家提供新的思路和灵感。
大模型辅助的自动化合成平台构建是化学研究中一个新兴且极具潜力的方向。传统的化学合成高度依赖于人工操作,效率低且易出错。而大模型,特别是结合了专家设计的工具和外部知识库的大模型,能够自主规划和执行复杂的合成路线,极大地提高了合成效率和准确性。Bran等人介绍了ChemCrow,一个LLM化学智能体,通过整合18个专家设计的工具并使用GPT-4作为LLM,ChemCrow增强了LLM在化学方面的性能,并涌现出新的功能。该智能体能够自主规划并执行驱蚊剂和三种有机催化剂的合成,并指导了一种新型发色团的发现。这表明,大模型不仅可以辅助专家化学家,还可以降低非专家的门槛,促进科学进步。此外,Gao等人提出了一种“on-the-fly”合成方法,利用声波喷射技术平台在纳米尺度上并行合成大型多样性化合物库,具有库多样性高、无需存储、经济高效等优点。DARWIN是一系列为自然科学量身定制的LLM,主要应用于物理、化学和材料科学领域,它依赖于开源LLM,整合了来自公共数据集和文献的结构化和非结构化科学知识。这些自动化合成平台的发展,预示着化学合成将朝着更加高效、智能的方向发展。
大模型在材料发现与设计中的应用
大模型在材料科学领域展现出变革性的潜力,尤其是在材料发现与设计方面。相较于传统材料设计方法对高通量计算和实验筛选的依赖,大模型能够学习材料结构与性能之间的复杂关系,加速新材料的发现进程。例如,Ock等研究者提出的CatBERTa模型,利用预训练的Transformer编码器处理人类可理解的文本信息,预测催化剂的吸附能。CatBERTa无需依赖精确的原子坐标构建图表示,而是直接从材料的文本描述中学习,实现了与传统图神经网络(GNNs)相媲美的预测精度,平均绝对误差(MAE)为0.75 eV。更重要的是,CatBERTa在预测能量差异时,能够有效消除系统误差,对化学性质相似的体系,误差降低高达19.3%,优于GNNs的表现。Xu等人开发的TransPolymer模型,则是一种基于Transformer的语言模型,专门用于预测聚合物的性质。TransPolymer通过化学感知的聚合物分词器,学习聚合物序列的表示,并在多个聚合物性质预测基准测试中表现出卓越的性能。这些研究表明,大模型不仅能够预测材料的各种性质,还能帮助我们理解材料的结构-性质关系,为材料设计提供新的思路。
大模型在材料基因组数据挖掘与关联分析中扮演着日益重要的角色。利用自然语言处理(NLP)和机器学习方法,可以从海量的科学文献中提取材料的带隙信息,构建大型的材料数据库。Qingyang Dong等人利用ChemDataExtractor 2.0从128,776篇期刊文章中提取了100,236条半导体带隙记录,并将其与温度信息相关联,构建了一个大型的开源带隙数据库。该数据库以CSV、JSON和MongoDB等多种机器可读格式提供,极大地便利了数据挖掘和半导体材料的发现。此外,大模型还可以用于关联材料的结构、成分、制备工艺与性能之间的关系,例如通过分析材料基因组数据,预测材料的稳定性、力学性能、电学性能等,从而指导实验研究,减少试错成本。Robert Winkler等人展示了数据挖掘方法在揭示生物质谱中非显而易见信息的重要性,他们利用随机森林模型进行数据挖掘,支持在代谢组学中无偏地搜索相关的生物学特征。通过对海量数据的分析,大模型能够发现隐藏在复杂数据中的关联性,为材料设计提供更全面的信息支撑。
大模型在材料缺陷预测与控制方面也展现出巨大潜力。传统的材料缺陷分析依赖于耗时的实验和复杂的模拟,而大模型能够通过学习海量材料数据,快速预测缺陷的类型、位置和对材料性能的影响。例如,通过分析金属-有机框架材料(MOFs)的结构和性质数据,ChatMOF能够预测和生成具有特定缺陷结构的MOFs,从而优化材料的性能。该系统利用大型语言模型(LLMs),从文本输入中提取关键细节,并提供适当的响应,从而消除了对刚性结构化查询的需求。ChatMOF由代理、工具包和评估器三个核心组件组成,形成了一个强大的管道,可以管理各种任务,包括数据检索、属性预测和结构生成。此外,大模型还可用于预测材料在特定环境下的腐蚀行为,从而指导材料的改性和防护策略。这些应用表明,大模型有望成为材料缺陷预测与控制的重要工具,为高性能材料的开发提供有力支持。
大模型在药物发现中的应用
大模型已成为药物发现领域不可或缺的工具,尤其在靶点识别与验证方面展现出巨大潜力。传统方法往往耗时且成本高昂,而大模型通过分析海量生物数据,能够更高效地预测潜在药物靶点并评估其有效性。Chelliah和van der Graaf提出的定量系统药理学(QSP)与基于网络的分析(NBA)相结合的方法,便是利用多尺度生物数据构建复杂疾病模型,从而识别关键靶点的有效途径。此外,大模型还能预测化合物与靶点的相互作用,加速先导化合物的发现与优化。Zhang等人开发的SPVec-SGCN-CPI方法,利用简化的图卷积网络(SGCN)模型结合低维特征和图拓扑信息,在预测化合物-蛋白质相互作用方面表现出色。该方法不仅优于其他机器学习模型,还通过分子对接和现有证据验证了预测的化合物-蛋白质相互作用,为药物重定位和发现提供了重要线索。值得一提的是,PROTAC技术作为一种新型治疗药物模型,通过其独特的运作机制和蛋白质动态调节特性,也为靶点识别和验证提供了新的视角。
基于大模型的药物设计与优化是药物发现领域另一重要方向。大模型能够学习大量化合物数据中的复杂模式,辅助药物设计和优化。例如,基于Transformer架构的语言模型,通过学习分子序列信息,能够预测分子性质和活性,并生成具有特定性质的新分子。Andrew E. Blanchard等人提出了一种结合固定策略和自适应策略的分子生成方法,用于优化分子性质。固定策略使用预训练模型生成突变,而自适应策略则在每一代新分子中训练语言模型,使其更贴合种群分布。实验结果表明,自适应策略在优化药物相似性和可合成性等指标方面表现出显著优势,尤其是在初步优化后切换到自适应策略,能够更有效地利用大模型的学习能力,加速药物设计过程。
ADMET (吸收、分布、代谢、排泄和毒性) 性质预测是药物发现流程中的关键环节,旨在评估候选药物的安全性。传统方法在处理复杂分子结构和相互作用时存在局限性。ADMETlab 3.0 采用多任务DMPNN架构与分子描述符相结合的方法,实现了ADMET性质的快速和准确预测。该方法包含119个特征,数据条目超过40万,在准确性和鲁棒性方面表现出色,并提供API接口以满足大规模数据访问的需求。ADMETlab 3.0还提供预测结果的不确定性估计,有助于研究人员更有信心地选择候选化合物进行后续研究和实验。
大模型在药物重定位方面也展现出巨大潜力。通过分析已批准药物的性质和作用机制,预测其对新靶点的潜在疗效,从而加速药物开发进程并降低研发成本。例如,有研究利用大模型分析大量药物的基因表达谱数据,成功预测了西咪替丁对肺癌的潜在疗效。该模型通过学习药物引起的基因表达变化模式,识别出与肺癌相关的基因通路,并预测西咪替丁能够通过调节这些通路发挥抗肿瘤作用。后续实验验证证实了这一预测,表明大模型在药物重定位方面的有效性。此外,大模型还被用于预测药物与蛋白质之间的相互作用,从而发现新的药物靶点和潜在的药物重定位机会。
结论
综上所述,大模型在化学研究的多个领域展现出强大的应用潜力,从分子性质预测与理解,到反应设计与合成优化,再到材料发现与设计以及药物研发,都带来了显著的进展。通过学习海量数据,大模型能够更准确地预测分子性质、设计合成路线、筛选催化剂、发现新材料以及识别潜在药物靶点,极大地加速了化学研究的进程。然而,我们也应看到,大模型在化学领域的应用仍面临诸多挑战,例如数据质量的限制、模型的可解释性问题以及计算资源的瓶颈。未来的研究方向将集中在如何构建更完善的化学数据库,开发更具可解释性的模型架构,以及探索更高效的计算方法。
展望未来,随着大模型技术的不断发展和化学数据的持续积累,我们有理由相信,大模型将在化学研究中发挥更加重要的作用。它不仅将加速新材料、新药物的发现与设计,还将深刻地改变化学研究的范式,推动化学领域向着更加智能化、高效化的方向发展。更进一步,大模型有望实现化学研究的自动化和智能化,解放化学家的创造力,使其能够专注于更具挑战性的科学问题,最终推动化学领域的创新突破,为解决人类社会面临的能源、环境、健康等重大挑战做出更大的贡献。
References
[1] Zachary A. Rollins, Alan C. Cheng, Essam Metwally, MolPROP: Molecular Property prediction with multimodal language and graph fusion, Journal of Cheminformatics, 2024, 16.
[2] Shuqi Lu, Zhifeng Gao, Di He, Linfeng Zhang, Guolin Ke, Highly Accurate Quantum Chemical Property Prediction with Uni-Mol+, ArXiv, 2023, abs/2303.16982.
[3] Chen Qian, Huayi Tang, Zhirui Yang, Hongsi Liang, Y. Liu, Can Large Language Models Empower Molecular Property Prediction?, ArXiv, 2023, abs/2307.07443.
[4] Suryanarayanan Balaji, Rishikesh Magar, Yayati Jadhav, and Amir Barati Farimani, GPT-MolBERTa: GPT Molecular Features Language Model for molecular property prediction, ArXiv, 2023, abs/2310.03030.
[5] Eduardo Soares, E. V. Brazil, Karen Fiorela Aquino Gutierrez, Renato F. G. Cerqueira, Daniel P. Sanders, Kristin Schmidt, D. Zubarev, Beyond Chemical Language: A Multimodal Approach to Enhance Molecular Property Prediction, ArXiv, 2023, abs/2306.14919.
[6] Benedikt Winter, Clemens Winter, J. Schilling, A. Bardow, A smile is all you need: predicting limiting activity coefficients from SMILES with natural language processing, Digital Discovery, 2022, 1, 859 - 869.
[7] Andrew F. Zahrt, J. Henle, Brennan T. Rose, Yang Wang, William T. Darrow, S. Denmark, Prediction of higher-selectivity catalysts by computer-driven workflow and machine learning, Science, 2019, 363.
[8] He-Gang Chen, J. Bajorath, Designing highly potent compounds using a chemical language model, Scientific Reports, 2023, 13.
[9] Samrendra Singh, Karteek K. Bejagam, Yaxin An, Sanket A. Deshmukh, Machine-Learning Based Stacked Ensemble Model for Accurate Analysis of Molecular Dynamics Simulations., The journal of physical chemistry. A, 2019.
[10] Yuanchun Ma, Tong Lin, Min-Yeh Tsai, Fibril Surface-Dependent Amyloid Precursors Revealed by Coarse-Grained Molecular Dynamics Simulation, Frontiers in Molecular Biosciences, 2021, 8.
[11] Saeed Moayedpour, Jonathan Broadbent, Saleh Riahi, Michael Bailey, Hoa V. Thu, D. Dobchev, Akshay Balsubramani, Ricardo N.D. Santos, Lorenzo Kogler-Anele, Alejandro Corrochano-Navarro, Sizhen Li, Fernando U. Montoya, Vikram Agarwal, Ziv Bar-Joseph, Sven Jager, Representations of lipid nanoparticles using large language models for transfection efficiency prediction, Bioinformatics, 2024, 40.
[12] Seyedeh Shaghayegh Sadeghi, Alan Bui, Ali Forooghi, Jianguo Lu, A. Ngom, Can large language models understand molecules?, BMC Bioinformatics, 2024, 25.
[13] K. Jablonka, P. Schwaller, Andres Ortega‐Guerrero, Berend Smit, Leveraging large language models for predictive chemistry, Nat. Mac. Intell., 2024, 6, 161-169.
[14] K. Jablonka, Qianxiang Ai, Alexander Al-Feghali, S. Badhwar, Joshua D. Bocarsly Andres M Bran, S. Bringuier, L. Brinson, K. Choudhary, Defne Çirci, Sam Cox, W. D. Jong, Matthew L. Evans, Nicolas Gastellu, Jérôme Genzling, M. Gil, Ankur Gupta, Zhi Hong, A. Imran, S. Kruschwitz, A. Labarre, Jakub L'ala, Tao Liu, Steven Ma, Sauradeep Majumdar, G. Merz, N. Moitessier, E. Moubarak, B. Mouriño, Brenden Pelkie, M. Pieler, M. C. Ramos, Bojana Rankovi'c, Samuel G. Rodriques, J. N. Sanders, P. Schwaller, Marcus Schwarting, Jia-Xin Shi, B. Smit, Benn Smith, J. V. Heck, C. Volker, Logan T. Ward, S. Warren, B. Weiser, Sylvester Zhang, Xiaoqi Zhang, Ghezal Ahmad Jan Zia, Aristana Scourtas, K. Schmidt, Ian T. Foster, Andrew D. White, B. Blaiszik, 14 examples of how LLMs can transform materials science and chemistry: a reflection on a large language model hackathon, Digital Discovery, 2023, 2, 1233 - 1250.
[15] B. Deng, Catalysis distillation neural network for the few shot open catalyst challenge, ArXiv, 2023, abs/2305.19545.
[16] Yuming Su, Xue Wang, Yuanxiang Ye, Yibo Xie, Yujing Xu, Yibin Jiang, Cheng Wang, Automation and machine learning augmented by large language models in a catalysis study, Chemical Science, 2024, 15, 12200 - 12233.
[17] Daniil A. Boiko, R. MacKnight, Ben Kline, Gabe Gomes, Autonomous chemical research with large language models, Nature, 2023, 624, 570 - 578.
[18] Andrés M Bran, Sam Cox, Oliver Schilter, Carlo Baldassari, Andrew D. White, P. Schwaller, Augmenting large language models with chemistry tools, Nature Machine Intelligence, 2023, 6, 525 - 535.
[19] Li Gao, S. Shaabani, Atilio Reyes Romero, Ruixue Xu, Maryam Ahmadianmoghaddam, A. Dömling, ‘Chemistry at the speed of sound’: automated 1536-well nanoscale synthesis of 16 scaffolds in parallel, Green Chemistry, 2023, 25, 1380 - 1394.
[20] Tong Xie, Yuwei Wan, Wei Huang, Zhenyu Yin, Yixuan Liu, Shaozhou Wang, Qingyuan Linghu, Chunyu Kit, Clara Grazian, Wenjie Zhang, Imran Razzak, B. Hoex, DARWIN Series: Domain Specific Large Language Models for Natural Science, ArXiv, 2023, abs/2308.13565.
[21] Janghoon Ock, Chakradhar Guntuboina, A. Farimani, Catalyst Property Prediction with CatBERTa: Unveiling Feature Exploration Strategies through Large Language Models, ArXiv, 2023, abs/2309.00563.
[22] Changwen Xu, Yuyang Wang, A. Farimani, TransPolymer: a Transformer-based language model for polymer property predictions, npj Computational Materials, 2022, 9, 1-14.
[23] Qingyang Dong, J. Cole, Auto-generated database of semiconductor band gaps using ChemDataExtractor, Scientific Data, 2022, 9.
[24] Robert Winkler, An evolving computational platform for biological mass spectrometry: workflows, statistics and data mining with MASSyPup64, PeerJ, 2015, 3.
[25] Y. Kang, Jihan Kim, ChatMOF: An Autonomous AI System for Predicting and Generating Metal-Organic Frameworks, ArXiv, 2023, abs/2308.01423.
[26] Vijayalakshmi Chelliah, Piet H. van der Graaf, Model‐informed target identification and validation through combining quantitative systems pharmacology with network‐based analysis, CPT: Pharmacometrics & Systems Pharmacology, 2022, 11, 399 - 402.
[27] Yufang Zhang, Jiayi Li, Shenggeng Lin, Jianwei Zhao, Yi Xiong, Dongqing Wei, An end-to-end method for predicting compound-protein interactions based on simplified homogeneous graph convolutional network and pre-trained language model, Journal of Cheminformatics, 2024, 16.
[28] Yang Liu, Jingkai Liang, Rui Zhu, Yueying Yang, Yali Wang, Wenyi Wei, Hua Li, Lixia Chen, Application of PROTACs in Target Identification and Target Validation., Acta materia medica, 2024, 31, 72-87.
[29] Andrew E. Blanchard, D. Bhowmik, Z. Fox, John P. Gounley, Jens Glaser, Belinda S. Akpa, S. Irle, Adaptive language model training for molecular design, Journal of Cheminformatics, 2023, 15.
[30] Li Fu, Shaohua Shi, Jiacai Yi, Ningning Wang, Yuanhang He, Zhenxing Wu, Jinfu Peng, Youchao Deng, Wenxuan Wang, Chengkun Wu, Aiping Lyu, Xiangxiang Zeng, Wentao Zhao, Tingjun Hou, Dongsheng Cao, ADMETlab 3.0: an updated comprehensive online ADMET prediction platform enhanced with broader coverage, improved performance, API functionality and decision support, Nucleic Acids Research, 2024, 52, W422 - W431.