中南大学董界/曾文彬团队:可解释性人工智能解构扭曲分子内电荷转移与平面分子内电荷转移的化学结构本质
Research
image: 图1 用于可解释人工智能方法解构TICT和PICT荧光团化学结构本质的研究策略 view more
Credit: Copyright © 2025 Shuai Huang et al.
【原文摘要】
D–π–A 型荧光材料在生命科学和医学领域中的重要工具,它们的发展高度依赖于对荧光团机制的精确理解,特别是TICT和PICT过程。这类荧光团表现出独特的电荷转移性质,使其在有机光电子学、荧光探针和传感器中具有很高的应用价值。然而,目前研究者们对TICT和PICT荧光团的化学结构本质仍然缺乏系统的理解。这常常导致结构相似的分子表现出与设计预期相反的电荷转移模式,从而显著阻碍了TICT和PICT 荧光探针的应用。在本研究中,作者团队基于可解释机器学习精心设计了预测模型以全面解构 TICT 和 PICT 荧光团的化学结构本质。首先团队构建了首个TICT 和 PICT 数据集,在此基础上进一步使用包括深度学习在内的一系列算法,构建了在可解释性和准确性之间达到平衡的预测模型(AUC = 0.846)。并且基于这些预测模型,团队还建立了一套由影响TICT与PICT过程的重要因素组成的AI指导的设计规则:EDG强度、EWG强度、烷基环化、位阻效应以及溶剂溶质相互作用。该规则为基于分子刚性和电荷转移动力的探针设计提供了明确的指导,并且与传统化学规则的设计相比,AI 指导规则在受控评估中使准确率提高了超过20%。通过应用这些规则,团队成功合成了仅凭化学直觉难以区分的数个荧光团,并且量化计算和实验结果均证实了模型的准确性及 AI 指导规则的实用性。这种新方法有望建立探索理想TICT 和PICT分子的全新范式,为未来荧光材料的研究和应用提供一个强大的框架。
【策略和方法】
该研究构建了一套将可解释人工智能与量化计算深度融合的创新策略,用于系统解析TICT与PICT荧光分子的化学结构本质(图 1)。与传统的量子化学计算方法不同,利用人工智能深入分析TICT和PICT的化学本质,需要同时解决预测精度、计算效率以及解决如何让模型真正理解结构变化如何影响TICT和PICT行为等关键挑战。为此,研究团队从2012-2022年间的大规模文献中系统整理出首个具有准确标签的TICT与PICT荧光分子数据集。在模型构建阶段,团队从简单到复杂依次评估了12种传统机器学习算法和深度学习模型以追求预测准确性与模型可解释性之间的最佳平衡。通过整合多种模型贡献度分析方法,研究进一步提炼出5条基于AI指导的TICT与PICT分子设计规则,从分子刚性与电荷转移驱动力的角度揭示了影响TICT与PICT行为的核心结构因素。尽管这些规则为设计TICT和PICT分子提供了突破性的视角,但模型的复杂性可能使非专业人员难以理解与应用。为解决这一问题,本研究开发了一个更直观、更实用的工具,用于可视化展示 TICT 与 PICT 分子的分步判别过程,以促进其在实际场景中的应用。与传统化学直觉所设计的探针相比,基于AI指导规则设计的TICT与PICT荧光团的设计准确率显著提升。为了验证指导规则的准确性,研究团队选取经验直觉难以判断的全新化合物,通过激发态势能面扫描与电子空穴分析从量化计算角度进行验证,然后合成化合物再经过湿法实验进行了合理验证。
【主要结果】
1.TICT与PICT数据集构建
鉴于实验手段之外准确区分 TICT 与 PICT 分子仍具有显著挑战,相关数据长期处于匮乏状态。为确保模型训练的可靠性与泛化能力,团队系统检索了过去10年(2012-2022)超过10,000篇文献,并以文献中报告的激发态势能面(PES)扫描结果及相应理论计算结论作为判定标准,对潜在的TICT与PICT分子进行逐一判别。数据初步收集超过3,000个候选分子。随后将这些候选分子利用ChemDes与PyBioMed将所有结构转换为InChIKey,对重复条目进行严格去重,同时对标签不一致的结构进行拆分与保留,最终共获得 511个TICT分子与369个PICT分子作为最终数据集。为了使模型能够充分捕获影响TICT与PICT机制的关键因素,所有分子进一步计算为12类分子表征方式(含2D 描述符、三种半经验3D描述符及八类分子指纹),全面覆盖从分子拓扑、构象、电子结构到子结构片段在内的关键化学信息。
2.预测模型的构建与性能评估
基于上述高质量数据集,作者团队进一步联合12种机器学习算法与深度学习框架 MolMapNet 构建多组模型。通过对2D描述符与八类分子指纹分别进行50轮不同训练集划分的重复建模,并在每轮中从12种算法中筛选最佳模型。最终,基于AtomPair指纹的XGBoost模型组合提供了最佳的预测性能:测试集准确率达到0.784,AUC为0.846,且在敏感性与特异性之间保持了出色平衡。在半经验3D描述符的组合中,AM1、PM3 与MNDO方法整体表现良好,其中AM1的预测准确率最高,测试集准确率达0.730。相比之下,MolMapNet在样本规模受限的情况下泛化能力略弱,其准确率未能超过最佳模型,准确率为0.716,但其多描述符融合策略在模型解释方面仍具有重要补充价值(图2)。
3.模型的结构贡献可解释性分析
在解析模型如何判别TICT与PICT机制的过程中,团队从2D描述符、3D描述符、MACCS分子指纹与深度学习多模态特征四个角度对最优模型进行了多维度解释性分析。尽管不同算法的特征重要性排名略有差异,但高贡献特征在各模型中均表现稳定。四种模型解释一致指向构象刚性、分子空间位阻、电荷效应以及溶剂等因素共同塑造了TICT 与PICT的本质差异(图3)。
4.基于可解释表征的简化预测模型
为增强模型在实际应用中的易用性,团队基于前述可解释性分析构建了更简洁、实用的的轻量化模型。作者团队首先对最重要的前20个关键特征与真实标签的相关性进行分析,其最高的相关系数达到0.67。然而在最关键五个描述符的分布显示单一特征虽与TICT与PICT机制存在一定联系,但远不足以支撑准确区分。基于此,研究利用MACCS指纹与2D+3D描述符构建了两类简化决策树模型,以可视化展示模型如何逐步对TICT与PICT的机制进行判别。MACCS决策树在交叉验证与测试集上的准确率分别为0.724与0.710,而基于2D+3D描述符的模型略低,为0.646与0.647。虽然决策树模型的性能弱于最优XGBoost 模型,但两种决策树均在可解释性与预测能力之间实现良好平衡,可作为研究人员快速判断TICT与PICT的实用工具(图4)。
5.解构TICT与PICT的化学解构本质
为深入揭示TICT与PICT的化学解构本质,本研究从关键分子描述符切入,从36个核心描述符中进行分析。结果显示,多数关键特征与烷基环化、位阻效应及溶剂-溶质相互作用密切相关。当这些因素增强时,体系更倾向于PICT;反之则更易形成TICT,这一趋势与传统化学直觉相符。更重要的是,团队发现与电荷与能量相关的描述符同样关键,当EDG/EWG 能力增强时,分子更容易发生电荷重新分布,从而偏向TICT;若强度不足,即便存在位阻或溶剂等外部有利条件,TICT也难以发生。基于此,研究最终提炼出5条由 AI 归纳的结构规律:EDG强度、EWG强度、烷基环化、位阻效应与溶剂溶质相互作用(图5)。其中,EDG与 EWG强度的贡献占比合计约56%,主导电荷转移动力学;环化、位阻与溶剂效应则通过调控构象自由度与环境稳定性的尺度上影响TICT与PICT机制。
6.AI 指导规则的多层次验证
为了验证AI 指导的设计规则在实际应用中的可行性与准确性,本研究构建了两套分子库(基于传统化学直觉的设计库与AI 指导的设计库)并通过三层验证体系展开系统评估。第一层验证中,使用最佳模型对两套分子库进行预测,AI 指导的设计库的设计准确率达到 90.96%,显著高于传统规则库的 67.47%,设计成功率提升超过20%(图6)。为了进一步确认这些规则在真实化学体系中的可操作性与外部有效性,作者团队在基于AI指导的设计规则数据库选择了两个尚无文献报道、且难以通过化学直觉直接判断机制的代表性分子(Compound 1和Compound 2)进行下一步验证。在第二层验证中,通过对Compound 1和Compound 2进行激发态势能面扫描与电子空穴分析,结果显示:Compound 1具有典型的 TICT特征,而Compound 2保持稳定的 PICT 性质且不可到达TICT构型。第三层实验验证进一步巩固了上述结论:实际合成两种化合物并开展光谱测试及细胞成像后发现,Compound 1对黏度高度敏感;而Compound 2对粘度没有明显响应,呈现稳定的PICT发光行为。三层验证结果高度一致,充分证明了本工作总结的五条AI指导的设计规则能够较为可靠地指导TICT与PICT荧光探针的精细化设计(图7)。
【结论】
作者提出了一种全新的基于人工智能的方法成功预测并解析TICT与PICT的化学结构本质,从而促进相关荧光探针的理性设计。该研究构建了目前首个高质量TICT与PICT分子数据集,并且建立了一系列用于区分TICT和 PICT分子的机器学习模型,其中最佳模型在测试集上达到了0.784的准确率。更重要的是,得益于模型优异的可解释性,作者揭示了5条由分子刚性与电荷转移动力驱动的影响TICT与PICT机制的AI指导的设计规则:EDG强度、EWG强度、烷基环化、位阻效应以及溶剂溶质相互作用。相比以往依赖经验判断或成本高昂量子化学计算的方式,基于AI指导的设计规则设计的分子准确率具有大幅提升。这些规则并非停留在理论层面,而是经过势能面扫描、电子–空穴分析、光谱响应与细胞成像等多维度实验体系获得全面验证。因此,本研究不仅有效解析了TICT与PICT的化学结构本质,也在该类分子探针的智能化设计道路上迈出了关键一步。
原文链接:https://spj.science.org/doi/10.34133/research.1021
Disclaimer: AAAS and EurekAlert! are not responsible for the accuracy of news releases posted to EurekAlert! by contributing institutions or for the use of any information through the EurekAlert system.