1. 引言
研究配体与靶蛋白之间的相互作用是药物开发研究的一个重要目标。而蛋白质–配体相互作用的关键研究领域包括结合位点、结合模式和结合亲和力 [1] 。蛋白质–配体之间连接的强度体现在结合亲和力上,通常以抑制常数
、解离常数
、半最大抑制浓度
等为特征。准确预测蛋白质–配体结合亲和力是研究生物分子作用机制、药物设计和再利用的基础。
以往的研究多基于分子力学模拟,如分子对接和分子动力学模拟。然而,由于该方法结构复杂,计算成本高,在预测精度和效率方面都面临着很大的挑战。一些基于相似性的或基于矩阵分解的方法可以通过使用整个蛋白质或配体的全局相似性矩阵来给出预测。这些方法的局限性在于忽略了每个分子中单个组分的详细特征。基于SVM和随机森林的蛋白质–配体相互作用模型的研究大多局限于二元系统。随着机器学习技术在过去几年的发展,它们已逐渐被用于预测蛋白质–配体结合亲和力。例如,Pafnucy [2] ,DeepAtoms [3] ,DEELIG [4] ,TopologyNet [5] 。其中,基于分子特征描述符的机器学习模型是目前研究的热点。如DeepDTA [6] 和WideDTA [6] 。然而,在特征选择和建模方面仍然存在许多困难。近年来,卷积神经网络(CNN)、递归神经网络(RNN)等技术通常用于预测蛋白质–配体结合亲和力 [7] [8] 。该方法可以在分子水平上了解蛋白质与配体的结构和相互作用模式,从而更好地掌握蛋白质与配体之间的关系和空间特征 [9] [10] 。此外注意力机制 [11] 、图神经网络等新技术也被引入到预测模型中,以提高预测精度 [12] 。
本文使用图神经网络创建了一个新的蛋白质–配体结合亲和力预测模型GraphPLA。GraphPLA利用具有直接结合配体独特性质的蛋白质结合口袋作为局部输入特征;利用扩展卷积捕捉蛋白质的多尺度远程相互作用;利用配体的结构信息,通过学习配体的图表达,获得配体之间的相互关系和空间特征。本文还将本文提出的算法与其他类似算法进行了比较和分析。结果表明,GraphPLA是一种可靠的预测蛋白质–配体结合亲和力的模型。
2. 材料和方法
2.1. 数据准备
本文从PDBbind 2016数据库中提取了三组数据。一般集、精细集、核心集,其中分别有9226、4057、290个高质量亲和力数据和蛋白质–配体复合物。为了确保三组数据不重复,从精细集和核心集中去除核心集中的蛋白质–配体复合物。从常规集和精细集的样本中随机选择1000个样本作为验证集,核心集作为测试集。此外,为了便于与Pafnucy进行比较,从验证集删除了85个蛋白质–配体复合物,从训练集删除了2个蛋白质–配位体复合物。由于PDBbind数据库中的小分子在正常条件下是带电的,为了使用RDKit进行结构表征,移除42个未修饰的蛋白质–配体复合物。最终,共采集了290个测试样本、1000个确认样本和11864个训练样本。在此基础上,本文还用现有的数据集test105 (包括105个样本)和test71 (包括71个样本)进行测试,使其更加客观。
![](//html.hanspub.org/file/1-1690122x11_hanspub.png?20240531085107120)
![](//html.hanspub.org/file/1-1690122x12_hanspub.png?20240531085107120)
Figure 1. Length statistics for all study data
图1. 所有研究数据的长度统计
根据图1所示的分布进行比较。为了覆盖90%的蛋白质和90%的口袋,为蛋白质定义了1000个固定长度,为口袋定义了63个固定长度。长度大于固定长度的被截断,长度小于固定长度的被补零。使用分子图描述配体的结构。基于文本的输入信息分为配体表示、蛋白质表示和口袋表示三部分。
![](//html.hanspub.org/file/1-1690122x13_hanspub.png?20240531085107120)
Figure 2. The GraphPLA architecture. Includes three modules: data processingmodule, feature extraction and pooling module, and feature integration and processing module
图2. GraphPLA架构。包括三个模块:数据处理模块、特征提取和池化模块以及特征集成和处理模块
2.2. 蛋白质表示(图2)
本文对每个残基使用40-D特征向量,通过整合序列和结构属性表示来描述全局蛋白质特征。21-D独热向量编码了21种不同蛋白质序列残基,由20种不同类型的氨基酸和非标准残基组成。此外,利用19-D向量用来表示结构属性,包括二级结构和理化性质。
本研究使用SSPro软件预测每个序列的二级结构。有八种不同的二级结构状态:α-helix (H),extended strand,participates in β ladder (E),residue in isolated β-bridge (B),coil (C),hydrogen bonded turn (T),π-helix (I),310 helix (G),and bend (S)。本文使用一个8-D独热向量来编码二级结构。在此基础上,将各种残留物分为非极性、极性、酸性和碱性,并对每种残留物的理化特性进行了检测。为此,提出了一种基于11-D向量的物理化学性质编码方法。
2.3. 口袋表示
口袋由几个不连续的序列组成,其中包含某些蛋白质的重要氨基酸,对蛋白质–配体的功能有重要影响。因此,将一个口袋作为整体进行局部特征提取。局部口袋特征是预测蛋白质–配体结合亲和力的重要输入信息。本文拟使用一个40-D特征向量,将前一节提出的序列表达式和结构属性表达式结合起来,对局部口袋特征进行编码。
2.4. 配体表示
SMILES的开发目标是表示计算机可读的分子。本文将药物分子视为原子相互作用图。为了描述图中的节点,本文采用了一组DeepChem改编的原子特征。在本文中,每个节点是一个多维二元特征向量,表达五个信息:原子符号、相邻原子数、相邻氢原子数、原子隐式值以及原子是否为芳香结构。本文将SMILES代码转换为分子图,使用RDKit提取原子特征。
3. 模型
本文使用嵌入层来表示三个模块中的输入。这些模块分别由(1000, 128)维蛋白质矩阵,(63, 128)维口袋矩阵和配体图组成。在蛋白质模块中,使用具有5个不同扩展率的一维扩展卷积来描述较长的蛋白质序列,之后是最大池化层。在配体模块中,使用分子图并试验了三种不同的图神经网络模型,包括GCN [13] 、GAT [14] 和GAT-GCN [15] 。之后是最大池化层。在口袋模块中,使用了三个一维的传统卷积,卷积层由32、64、128个滤波器组成,滤波器的大小为3。然后是最大池化层。最后,将三个模块的最大池化层的特征连接在一起,并提供给分类部分。
分类部分由三个FC层组成。第一层具有128个节点,而第二层有64个节点。每一层都有一个速率为0.5的脱落层。最后一个FC层之后为输出层。
PReLU激活函数存在于该架构的FC层、蛋白质卷积层和口袋部分,目的是缩短训练时间,避免过拟合。这个函数的表达式定义为:
其中a表示可学习的参数。对于配体部分,本文采用ELU激活函数,它不会引起梯度饱和。这个函数的表达式定义为:
其中a是超参数。设置为1.0。
本文使用MSELoss作为损失函数,为了最小化损失函数,使用一种名为AdamW的优化器对模型中的参数进行了优化。
综上所述,本文提出了一种结合局部、全局特征和分子图的模型。
3.1. 基于GCN的图表示学习
本文拟采用GCN [13] 对药物的图形表示进行建模。形式上,用
表示给定药物的曲线图,其中V是N个节点的集合,每个节点由一个C维向量表示,E是用邻接矩阵a表示的边的集合。多层图卷积网络(GCN)以一个节点特征矩阵
(
,C:每个节点的特征数)和邻接矩阵
。然后产生一个节点级输出
(F:每个节点输出特征的数量)。GCN层与层之间的传播方式是:
其中,
为带有自连接的无向图的邻接矩阵,
,其中,
是第l层的激活矩阵,
,
为激活函数,
为可学习参数。
可以近似地使用分层卷积操作:
其中
(F:滤波器或滤波器映射的数量)是滤波器参数的矩阵,
是卷积信号矩阵。而在预处理步骤中计算出
后,我们可将其简化为
其中
是具有H个特征图的隐藏层的隐藏权重矩阵的输入,
是一个隐藏的输出权重矩阵。softmax激活函数定义为:
其中
。
本文提出了一种新的GCN算法,该算法使用5个相邻的GCN层,由ReLU函数激活,然后增加一个全局最大池化层来获得图形表示向量。
3.2. 基于GAT的图表示学习
图注意力层是图注意力网络(GAT) [14] 体系结构的构建块。图注意力层的输入是一个节点特征向量集:
其中N为节点个数,F为节点特征的个数,矩阵h的大小是N × F,代表了所有节点的特征,而R只代表了某一个节点的特征,所以它的大小为F × 1。图注意力层的输出是一个新的节点特征向量集:
然后GAT层使用加权矩阵W对每个节点执行线性变换,对于图中的每个输入节点i,i与其一阶邻居之间的注意系数计算为:
这个数字表示节点j对节点i的重要性。为了使得注意力系数更容易计算和便于比较,本文引入了softmax对所有的i的相邻节点j进行正则化:
然后通过使用softmax算法对这些注意力系数进行归一化来确定节点的输出特征:
归一化注意力系数由
表示,非线性激活函数由
表示。
本文中基于GAT的图学习架构包括五个GAT层,由ELU函数激活。前四层使用多头注意力,将头的数量设置为10,输出特征的数量与输入特征的数量相对应;第五层的输出特征设为128。
3.3. GAT-GCN组合图神经网络
本文还对GAT-GCN组合模型进行了研究 [15] 。该模型从GAT层开始,将图像作为输入传递给后续的GCN层。ELU函数激活每个GAT层,并且通过ReLU函数触发GCN层。在此基础上,将GCN层的整体最大池化层与整体平均池化层结合,得到最终的图向量。
3.4. 局部和全局特征
在生物学研究中,DNA片段产生的关键氨基酸及其相互作用具有重要意义 [6] 。研究表明,蛋白质的局部和全局特征是决定其功能和相互作用的关键因素。因此,本文构建了一个深度学习模型,通过整合蛋白质结合口袋序列和整个蛋白质序列的局部和全局特征来捕获不同输入位置的重要性。
3.5. 扩张卷积
与传统卷积相比,扩展卷积可以通过设置不同的扩展率来捕获多尺度上下文信息,并且在不损失分辨率和覆盖范围的情况下支持感受野的指数扩展。扩展卷积算子
定义为
这里
是一个离散函数,
是膨胀率。元素向量的下标为s和t。应用膨胀率呈指数增长的滤波器的离散函数可以定义为:
在此基础上,通过增加有效感受野大小,使用扩展卷积来捕获蛋白质信息的远程相互作用。蛋白质模块有5层,使用3 × 3卷积核,膨胀率为1,2,4,8,16。
3.6. 评估指标
为了评估模型的性能,本文使用均方误差(MAE)和均方根误差(RMSE)作为预测误差的度量。RMSE定义如下:
MSE定义如下:
其中,
为第i个复合物的实际亲和力–预测亲和力。对于预测亲和力与实验测量亲和力之间的相关性,用皮尔逊相关系数(R)和标准差(SD)来评估其相关性。回归中的R定义如下:
其中,
表示第i个复合物的实际亲和力,
表示第i个复合物的预测亲和力。SD定义如下:
N表示蛋白质–配体复合物的数量,
和
表示第i个复合物的实际亲和力和预测亲和力,其中a和b分别表示实际结果和预期结果之间的关系曲线的斜率和截距。一致性指数(CI)是指两个随机选择的蛋白质–配体复合物按照特定顺序的预测亲和力值与真实亲和力值之间的概率。例如:
为结合亲和力
的最大预测值,
为结合亲和性
的最小预测值。蛋白质–配体复合物的总数由标准化常数Z表示。当
,
,
时,
分别为1.0,0.5,0.0。较大的CI表明该模型具有良好的预测能力。
4. 结果与讨论
本文使用多个公共数据库对GraphPLA算法进行测试,并与其他算法进行比较分析。研究发现,GraphPLA可以有效地预测蛋白质–配体结合亲和力。
![](Images/Table_Tmp.jpg)
Table 1. Manifestation of GraphPLA
表1. GraphPLA的表现
![](Images/Table_Tmp.jpg)
Table 2. Manifestation of GraphPLA and other competing methods on the core 2016 test set
表2. GraphPLA和其他方法在2016测试集上的表现
4.1. 与竞争方法的比较
本文拟使用现有的三种深度学习方法DeepDTA [6] 、Pafnucy [2] 和TopologyNet [5] 与GraphPLA进行比较。表2比较了三种不同的GraphPLA模型与PDBbind数据集上现有模型的性能,表现最好的变体是GAT-GCN。因此,在之后的统计分析中都集中于GAT-GCN。
如表1所示,在PDBbind数据库上对GraphPLA的性能进行了评估。在表2中,GraphPLA的表现优于其他同类算法。与DeepDTA、Pafnucy和TopologyNet相比,GraphPLA的RMSE(1.388)更低。GraphPLA的相关R为0.795,比DeepDTA增加6.1%,比Pafnucy增加2.5%,比TopologyNet增加61.6%,CI为0.796。与DeepDTA、Pafnucy、TopologyNet算法相比,该算法在MAE、SD等性能指标上也有明显提升。如表3所示,对于test 105集,GraphPLA在准确性方面优于其他可比较的算法。如表4所示,还对test 71组进行了测试。结果表明,GraphPLA可以更准确地预测亲和力。
![](Images/Table_Tmp.jpg)
Table 3. Accuracy of GraphPLA’s predictions and those of other competing techniques on the test 105 set
表3. GraphPLA和其他方法在test 105集上的表现
![](Images/Table_Tmp.jpg)
Table 4. Accuracy of GraphPLA’s predictions and those of other competing techniques on the test 71 set
表4. GraphPLA和其他方法在test 71集上的表现
![](Images/Table_Tmp.jpg)
Table 5. Accuracy of GraphPLA’s predictions and those of other competing techniques on the 2016 test set
表5. GraphPLA和其他方法在2016测试集上的表现
4.2. 局部口袋特征的影响
作为局部特征的蛋白质结合口袋是蛋白质–配体结合亲和力预测的重要信息。因此,去掉局部口袋特征提取模块后训练模型。没有局部口袋特征的模型在2016测试集上的表现如表5所示。结果表明,该模型在5项评价指标上均低于原模型。此外,本文还尝试使用不具有全局蛋白质特性的模型,结果表明性能较差。综上所述,局部口袋特征和全局蛋白质特征包含了对蛋白质–配体结合亲和力预测极其重要的信息。
4.3. 不同类型结构特性的影响
为了研究不同类型的结构性质对GraphPLA的影响,本文分别通过去除二级结构和物理化学特性进行了实验。从表5可以看出,在识别蛋白质–配体结合亲和力方面,结构特性,尤其是理化性质是非常重要的。
4.4. 扩张卷积的影响
与传统卷积相比,扩展卷积可以捕捉长序列蛋白质中氨基酸残基之间的多尺度长程相互作用。如表5所示,通过用常规卷积代替扩张卷积,验证其对模型的意义。总体而言,改进后的卷积算法具有较好的预测能力。
5. 结论
本文创建了一种基于图神经网络的绑定亲和预测技术,称为GraphPLA。使用具有直接结合配体的独特性质的蛋白质结合口袋作为局部输入特征,使用多图神经网络来学习配体的图表示,并使用扩展卷积来捕获蛋白质之间的多尺度远程相互作用。本文还对这些新的特征进行了测试,结果表明,它们可用于亲和力预测。与其他竞争方法相比,我们的模型可以更好地预测结合亲和力。
虽然已经证明了GraphPLA具有更优越的性能,但它也不是没有限制。配体模块使用图神经网络提取特征,与某些复杂的卷积神经网络相比,需要更大的训练数据来展示图神经网络的优势。另一个问题是,图神经网络和卷积神经网络在模型中不能很好地结合,导致模型运行速度不理想。未来我们将尝试编写并完善新的卷积神经网络,使其能与图神经网络更好地结合,达到加快模型运行速度的效果。此外,还需要考虑获取更多的口袋信息,以提高预测结果。未来,我们将致力于收集更高质量的蛋白质配体数据集,探索如何获得更多有用的口袋信息,以及如何更好地融合和构建模型,以提高GraphPLA的预测性能。
基金项目
海南省计算科学与应用重点实验室开放课题(JSKX202102)。
NOTES
*通讯作者。