1. 引言
在过去几十年的时间里,科学家们一直致力于与癌症进行斗争,并提出了各种单药治疗方法,以提高患者的生存期。然而,由于单一用药的限制,癌症对抗癌药物的耐药性不断增强,导致单一用药在治疗癌症患者方面效果有限 [1] 。因此,近年来,科学家们逐渐开始关注联合用药对于癌症治疗效果的重要性。大量体外实验研究表明,与传统的单一用药相比,药物的联合使用可以有效延长癌症患者的生存期并提高其生存率 [2] [3] [4] [5] ,成为癌症研究的重要方向 [6] [7] [8] [9] 。随着高通量技术的发展,一些大型抗癌药物组合数据库如O’Neil [10] 、NCI-ALMANAC [11] 、DREAM [12] 逐渐被建立,这些数据库提供了数百万种不同药物组合和癌细胞系的协同评分实验测量数据。因此,科学家们提出了许多基于高通量技术的抗癌药物协同预测模型,为发现临床上常见的药物组合的协同效应做出了巨大贡献。
抗癌药物协同预测通常被视为分类问题或回归任务。在分类任务中,药物组合根据其对癌细胞系的协同得分被分为协同或非协同两类;而回归任务则是预测药物组合的协同得分。近年来,研究人员提出了许多基于机器学习和深度学习的模型,利用药物组合的化学特征和癌细胞系的多组学特征作为输入,根据不同任务类型输出预测值:药物协同或非协同分类或药物组合对癌细胞系的协同得分。例如,文献 [13] 提出一种名为CDRscan的方法,通过一维卷积神经网络从药物的指纹信息和细胞系的基因表达数据中捕获药物与细胞系的深层表 达以进行抗癌药物反应预测。文献 [14] 建立了一个综合的药物组合数据库,并提出了一种基于机器学习的模型。他们利用药物的化学特征、药物靶点信息和基因表达数据等多种特征,借助随机森林算法预测药物的协同效应。另一方面,王等人 [15] 构建了一个基于多项式回归的抗癌药物协同预测框架,利用响应张量、药物化学特征和细胞系的多组学特征作为输入来模拟药物协同效应。然而,由于传统机器学习方法对非线性关系建模的局限性,以及处理大规模高维数据的困难,越来越多的研究开始采用深度学习模型来取代传统机器学习方法。例如,Preuer等人 [16] 根据药物的理化性质和癌细胞系的基因组学特征,构建了基于深度神经网络(DNN)的深度学习模型,用于抗癌药物的协同分类和回归任务。Bazgir等人 [17] 将输入的高维特征向量表示为具有空间相关性的紧凑图像,并利用卷积神经网络(Graph Convolutional Neural Network, GCN) [18] 构建回归模型。而文献 [19] 构造了超图,以药物组合和癌细胞系作为节点,以协同得分作为超图边,在输入方面使用了癌细胞的基因表达和药物的SMILES (Simplified Molecular-Input Line-Entry System)特征。基于超图神经网络(Hypergraph Neural Network, HGNN) [20] 构建了名为HypergraphSynergy的深度学习模型,用于抗癌药物协同分类和回归任务。
尽管在抗癌药物协同预测领域,基于高通量的模型不断取得进展,但仍存在一些问题。例如,基于神经网络的深度学习方法未考虑到药物组合和癌细胞系之间的拓扑结构。尽管HypergraphSynergy模型采用超图神经网络来学习药物组合和癌细胞系之间的拓扑信息,但忽略了单一药物和癌细胞系之间的关联。为解决上述问题,本文第四章提出了一种新的抗癌药物协同预测模型。该模型不仅考虑到药物组合和癌细胞系内在的联系,还构建了单个药物与细胞系之间的关联,以获取药物与细胞系之间的交互信息,从而取得了显著的实验效果。我们的研究做出了如下贡献:
1) 构造了两种类型的网络,并用不同的图神经网络进行训练,不仅获取了药物组合与细胞系之间的内在联系,同时捕获了单药物与细胞系之间的内在关系。
2) 在开放数据库上与现有先进模型对比实验表明,我们的模型在性能上有明显改进,具有突出的泛化能力和鲁棒性。
2. 材料与方法
2.1. 数据集
我们从多个公开的数据集收集模型所需的数据:抗癌药物协同数据,药物分子信息和癌细胞系的基因表达特征。这些数据库包括:O’Neil抗癌药物协同预测数据集,PubChem [21] 药物分子数据集,COSMIC [22] 细胞系基因表达数据集。
为了获得药物组合与癌细胞系的相互作用信息,我们从大型肿瘤筛查数据集O’Neil获取药物组合与癌细胞系的Loewe协同评分。O’Neil数据集包含38种药物和39个人类癌细胞系的23,062个数据样本。每个样本为包含两种药物和一种细胞系的Loewe协同作用评分。然后使用公式(1)对初始相互作用
数据进行二值化:
(1)
其中
表示药物k与药物i所组集合与细胞系j的Loewe协同评分。若
则表示该药物组合对该药物存在协同作用,若
反之。
药物的分子结构由药物的SMILES表示,从PubChem数据集获得。
癌细胞系的基因表达特征采用COSMIC数据集中的细胞系项目数据集,且只考虑与COSMIC癌症基因普查相关的651个基因数据(https://cancer.sanger.ac.uk/census)。并且对细胞系基因表达的每百万转录本值进行log2转化并进行z-score归一化。
获得上述样本后,我们去除没有基因表达的癌细胞系和没有SMILES特征的药物分子。从O’Neil数据集的38种药物和39个人类癌细胞系中获取18,950个有用数据样本的Loewe协同作用评分,其中具有协同作用的样本有1694个,没有协同作用的样本有17,256个。
2.2. 模型
在本研究中,我们的模型主要有三个部分组成:网络构建,特征学习和预测。模型的主体结构见图1所示。首先,我们癌细胞系的基因表达数据,药物的分子结构特征和药物协同数据Loewe评分作为输入,分别构建药物与细胞系协同作用超图和药物与细胞系相互作用图;其次通过超图神经网络和图神经网络分别对超图和相互作用图进学习,提取药物与细胞系的深层特征。最后融合两种图的学习成果进行药物的协同预测。
2.2.1. 网络构建
本研究以药物的分子特征,细胞系的基因表达特征以及药物的协同Loewe评分为输入。
对于所有药物的初始特征矩阵
,我们通过获取单个药物的SMILES字符串,利用DeepChem数据库的ConvMolFeaturizer方法,将药物转换成分子图
的形式,其中
为单个药物所有原子的特征矩阵,
为邻接矩阵,若
则表示第
与第
个原子有化学键相连通,若
反之。其中
表示药物原子的个数,
表示每个原子的特征维度。我们通过图神经网络对药物分子图进行初步处理获得模型的初始特征
,如公式(2)所示,经过k层图神经网络之后第
个药物的特征矩阵为
。
(2)
其中,
为第k层GCN的可学习权重矩阵;
为归一化邻接矩阵,
为度矩阵,I为单位矩阵;
为第
层的输出,当
时,
表示药物分子的单个初始特征矩阵;
为ReLU激活函数。由于药物分子具有不同的原子个数,所以我们对最后一层神经网络的输出应用全局最大池化层,使得每个药物具有相同的特征维度。最后,将所有药物的特征输出串联得到模型药物的初始特征
。
对于细胞系的初始特征矩阵
,我们使用如公式(3)所示的k层全连接层捕获各个细胞系的潜在特征,经过k层全连接层后第c细胞系的特征可表示为
,其中特征维度与各药物的特征向量维度保持一致。
(3)
其中,
表示第k层可学习的权重矩阵;
为第
层全连接层的输出,当
时,
表示细胞系的基因表达数据;
为
激活函数。与药物处理相似,将各细胞系的输出串联,获得模型细胞系的初始特征
。
药物协同超图构建我们用药物协同作用数据构建药物协同超图
。
表示药物和细胞系两个集合组成的节点集(D表示药物组成的集合,C表示细胞系组成的集合);
表示超边组成的集合,每一个超边由一个具有协同作用的药物–药物–细胞系三元组组合而成;每一个超边具有各自的权重,所有权重储存于对角矩阵
。超图
可以进一步用关联矩阵
,若
,则表示节点
被超边
关联,若
,反之。超图
的每一个节点具有一个初始的特征向量,所有节点组成的特征矩阵为
,其中
和
分别表示药物和细胞系的初始特征矩阵,F表示特征维度。
同时,我们利用药物Loewe协同作用评分构造药物与细胞系相互作用网络
。
表示药物和细胞系两个集合组成的节点集。E表示药物与细胞系的相互作用边,对于图
的任意边
表示药物
与细胞系
具有相互作用,即存在一个包含
和
的三元组
,使得Loewe协同评分大于阈值30,则称药物
与细胞系
具有相互作用。相互作用图
可用邻接矩阵
表示,若
则表示药物i与细胞系j存在相互作用,若
反之。图
节点的初始特征矩阵同超图
的初始特征矩阵
。
2.2.2. 特征学习
对于超图
,我们使用超图神经网络学习节点的潜在特征,HGNN是基于超图的谱卷积,相对于传统图神经网络,HGNN能更好的细化和学习超图结构的图网络。我们使用公式(4)得到超图神经网络的第k层输出:
(4)
其中,
(
)为节点的度矩阵;
(
)为超边的度矩阵;
是第l层的可学习权重;
为第l层HGNN的输出,当
时,
。经过l层HGNN的迭代可聚合由共同超边连接的L-hop邻居的信息,从而更新超图节点的特征,使得模型充分提取药物组合与细胞系之间的拓扑结构。令
表示最后一层HGNN的输出,则通过矩阵分解我们可以得到药物节点d和细胞系节点的特征,分别为
和
。
针对
,我们使用图卷积神经网络提取药物与细胞系之间的隐藏拓扑结构,如公式(5),第k层图卷积神经网络输出为
:
(5)
其中,
为Relu激活函数;
为第k层图卷积神经网络的输出,当
时,有
;
;
是
的度对角矩阵;
表示GCN第k层的可学习权重矩阵。令
表示最后一层GCN的输出,则通过矩阵分解我们可以得到药物节点d和细胞系节点的特征,分别为
和
。通过GCN模块,我们可以捕获药物与细胞系的相互关联,获得节点的深层特征。
基于多种图神经网络的学习模块,我们不仅能提取药物组合与细胞系之间的联系,还能捕获单个药物与细胞系之间的关联,从而使得我们的模型能更好的提取不同实体之间的拓扑结构,提高模型的稳定性和精度。
2.2.3. 预测
药物协同预测的目标是预测给定药物–药物–细胞系三元组合的Loewe协同作用评分(或概率),基于不同类型的图,我们构造了两种不同类型的预测模块预测药物组合
与细胞系
的协同评分。
对于超图神经网络得到的特征结果,我们使用公式(6)获得药物组合
与细胞系
的协同概率
:
(6)
其中MLP是一个多层感知机;||为拼接操作;
与
分别为药物i与细胞系j的超图神经网络输出结果。同时,由于本研究为分类任务,所以我们采用公式(7)二值交叉熵作为超图模块的损失函数:
(7)
其中,
是训练集,
表示真实协同标签。
针对相互作用图模型的GCN训练特征结果,由于相互作用图提取的是单药物与细胞系之间的联系和相关性,因此我们通过计算药物组合
与细胞系
的线性相关系数来预测药物是否有协同作用,我们先通过公式(8)将药物组合的特征维度转换成与细胞系相同的特征维度:
(8)
然后我们通过公式(9)计算药物组合
与细胞系
的相关系数:
(9)
其中,
为细胞系的图卷积神经网络输出结果,
为药物组合
的特征,
和
为
和
的平均值。为了凸显药物组合与细胞系之间的相似性,我们引入超参
。由公式(10)可得药物组合与细胞系的线性相关矩阵
,其中
表示药物组合与
细胞系
的敏感性。
(10)
与超图模块的损失函数类似,我们采用公式(11)二值交叉熵作为损失函数
(11)
最后,为了平衡两个图模块的贡献度,我们将单药物与细胞系的相似性作为辅助任务设置为正则器,通过设置超参数
结合公式(7)与公式(11)对总损失函数公式(12)进行迭代优化:
(12)
3. 实验
3.1. 基线
为了进行结果对比,我们将我们的模型与当前最先进的药物协同作用预测模型进行对比。
Li等人 [23] 提出了一种从特征集中提取特征的网络传播方法,并利用该方法训练随机森林模型来预测药物协同作用。
ComboFM [24] 模型结合剂量反应数据、药物化学特征和细胞系基因表达数据进行建模,并使用高阶因子分解机学习输入数据的潜在特征以预测药物协同作用。
DTF [25] 模型通过张量分解的方法从药物协同矩阵中提取潜在特征,并借助DNN模型进行药物协同作用的预测。
DeepSynergy模型则采用前馈神经网络来预测药物协同评分。
HypergraphSynergy模型构建了药物组合协同作用超图,并使用多层感知机训练超图神经网络以学习得到特征并预测药物协同作用。
3.2. 实验
3.2.1. 五倍交叉验证实验
为了确保实验结果的公平性和准确性,我们对模型进行了基线测试,并采用了五倍交叉验证方法。我们首先从数据集中随机选择90%的样本作为交叉验证集,剩余的样本作为独立的测试集。在交叉验证集上,我们采用了五倍交叉验证的方法,将样本随机分成五等份,以验证模型在重新发现已知抗癌药物协同作用方面的能力。
见表1可以看出,我们的模型在指定指标上优于其他模型。这得益于我们的模型不仅能够提取药物组合与细胞系之间的关联,还能捕获单个药物与细胞系之间的联系。同时,我们的模型基于多层感知机和线性相关系数来进行药物协同预测,表明我们的模型具有良好的泛化性和强大的鲁棒性。通过与Li等人的ComboFM和DTF模型的对比,我们可以看出深度学习模型在药物协同作用预测任务上具有显著的优势。我们的模型相对于DeepSynergy模型的优势主要在于图神经网络模型能够更好地提取药物与细胞系之间的信息。同样,由于我们的模型不仅提取了药物组合与细胞系之间的信息,还提取了单个药物与细胞系之间的关联,因此相对于同样使用图神经网络的HypergraphSynergy模型,我们的模型也具有优势。
![](Images/Table_Tmp.jpg)
Table 1. Results of five-fold cross experiment
表1. 五倍交叉实验结果
3.2.2. 新药实验
为了验证模型在新药物组合和细胞系维度上的预测能力,我们选择将样本数据按照药物组合的维度进行划分,以确保测试集仅包含训练集中未出现的药物组合,从而评估模型对新药物组合的预测能力。
在新药物组合实验对比中,我们选择在基线实验中表现最佳的HypergraphSynergy模型与我们的模型进行对比。结果见图2所示,我们的模型在所有指标上均优于HypergraphSynergy模型,这表明我们的模型具有更高的泛化能力和鲁棒性,使得在极端条件下我们的模型仍然能够保持较高的稳定性。
3.2.3. 新细胞系实验
为了验证我们的模型在极端条件下(如预测未知癌细胞)的高精度性能,我们采用了特定的数据集划分方法。我们通过在细胞系维度上对数据集进行分割,确保训练集中的细胞系不会出现在测试集中,以模拟新细胞系预测的环境条件。
在与HypergraphSynergy模型进行对比的实验中,我们的模型展现出了更优秀的性能。见图3所示,我们的模型在列出的四个指标上均超过了对比模型。这可以归因于我们的模型捕获了更深层次的药物与细胞系之间的拓扑特征,从而使得我们的模型具备了更强的泛化能力,适用于更复杂的预测环境。
![](//html.hanspub.org/file/2-1701577x139_hanspub.png?20240607095718350)
Figure 3. Results of new cell experiment
图3. 新细胞实验结果
3.2.4. 消融实验
为了验证模型中各个模块的贡献度,我们对原始模型进行了两个变种实验:
1) 去超图:在原始模型的基础上,我们剔除了超图模块,并直接使用药物和细胞系的初始特征作为输入,通过多层感知机进行药物协同作用的预测。
2) 去相互作用图:与去超图类似,我们去除了相互作用图模块,而是直接使用药物和细胞系的初始特征来计算药物与细胞系之间的线性相关系数,从而预测协同作用。
通过使用相互作用五倍交叉验证方法,我们得到了实验结果见表2所示。可以观察到,在所有变种模型中,精度都有所下降,这说明我们模型的各个模块都是必要的,它们是保证模型鲁棒性和泛化能力的关键因素。具体地说,原始模型相较于去超图模型的AUC值提高了0.0271,这归功于我们构建的超图网络以及超图神经网络对其进行学习的能力,它们能够提取药物组合与细胞系之间潜在的拓扑特征和联系,从而提高了模型的预测精度。同时,原始模型相对于去相互作用图模型也有显著优势,这表明相互作用图能够有效地捕获到单个药物与细胞系之间的联系。两种不同类型的图结构极大地挖掘了不同实体之间的联系,使得我们的模型能够达到最佳性能。
![](Images/Table_Tmp.jpg)
Table 2. Results of ablation experiments
表2. 消融实验结果
4. 结语
现有的药物协同作用预测模型利用机器学习或深度学习技术,通过提取实体特征进行预测。然而,这些模型在挖掘药物与细胞系特征方面存在不足,要么忽略了药物组合与细胞系之间的相互作用,要么忽略了单个药物与细胞之间的联系。针对这些问题,本研究构建了药物组合与细胞系相互作用的超图和单个药物与细胞系相互作用的网络。我们分别采用超图神经网络和图卷积神经网络对这两种图进行训练,以提取药物与细胞系的深层特征。接着,我们通过多层感知机和线性相关系数为不同的图模型预测药物协同作用。实验证明了该模型的有效性,并证实在极端条件下能够成功预测新药物与新细胞系,突出了其具备良好的泛化性和鲁棒性。