MGSGCN:基于多图结构和注意力机制的图卷积网络预测lncRNA-疾病关联
MGSGCN: Prediction of lncRNA-Disease Associations via Graph Conventional Network Based on Multi-Graph Structure and Attention Mechanism
摘要: 研究表明长非编码RNA (long non-coding RNA, lncRNA)在许多生物的生命活动中发挥着重要作用。识别潜在的lncRNA-疾病关联(lncRNA-disease associations, LDAs)有助于研究疾病的发病机制,及时地诊断、预防和治疗疾病。本文提出了一种基于多图结构和注意力机制的图卷积网络模型预测LDAs,简称MGSGCN。该模型综合了疾病语义相似性、lncRNA功能相似性、疾病与lncRNA高斯相互作用谱核相似性和余弦相似性,构建了疾病和lncRNA的特征向量。基于图卷积网络(graph conventional network, GCN)和图注意力网络(graph attention network, GAT),使用了提取封闭子图和交互信息传播的多图结构策略来训练和预测LDAs。MGSGCN在Dataset1和Dataset2上的五折交叉验证(five-fold cross validation, 5-CV)的准确率分别为94.55%和87.44%。将MGSGCN与其它四个前人研究的计算模型进行比较,评价指标结果凸显了MGSGCN具有良好的分类性能。此外,对与子宫颈癌相关的lncRNA进行了案例分析。发现MGSGCN预测出了未被实验证实的LDAs,这说明该模型具有预测新的LDAs的能力。
Abstract: Studies have shown that long non-coding RNA (lncRNA) plays an important role in the life activities of many organisms. Identifying potential lncRNA-disease associations (LDAs) helps to study the pathogenesis of diseases and to diagnose, prevent and treat diseases in a timely manner. In this paper, we proposed a graph convolutional network model based on multi-graph structure and attention mechanism to predict LDAs, named MGSGCN. The model integrated disease semantic similarity, lncRNA functional similarity, disease and lncRNA Gaussian interaction profile kernel similarity, and cosine similarity, and constructed disease and lncRNA feature vectors. Based on graph conventional network (GCN) and graph attention network (GAT), a multi-graph structural strategy for extracting enclosing subgraphs and interaction information propagation was used to train and predict LDAs. The accuracy of MGSGCN on Dataset1 and Dataset2 with five-fold cross validation (5-CV) is 94.55% and 87.44%, respectively. Compared MGSGCN with four other computational models from previous studies, and the results of the evaluation metrics highlighted the good classification performance of MGSGCN. In addition, a case study of lncRNAs associated with cervical cancer was performed. MGSGCN was found to predict LDAs that were not experimentally confirmed, suggesting that the model has the ability to predict new LDAs.
文章引用:王若冰, 孟令宇, 谭建军. MGSGCN:基于多图结构和注意力机制的图卷积网络预测lncRNA-疾病关联[J]. 生物医学, 2024, 14(3): 457-470. https://doi.org/10.12677/hjbm.2024.143050

1. 引言

根据人类基因组计划的研究结果显示,大约98%的DNA没有编码成蛋白质基因,而是被转录成非编码RNA (non-coding RNA, ncRNA) [1]。转录成的ncRNA中很大一部分是长链非编码RNA (long non-coding RNA, lncRNA),它是一种长度大于200个核苷酸的稳定的ncRNA [2]。许多研究表明lncRNA在许多生物学过程中发挥着重要的作用,例如细胞凋亡[3]、细胞增殖[4]、细胞分化[5]、与蛋白质的相互作用[6]-[9]、基因表达与转录[10]、免疫应答[11]等。此外,lncRNA的异常表达还与阿尔兹海默症[12]、艾滋病[13]、心血管疾病[14]以及癌症[15]等许多复杂的人类疾病密切相关。

预测lncRNA与疾病之间是否存在关联有助于确定疾病的潜在靶点,为治疗和预防疾病提供有益的帮助。目前,研究人员提出了许多预测lncRNA-疾病关联(lncRNA-disease associations,LDAs)的计算方法。现有的计算方法大致分为三类,分别为基于生物网络的方法、基于矩阵分解的方法和基于机器学习的方法。

基于生物网络的方法先整合lncRNA和疾病的相似性构建同构网络或异构网络,然后应用随机游走和信息传播算法实现全局网络相似性去识别潜在的LDAs。Sun等人[16]开发了一个基于重启随机游走算法的预测模型RWRlncD。该模型整合了已知的LDAs网络、lncRNA功能相似性网络和疾病语义相似性网络。Chen等人[17]考虑到重启随机游走算法的局限性,提出了预测模型IRWRLDA。该方法与传统的重启随机游走(restart random walk, RWR)相比,不同之处是将lncRNA表达相似性和疾病语义相似性结合去设置RWR的初始概率向量。该模型可以预测没有任何已知lncRNA相关的疾病。LncRDNetFlow [18]采用流传播算法,通过蛋白质–蛋白质相互作用网络连接疾病相似性网络和lncRNA相似性网络去推断LDAs。然而,这些方法中的大多数不适用于没有已知关联的疾病和lncRNA。

矩阵分解可以在矩阵补全任务中发挥重要的作用。通过矩阵分解可以将LDAs矩阵分解为两个低秩矩阵的乘积形式,将lncRNA和疾病映射到一个共享的低维特征空间中。矩阵补全的主要思想是利用矩阵分解得到的低秩矩阵来填充缺失值。Fu等人[19]开发了一种基于矩阵分解的预测模型MFLDA。该模型给数据源分配不同的权重,以便有选择地进行融合。用矩阵三因子分解将数据源分解为低秩矩阵去预测LDAs。SIMCLDA [20]先通过主成分分析法提取特征向量,然后用矩阵补全方法识别LDAs。LDCMFC [21]用相关熵的协同矩阵分解去识别lncRNA相关的疾病。它将传统的欧几里得距离的最小化替换为了熵的最大化来提高模型的预测性能。然而,基于矩阵分解的方法只使用了简单的线性建模,难以捕捉lncRNA与疾病之间更复杂的关系。

基于机器学习的方法侧重于提取lncRNA和疾病的特征,然后将提取的特征用机器学习模型去训练并预测LDAs。Chen等人[22]开发了基于半监督学习框架的预测模型LRLSLDA。该模型根据已知的LDAs分别计算lncRNA和疾病的高斯相互作用谱核相似性,结合lncRNA表达相似性矩阵用拉普拉斯正则化最小二乘法预测LDAs。IPCARF [23]先将多个lncRNA和疾病的相似性矩阵融合,然后用增量主成分分析提取特征表示,并用随机森林分类器预测LDAs。Razia Khalid等人[24]提出了一种基于支持向量机和随机森林预测LDAs的方法。

深度学习属于机器学习的一个分支,它的主要思想是通过多层神经网络学习lncRNA和疾病数据之间的复杂非线性关系。Xuan等人提出了许多不同的基于卷积神经网络(convolutional neural network, CNN)的LDAs预测模型,包括CNNLDA [25],GCNLDA [26],CNNDLP [27],LDAPred [28],GATN [29]。CNNLDA利用了基于注意力机制的双CNN预测LDAs;GCNLDA采用了图卷积网络(graph convolutional network, GCN)和CNN;CNNDLP采用了卷积自编码器和带有邻边注意力机制的CNN;LDAPred是一种基于CNN和信息流传播的LDAs预测模型;GATN通过带有邻居级、拓扑级和属性级的三种注意力机制及多层CNN框架去预测LDAs。Lu等人[30]提出了基于机器学习和深度学习相结合的预测模型LDAEXC。这个模型先通过深度自编码器将特征进行降维,然后用极端梯度提升预测LDAs。上述大多数模型都取到的很好的预测性能,但是,现阶段不平衡数据和特征处理对预测LDAs的影响仍是一个挑战。

本文提出了一种基于多图结构和注意机制的图卷积网络模型预测LDAs,命名为MGSGCN。首先,基于已知的LDAs矩阵提取封闭子图并构建二部图,分别将多个疾病相似性矩阵、lncRNA相似性矩阵结合,构建lncRNA-疾病对的特征向量。然后,将子图和节点特征一起输入到GCN层中学习图的嵌入和节点表示。最后,将学习到的特征和经过二部图转换的交互信息一起输入图注意力网络(graph attention network, GAT)中进行训练,对lncRNA与疾病的潜在关联进行评分。该模型不仅有良好的预测性能,而且有预测新的LDAs的能力。

2. 材料和方法

2.1. 数据集

本研究中使用了Dataset1和Dataset2两个数据集进行预测和评估。从MNDR v2.0 [31]、LncRNADisease v2.0 [32]和Lnc2Cancer v3.0 [33]数据库中共下载了385个lncRNA-疾病关联对,这些关联对涵盖了180个lncRNAs和59个疾病,将这些数据组成的数据集命名为Dataset1。将Li等人[34]、Fu等人[19]和Xie等人[35]的研究中所用到的基准数据集整合,删除重复的lncRNA和疾病的数据,构建数据集Dataset2。Dataset2包含了894个lncRNAs、280个疾病和4770个lncRNA-疾病关联对。两个数据集中的关联对均经过实验验证,详细信息见表1。将数据集中已知的LDAs作为阳性样本,随机选取与阳性样本数量相同的样本作为阴性样本。

Table 1. The information of two datasets used in the study

1. 本研究使用的两个数据集的信息

数据集

lncRNAs

疾病

LDAs

数据来源

Dataset1

180

59

385

MNDR v2.0、LncRNADisease v2.0、Lnc2Cancer v3.0

Dataset2

894

280

4770

LncRNADisease v2.0、LncRNADisease、Lnc2Cancer、GeneRIF

将lncRNA和疾病的数量分别标记为nlnd,则lncRNA和疾病之间的关联矩阵可以用 LD R n l × n d 表示。如果已知的lncRNA i与疾病j之间存在关联,则 LD( i, j )=1 。否则, LD( i, j )=0 。如公式(1)所示:

LD( i,j )={ 1, 0,   iflncRNA l i associated with disease  d j others (1)

2.2. 疾病和lncRNA相似性计算

2.2.1. 疾病语义相似性

采用Wang等人[36]提出的方法计算疾病语义相似性。首先,将任意两种疾病的名称映射到疾病的医学主题词(Medical Subject Headings, MeSH)描述中,从国家医学图书馆(https://www.nlm.nih.gov/)下载MeSH描述。然后,用MeSH描述构造两种疾病之间的有向无环图(Directed Acyclic Graph, DAG)来描述疾病。对于一种疾病di,它的DAG可以用 DAG( d i )=( d i ,T( d i ),E( d i ) ) 表示,其中 T( d i ) 代表疾病di节点和它的祖先节点组成的集合, E( d i ) 代表父节点和子节点之间的边的集合。对于 DAG( d i ) 中的疾病 kT( d i ) 对疾病di的语义贡献值 D d i ( k ) 的计算公式为:

D d i ( k )={ 1 ifk= d i max{ Δ D d i ( k )|kchildren ofk } ifk d i (2)

其中,∆是连接疾病k与它的子疾病 k 的边 E( d i ) 的语义贡献因子,通常被设置为0.5。疾病di的总语义贡献值 DV( d i ) 由祖先疾病 T( d i ) 对疾病di本身的语义贡献之和计算,如公式(3)所示:

DV( d i )= kT( d i ) D d i ( k ) (3)

类似地,可以计算出疾病dj的语义贡献值。基于疾病di和疾病dj的语义贡献值,可以计算出这两种疾病之间的语义相似性DSS,如公式(4)所示:

DSS( d i , d j )= kT( d i )T( d j ) ( D d i ( k )+ D d j ( k ) ) DV( d i )+DV( d j ) (4)

2.2.2. lncRNA功能相似性

基于Chen等人[37]提出的LNCSIM模型中的方法计算lncRNA功能相似性。首先,假设与lncRNA li相关的疾病组为 D( l i ) ,与lncRNA lj相关的疾病组为 D( l j ) 。然后,计算一个lncRNA li相关的疾病 d l i 和另一个lncRNA lj相关的疾病组 D( l j ) 之间的相似性,如公式(5)所示:

S( d l i ,D( l j ) )= max dD( l j ) ( DSS( d l i ,d ) ) (5)

最后,lncRNA li和lncRNA lj之间的功能相似性LFS用如下公式表示:

LFS( l i , l j )= dD( l j ) S( d,D( l i ) ) + dD( l i ) S( d,D( l j ) ) m+n (6)

其中m表示与lncRNA li相关的疾病数量,n表示与lncRNA lj相关的疾病数量。

2.2.3. 高斯相互作用谱核相似性

疾病高斯相互作用谱核相似性和lncRNA高斯相互作用谱核相似性都可以基于LDAs矩阵计算[38]。首先假设疾病di的相互作用谱为IP(di),其表示LDAs矩阵的第i列向量。然后,假设疾病dj的相互作用谱为IP(dj),其表示LDAs矩阵的第j列向量。用公式(7)计算疾病di和疾病dj之间的高斯相互作用谱核相似性DGS:

DGS( d i , d j )=exp( λ d IP( d i )IP( d j ) 2 ) (7)

其中exp(·)表示指数函数, λ d 表示控制内核带宽的参数。 λ d 通过原始带宽 λ d 除以每个lncRNA相关疾病的平均值来获得,如公式(8)所示:

λ d = λ d / ( 1 n d i=1 n d IP( d i ) 2 ) (8)

其中nd表示疾病的数量, λ d 通常被设置为1。

用同样的方法计算lncRNA li和lncRNA lj之间的高斯相互作用谱核相似性LGS:

LGS( l i , l j )=exp( λ l IP( l i )IP( l j ) 2 ) (9)

其中exp(·)表示指数函数, λ l 表示控制内核带宽的参数。 λ l 通过原始带宽 λ l 除以每个疾病相关lncRNA的平均值来获得,如公式(10)所示:

λ l = λ l / ( 1 n l i=1 n l IP( l i ) 2 ) (10)

其中nl表示lncRNA的数量, λ l 通常被设置为1。

2.2.4. 余弦相似性

协同过滤推荐算法[39]中已经成功应用余弦相似性,并获得了良好的分类性能。由于同属于二分类问题,因此可以将余弦相似性应用于预测LDAs中。如果疾病di与疾病dj之间有相似性,那么在LDAs矩阵中,向量 LD( :,i ) 和向量 LD( :,j ) 应该也是相似的。基于LDAs矩阵 LD R n l n d 能够计算出疾病余弦相似性DCS,如公式(11)所示:

DCS( d i , d j )= LD( :,i )LD( :,j ) LD( :,i ) × LD( :,j ) (11)

其中 LD( :,i ) 表示关联矩阵LD的第i列, LD( :,j ) 表示关联矩阵LD的第j列。

类似地,可以计算出lncRNA余弦相似性LCS,如公式(12)所示:

LCS( l i , l j )= LD( i,: )LD( j,: ) LD( i,: ) × LD( j,: ) (12)

其中 LD( i,: ) 表示关联矩阵LD的第i行, LD( j,: ) 表示关联矩阵LD的第j行。

2.3. 提取封闭子图

对于每个lncRNA-疾病对的h-hop封闭子图,可以将其定义为 G 1 =( V 1 , E 1 ) ,其中V1是lncRNA、疾病以及它们的h-hop邻居节点的集合,E1是指图中边的集合。

LncRNA和疾病节点之间是否存在连接可以由它们为中心的图拓扑决定。在LDAs二分类预测中,随着图拓扑信息的增加,模型预测性能会变得更好。然而,随着跳数的增加,子图的节点数也会增加,导致增加相应的内存和计算量。同时,考虑到从网络G中提取的局部封闭子图包含了许多的信息来学习用于链接预测的图结构特征,使用了1-hop封闭子图预测节点vivj是否存在连接。 ( v i , v j ) 的1-hop封闭子图 G v i , v j 1 可以用公式(13)表示为:

G v i , v j 1 ={ v|min( d( v, v i ),d( v, v j ) )1 } (13)

其中vivj分别表示lncRNA和疾病节点, d( v, v i ) 表示节点vvi之间的最短距离, d( v, v j ) 表示节点vvj之间的最短距离。对于lncRNA或疾病节点v,如果存在一条从vvivj距离小于或等于1的路径,则沿该路径的每一个节点和每条边都被添加到1-hop封闭子图中。

2.4. 二部图嵌入传递交互信息

定义一个由不同类型的节点和边构成的lncRNA-疾病二部图 B=( L,D,P,X ) 。其中,L表示lncRNA的节点集,D表示疾病的节点集,P表示lncRNA节点和疾病节点之间的关联, X={ X l , X d } 表示lncRNA和疾病节点的属性集。给定一个二部图B,它的嵌入是一个n维特征 X R | L |×| D |×n 。其中 X L R | L |×n 表示lncRNA节点的嵌入, X D R | D |×n 表示疾病的节点嵌入,这些节点的嵌入可以捕获全局的拓扑结构和节点的属性信息。

作为lncRNA-疾病二部图中重要的直接相互作用,显式链接也不容忽视。LncRNA节点i与n个疾病节点之间存在联系,那么该lncRNA节点与它们之间有直接的相互作用。在二部图提取节点嵌入后,用多个可训练矩阵将 X L l X D l 映射到同一个空间里,交互信息传播表示为 H T X l S l ,其中Sl表示可训练的变换矩阵,H表示交互信息矩阵,Xl表示节点嵌入。

2.5. 模型构建

首先,根据LDAs矩阵构建二部图和提取h-hop封闭子图。然后,将疾病语义相似性、高斯核相互作用谱核相似性和余弦相似性,lncRNA功能相似性、高斯核相互作用谱核相似性和余弦相似性结合成疾病相似性矩阵和lncRNA相似性矩阵,从两个相似性矩阵中分别提取出疾病和lncRNA节点特征。其次,将子图和节点特征输入GCN层中进行嵌入。最后,将学习到的特征嵌入和经过二部图嵌入传播的交互信息输入堆叠的GAT层中进行模型的训练,预测lncRNA和疾病之间是否存在潜在的关联。MGSGCN的整个工作流程如图1所示。

2.6. 评价指标

用五折交叉验证(five-fold cross-validation, 5-CV)的方法对模型进行训练,即将数据集随机分成5等份,其中4份用于训练,另1份用于测试。采用受试者工作特征(Receiver Operating Characteristic, ROC)曲线

Figure 1. The workflow of the proposed MGSGCN

1. MGSGCN的工作流程图

下的面积(AUC)、精确召回率(Precision-Recall,PR)曲线下的面积(AUPR)、准确率(Accuracy)、精确率(Precision)、召回率(Recall)和F1分数(F1-score)六个评价指标对MGSGCN模型的性能进行评估,其公式如下:

Accuracy= TP+TN TP+TN+FP+FN (14)

Precision= TP TP+FP (15)

Recall= TP TP+FN (16)

F1-score= 2×Recall×Precision Recall+Precision (17)

其中TP表示真阳性的数量,即样本本身为阳性预测为阳性的数量;TN表示真阴性的数量,即样本本身为阴性预测为阴性的数量;FP表示假阳性,即样本本身为阴性预测为阳性的数量;FN表示假阴性,即样本本身为阳性预测为阴性的数量。

3. 结果

3.1. 相似性特征组合分析

MGSGCN模型采用疾病和lncRNA的相似性作为特征。为了验证使用不同特征后对模型性能的影响,比较了疾病语义相似性、lncRNA功能相似性、疾病和lncRNA高斯相互作用谱核相似性、疾病和lncRNA余弦相似性的不同特征组合作为输入时模型的性能差异。在Dataset1和Dataset2两个数据集上分别进行5-CV作为最终的结果。测试的五种不同特征组合的ROC曲线如图2所示,表2列出了5-CV下五种特征组合的六个评价指标的结果。

通过比较在Dataset1和Dataset2上不同特征组合作为输入的ROC曲线(图2)可以发现,只有疾病语义相似性和lncRNA功能相似性作为输入时的AUC值最低。而当依次将疾病高斯相互作用谱核相似性和lncRNA高斯相互作用谱核相似性输入时,AUC值明显提升。因此,可以证明疾病和lncRNA的高斯相互作用谱相似性是重要的特征。当将疾病余弦相似性和lncRNA余弦相似性依次输入到模型中,AUC值略微升高,也可以说明余弦相似性具有比较重要的特征信息。

(a) (b)

Figure 2. ROC curves for different feature combinations. (a) represents the ROC curves for different feature combinations on Dataset1, (b) represents the ROC curves for different feature combinations on Dataset2. The ROC curves of disease semantic similarity and lncRNA functional similarity combinations; disease semantic similarity, Gaussian similarity and lncRNA functional similarity combinations; disease semantic similarity, lncRNA functional similarity, disease and lncRNA Gaussian similarity combinations; disease semantic similarity, lncRNA functional similarity, disease and lncRNA Gaussian similarity, disease cosine similarity combinations; all similarity combinations as inputs are expressed in blue, orange, green, red, and purple respectively

2. 不同特征组合的ROC曲线。(a) 表示在Dataset1上不同特征组合的ROC曲线,(b) 表示在Dataset2上不同特征组合的ROC曲线。输入是疾病语义相似性和lncRNA功能相似性组合;疾病语义相似性、高斯相似性和lncRNA功能相似性组合;疾病语义相似性、lncRNA功能相似性、疾病和lncRNA高斯相似性组合;疾病语义相似性、lncRNA功能相似性、疾病和lncRNA高斯相似性、疾病余弦相似性组合;所有相似性组合的ROC曲线分别用蓝色、橙色、绿色、红色和紫色表示

表2可知,从总体上看在Dataset1和Dataset2上综合利用疾病和lncRNA六个相似性特征作为输入时,MGSGCN的性能最佳。可能的原因是不同的特征包含了不同的信息,通过多个特征的结合,丰富了节点的特征,进而提高了LDAs预测的准确性。

Table 2. Results under 5-CV of different feature combinations on Dataset1 and Dataset2

2. 5-CV下不同特征组合在Dataset1和Dataset2数据集上的结果

数据集

特征组合

AUC

AUPR

Accuracy

Precision

Recall

F1-score

Dataset1

DSS + LFS

0.9854

0.9874

0.9286

0.9858

0.8708

0.9245


DSGS + LFS

0.9878

0.9881

0.9403

0.9812

0.8981

0.9375


DSGS + LFGS

0.9880

0.9892

0.9416

0.9730

0.9084

0.9392


DSGCS + LFGS

0.9881

0.9892

0.9416

0.9807

0.9011

0.9388


DSGCS + LFGCS

0.9883

0.9893

0.9455

0.9859

0.9031

0.9426

Dataset2

DSS + LFS

0.9526

0.9492

0.8508

0.9367

0.7533

0.8345


DSGS + LFS

0.9577

0.9556

0.8657

0.9392

0.7822

0.8527


DSGS + LFGS

0.9584

0.9574

0.8578

0.9446

0.7602

0.8418


DSGCS + LFGS

0.9587

0.9570

0.8688

0.9360

0.7923

0.8573


DSGCS + LFGCS

0.9592

0.9575

0.8744

0.9354

0.8044

0.8643

注:表中加粗部分表示评价指标是最优的。

3.2. 不同的图注意力层数与头数对模型性能的影响

为了让MGSGCN达到最好的分类结果,在Dataset2上进行了5-CV测试了不同的GAT层数和GAT头数对模型预测结果的影响。随着层数的加深和头数的增加,会导致模型过于复杂,模型的参数量和计算量也会增加,可能会使模型出现过拟合的现象,因此,分别从{1,2,3,4}组合中选出最合适的GAT层数,从{1,4,8,16}组合中选择出最合适的GAT头数。图3(a)图3(b)分别表示不同GAT层数和GAT头数对MGSGCN模型预测性能的影响。

图3(a)可以看出,当GAT层数为3时,模型的各项评价指标总体上达到了最高:从图3(b)可以看出当,GAT头数为8时,模型的各项评价指标总体上达到了最高。这可能是因为每一层的注意力机制都可以对输入数据进行不同层次的理解和加权,增加头数可以让模型同时关注多个不同方面的信息。更多的GAT层数和头数可以让模型更好地捕捉输入数据的复杂关系,提高模型的预测性能。然而,没选择更多的GAT层数和头数是因为考虑到模型的复杂度和训练难度会增加,导致模型过拟合。

Figure 3. Performance comparison of different GAT layers and heads. (a) represents the performance comparison of different GAT layers; (b) represents the performance comparison of different number of GAT headers

3. 不同GAT层数和头数的性能比较。(a) 表示不同GAT层数的性能比 (b)不同GAT头数的性能比较

3.3. 与前人方法的比较

为了评估MGSGCN模型的预测性能,将MGSGCN模型与前人设计的SIMCLDA模型[20]、IPCARF模型[23]、VGAELDA模型[40]和GAMCLDA模型[41]进行比较。其中SIMCLDA是基于矩阵补全的算法,IPCARF是基于机器学习的算法。VGAELDA和GAMCLDA都是基于图神经网络的算法,并且都是一种将深度学习与矩阵补全相结合的模型。分别将这些模型在Dataset1和Dataset2进行5-CV,采用AUC、AUPR、Accuracy、Precision、Recall和F1-score六项指标对上述五种方法进行综合评价。在Dataset1和Dataset2数据集上的对比实验结果如图4所示。

图4(a)可以看出,在Dataset1上MGSGCN的AUC、AUPR、Precision、Recall和F1-score共五个评价指标最优,显示出模型具有有效识别阳性样本的能力。其中AUC为0.9883、AUPR为0.9893、Precision为0.9859、Recall为0.9031和F1-score为0.9426。虽然MGSGCN的Accuracy比VGAELDA低0.0452,但是综合考虑所有评价指标,MGSGCN的性能还是不弱于VGAELDA。VGAELDA的Accuracy略微高的原因可能与其算法的设计和有效的训练策略有关。该模型通过变分期望最大化算法对两个GAE进行端到端的学习,提高了特征表示学习和标签传播的效率。

Figure 4. Performance comparison among different LDAs prediction methods. (a) represents the performance comparison based on Dataset1, (b) represents the performance comparison based on Dataset2

4. 不同LDAs预测方法的性能比较。(a) 表示基于Dataset1数据集的性能比较,(b) 表示基于Dataset2数据集的性能比较

图4(b)可以看出,MGSGCN具有最优的AUC、AUPR、Precision和F1-score。MGSGCN的AUC为0.9592,分别比SIMCLDA、IPCARF、VGAELDA和GAMCLDA高0.0147、0.2660、0.1137和0.0118。MGSGCN的AUPR为0.9575,分别比SIMCLDA、IPCARF、VGAELDA和GAMCLDA高0.6962、0.3266、0.4291和0.2446。MGSGCN的Precision为0.9354,分别比SIMCLDA、IPCARF、VGAELDA和GAMCLDA高0.8422、0.2655、0.6295和0.1033。MGSGCN的F1-score为0.8643,分别比SIMCLDA、IPCARF、VGAELDA和GAMCLDA高0.6978、0.1493、0.4147和0.2946。MGSGCN的Accuracy为0.8744,略低于VGAELDA。Recall为0.8044,略低于SIMCLDA和GAMCLDA。虽然MGSGCN方法的Accuracy和Recall略低,但是总体上MGSGCN方法的性能并不弱于VGAELDA、SIMCLDA和GAMCLDA。因此,综合各项评价指标,基于多图结构和注意力机制的GCN学习模型是一种有效的预测LDAs的方法。

3.4. 案例分析

为了验证MGSGCN模型预测LDAs的能力,选择了子宫颈癌进行案例分析。在案例分析过程中,首先在Dataset2数据集上随机抽取与阳性样本数量相同的阴性样本;然后将该数据集按照8:2的比例划分,其中80%的数据当作训练样本,20%的数据当作测试样本;最后基于MGSGCN模型计算所有测试样本的预测分数,对与子宫颈癌相关的排名前十的候选lncRNA进行排序,通过在PubMed网站的文献来验证lncRNA与子宫颈癌之间是否存在关联。

在与子宫颈癌相关的案例研究中,MGSGCN模型预测的与子宫颈癌相关的前10种候选lncRNA如表3所示。其中有8种lncRNA被证实与子宫颈癌相关,只有排名第1的lncRNA PANDA和排名第7的lncRNA RAB11B-AS1未得到证实。研究人员发现TUG1的表达与子宫颈癌的恶性程度有关,并参与了子宫颈癌的发生和发展[42]。TUG1的下调可以降低宫颈癌的生长,诱导细胞凋亡。此外,TUG1通过调节上皮细胞间充质转化,促进了子宫颈癌细胞的迁移和侵袭。案例分析的研究结果表明了MGSGCN不仅能够预测出潜在的LDAs,而且还能预测出新的LDAs。

Table 3. The top 10 cervical cancer-associated lncRNAs predicted by the MGSGCN

3. MGSGCN预测与子宫颈癌相关的前10种lncRNA

排名

lncRNA

证据

1

PANDA

未经证实

2

MIR205HG

PMID: 31655037

3

PVT1

PMID: 27232880

4

RNY3

PMID: 18283318

5

TUG1

PMID: 28088836, PMID: 29029428

6

ASB16-AS1

PMID: 32058219

7

RAB11B-AS1

未经证实

8

ZEB1-AS1

PMID: 30425516, PMID: 30253398

9

MIR210HG

PMID: 32087604

10

LINP1

PMID: 29527968

4. 总结与讨论

本研究提出了一种基于图神经网络的计算模型MGSGCN,通过GCN和堆叠GAT层来预测lncRNA和疾病之间是否存在关联。在Dataset1和Dataset2上与其它四种方法进行比较,综合评价MGSGCN在预测LDAs方面具有最佳的分类性能。一个原因是MGSGCN考虑了疾病和lncRNA的多个相似性特征组合作为输入,可以从不同的角度和层面反映LDAs。另一个原因是MGSGCN使用了提取封闭子图和交互信息传播的多图结构策略,充分利用局部结构信息的同时还将节点之间的隐含关系转化为显式关系。最后一个原因是GCN将每个节点的特征与其邻居节点的特征进行卷积操作,聚合了全局信息,生成节点的特征嵌入表示。使用多层GAT进一步学习重要特征表示,减少了边缘噪声对模型预测性能的影响。

尽管MGSGCN在预测LDAs的任务上通常获得了良好的预测性能,但它仍然存在一些局限性。由于MGSGCN本质上属于一种基于深度学习的算法,因此它具有与此类方法相同的局限性。深度学习被视为一个黑盒子,它自动的学习lncRNA和疾病的特征并进行预测,难以从生物学上解释预测的过程。此外,本研究只使用了lncRNA和疾病的信息,还有其他的一些信息未被使用,例如:miRNA、基因等。在未来的工作中,可以考虑用miRNA作为补充信息。通过研究lncRNA-miRNA相互作用和miRNA-疾病关联,更好地捕捉lncRNA与疾病之间的复杂关系。

NOTES

*通讯作者。

参考文献

[1] Grammatikakis, I. and Lal, A. (2022) Significance of lncRNA Abundance to Function. Mammalian Genome, 33, 271-280.
https://doi.org/10.1007/s00335-021-09901-4
[2] Kazimierczyk, M., Kasprowicz, M.K., Kasprzyk, M.E. and Wrzesinski, J. (2020) Human Long Noncoding RNA Interactome: Detection, Characterization and Function. International Journal of Molecular Sciences, 21, Article No. 1027.
https://doi.org/10.3390/ijms21031027
[3] Tüncel, Ö., Kara, M., Yaylak, B., Erdoğan, İ. and Akgül, B. (2022) Noncoding RNAs in Apoptosis: Identification and Function. Turkish Journal of Biology, 46, 1-40.
[4] Yi, K., Zhang, Y., Wang, Y., Wang, Z., Xie, M., Jin, Z. and Zhao, T. (2019) Long Noncoding RNA and Its Role in Virus Infection and Pathogenesis. Frontiers in Bioscience-Landmark, 24, 777-789.
https://doi.org/10.2741/4750
[5] Chen, L. and Zhang, S. (2016) Long Noncoding RNAs in Cell Differentiation and Pluripotency. Cell and Tissue Research, 366, 509-521.
https://doi.org/10.1007/s00441-016-2451-5
[6] Wang, J., Zhao, Y., Gong, W., Liu, Y., Wang, M., Huang, X. and Tan, J. (2021) EDLMFC: An Ensemble Deep Learning Framework with Multi-Scale Features Combination for ncRNA-Protein Interaction Prediction. BMC Bioinformatics, 22, Article No. 133.
https://doi.org/10.1186/s12859-021-04069-9
[7] Huang, X., Shi, Y., Yan, J., Qu, W., Li, X. and Tan, J. (2022) LPI-CSFFR: Combining Serial Fusion with Feature Reuse for Predicting LncRNA-Protein Interactions. Computational Biology and Chemistry, 99, Article ID: 107718.
https://doi.org/10.1016/j.compbiolchem.2022.107718
[8] Yan, J., Qu, W., Li, X., Wang, R. and Tan, J. (2024) GATLGEMF: A Graph Attention Model with Line Graph Embedding Multi-Complex Features for ncRNA-Protein Interactions Prediction. Computational Biology and Chemistry, 108, Article ID: 108000.
https://doi.org/10.1016/j.compbiolchem.2023.108000
[9] Li, X., Qu, W., Yan, J. and Tan, J. (2023) RPI-EDLCN: An Ensemble Deep Learning Framework Based on Capsule Network for ncRNA-Protein Interaction Prediction. Journal of Chemical Information and Modeling, 64, 2221-2235.
https://doi.org/10.1021/acs.jcim.3c00377
[10] Chen, J., Ao, L. and Yang, J. (2019) Long Non-Coding RNAs in Diseases Related to Inflammation and Immunity. Annals of Translational Medicine, 7, 494.
https://doi.org/10.21037/atm.2019.08.37
[11] Wang, F., Lin, H., Su, Q. and Li, C. (2022) Cuproptosis-Related lncRNA Predict Prognosis and Immune Response of Lung Adenocarcinoma. World Journal of Surgical Oncology, 20, Article No. 275.
https://doi.org/10.1186/s12957-022-02727-7
[12] Faghihi, M.A., Modarresi, F., Khalil, A.M., Wood, D.E., Sahagan, B.G., Morgan, T.E., Finch, C.E., St Laurent, G., Kenny, P.J. and Wahlestedt, C. (2008) Expression of a Noncoding RNA Is Elevated in Alzheimer’s Disease and Drives Rapid Feed-Forward Regulation of Beta-Secretase. Nature Medicine, 14, 723-730.
https://doi.org/10.1038/nm1784
[13] Mei, X., Zhang, B., Zhao, M. and Lu, Q. (2022) An Update on Epigenetic Regulation in Autoimmune Diseases. Journal of Translational Autoimmunity, 5, Article ID: 100176.
https://doi.org/10.1016/j.jtauto.2022.100176
[14] Yan, Y., Song, D., Song, X. and Song, C. (2020) The Role of lncRNA MALAT1 in Cardiovascular Disease. IUBMB Life, 72, 334-342.
https://doi.org/10.1002/iub.2210
[15] Xing, C., Sun, S.G., Yue, Z.Q. and Bai, F. (2021) Role of lncRNA LUCAT1 in Cancer. Biomedicine & Pharmacotherapy, 134, Article ID: 111158.
https://doi.org/10.1016/j.biopha.2020.111158
[16] Sun, J., Shi, H., Wang, Z., Zhang, C., Liu, L., Wang, L., He, W., Hao, D., Liu, S. and Zhou, M. (2014) Inferring Novel lncRNA-Disease Associations Based on a Random Walk Model of a lncRNA Functional Similarity Network. Molecular BioSystems, 10, 2074-2081.
https://doi.org/10.1039/C3MB70608G
[17] Chen, X., You, Z.H., Yan, G.Y. and Gong, D.W. (2016) IRWRLDA: Improved Random Walk with Restart for lncRNA-Disease Association Prediction. Oncotarget, 7, 57919-57931.
https://doi.org/10.18632/oncotarget.11141
[18] Zhang, J., Zhang, Z., Chen, Z. and Deng, L. (2019) Integrating Multiple Heterogeneous Networks for Novel LncRNA-Disease Association Inference. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 16, 396-406.
https://doi.org/10.1109/TCBB.2017.2701379
[19] Fu, G., Wang, J., Domeniconi, C. and Yu, G. (2018) Matrix Factorization-Based Data Fusion for the Prediction of lncRNA-Disease Associations. Bioinformatics, 34, 1529-1537.
https://doi.org/10.1093/bioinformatics/btx794
[20] Lu, C., Yang, M., Luo, F., Wu, F.X., Li, M., Pan, Y., Li, Y. and Wang, J. (2018) Prediction of lncRNA-Disease Associations Based on Inductive Matrix Completion. Bioinformatics, 34, 3357-3364.
https://doi.org/10.1093/bioinformatics/bty327
[21] Xi, W.Y., Zhou, F., Gao, Y.L., Liu, J.X. and Zheng, C.H. (2023) LDCMFC: Predicting Long Non-Coding RNA and Disease Association Using Collaborative Matrix Factorization Based on Correntropy. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 20, 1774-1782.
https://doi.org/10.1109/TCBB.2022.3215194
[22] Chen, X. and Yan, G.Y. (2013) Novel Human lncRNA-Disease Association Inference Based on lncRNA Expression Profiles. Bioinformatics, 29, 2617-2624.
https://doi.org/10.1093/bioinformatics/btt426
[23] Zhu, R., Wang, Y., Liu, J.X. and Dai, L.Y. (2021) IPCARF: Improving lncRNA-Disease Association Prediction Using Incremental Principal Component Analysis Feature Selection and a Random Forest Classifier. BMC Bioinformatics, 22, Article No. 175.
https://doi.org/10.1186/s12859-021-04104-9
[24] Khalid, R., Naveed, H. and Khalid, Z. (2023) Computational Prediction of Disease Related lncRNAs Using Machine Learning. Scientific Reports, 13, Article No. 806.
https://doi.org/10.1038/s41598-023-27680-7
[25] Xuan, P., Cao, Y., Zhang, T., Kong, R. and Zhang, Z. (2019) Dual Convolutional Neural Networks with Attention Mechanisms Based Method for Predicting Disease-Related lncRNA Genes. Frontiers in Genetics, 10, Article No. 416.
https://doi.org/10.3389/fgene.2019.00416
[26] Xuan, P., Pan, S., Zhang, T., Liu, Y. and Sun, H. (2019) Graph Convolutional Network and Convolutional Neural Network Based Method for Predicting lncRNA-Disease Associations. Cells, 8, Article No. 1012.
https://doi.org/10.3390/cells8091012
[27] Xuan, P., Sheng, N., Zhang, T., Liu, Y. and Guo, Y. (2019) CNNDLP: A Method Based on Convolutional Autoencoder and Convolutional Neural Network with Adjacent Edge Attention for Predicting lncRNA-Disease Associations. International Journal of Molecular Sciences, 20, Article No. 4260.
https://doi.org/10.3390/ijms20174260
[28] Xuan, P., Jia, L., Zhang, T., Sheng, N., Li, X. and Li, J. (2019) LDAPred: A Method Based on Information Flow Propagation and a Convolutional Neural Network for the Prediction of Disease-Associated lncRNAs. International Journal of Molecular Sciences, 20, Article No. 4458.
https://doi.org/10.3390/ijms20184458
[29] Xuan, P., Zhan, L., Cui, H., Zhang, T., Nakaguchi, T. and Zhang, W. (2022) Graph Triple-Attention Network for Disease-Related LncRNA Prediction. IEEE Journal of Biomedical and Health Informatics, 26, 2839-2849.
https://doi.org/10.1109/JBHI.2021.3130110
[30] Lu, C. and Xie, M. (2023) LDAEXC: LncRNA-Disease Associations Prediction with Deep Autoencoder and XGBoost Classifier. Interdisciplinary Sciences: Computational Life Sciences, 15, 439-451.
https://doi.org/10.1007/s12539-023-00573-z
[31] Cui, T., Zhang, L., Huang, Y., Yi, Y., Tan, P., Zhao, Y., Hu, Y., Xu, L., Li, E. and Wang, D. (2018) MNDR v2.0: An Updated Resource of ncRNA-Disease Associations in Mammals. Nucleic Acids Research, 46, D371-D374.
https://doi.org/10.1093/nar/gkx1025
[32] Bao, Z., Yang, Z., Huang, Z., Zhou, Y., Cui, Q. and Dong, D. (2019) LncRNADisease 2.0: An Updated Database of Long Non-Coding RNA-Associated Diseases. Nucleic Acids Research, 47, D1034-D1037.
https://doi.org/10.1093/nar/gky905
[33] Gao, Y., Shang, S., Guo, S., Li, X., Zhou, H., Liu, H., Sun, Y., Wang, J., Wang, P., Zhi, H., Li, X., Ning, S. and Zhang, Y. (2021) Lnc2Cancer 3.0: An Updated Resource for Experimentally Supported lncRNA/circRNA Cancer Associations and Web Tools Based on RNA-seq and scRNA-seq Data. Nucleic Acids Research, 49, D1251-D1258.
https://doi.org/10.1093/nar/gkaa1006
[34] Li, J., Wang, D., Yang, Z. and Liu, M. (2023) HEGANLDA: A Computational Model for Predicting Potential LncRNA-Disease Associations Based on Multiple Heterogeneous Networks. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 20, 388-398.
[35] Xie, G., Jiang, J. and Sun, Y. (2022) LDA-LNSUBRW: lncRNA-Disease Association Prediction Based on Linear Neighborhood Similarity and Unbalanced Bi-Random Walk. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 19, 989-997.
[36] Wang, D., Wang, J., Lu, M., Song, F. and Cui, Q. (2010) Inferring the Human microRNA Functional Similarity and Functional Network Based on microRNA-Associated Diseases. Bioinformatics, 26, 1644-1650.
https://doi.org/10.1093/bioinformatics/btq241
[37] Chen, X. (2015) Predicting lncRNA-Disease Associations and Constructing lncRNA Functional Similarity Network Based on the Information of miRNA. Scientific Reports, 5, Article No. 13186.
https://doi.org/10.1038/srep13186
[38] van Laarhoven, T., Nabuurs, S.B. and Marchiori, E. (2011) Gaussian Interaction Profile Kernels for Predicting Drug-Target Interaction. Bioinformatics, 27, 3036-3043.
https://doi.org/10.1093/bioinformatics/btr500
[39] Wang, B., Liu, R., Zheng, X., Du, X. and Wang, Z. (2022) lncRNA-Disease Association Prediction Based on Matrix Decomposition of Elastic Network and Collaborative Filtering. Scientific Reports, 12, Article No. 12700.
https://doi.org/10.1038/s41598-022-16594-5
[40] Shi, Z., Zhang, H., Jin, C., Quan, X. and Yin, Y. (2021) A Representation Learning Model Based on Variational Inference and Graph Autoencoder for Predicting lncRNA-Disease Associations. BMC Bioinformatics, 22, Article No. 136.
https://doi.org/10.1186/s12859-021-04073-z
[41] Wu, X., Lan, W., Chen, Q., Dong, Y., Liu, J. and Peng, W. (2020) Inferring LncRNA-Disease Associations Based on Graph Autoencoder Matrix Completion. Computational Biology and Chemistry, 87, Article ID: 107282.
https://doi.org/10.1016/j.compbiolchem.2020.107282
[42] Hu, Y., Sun, X., Mao, C., Guo, G., Ye, S., Xu, J., Zou, R., Chen, J., Wang, L., Duan, P. and Xue, X. (2017) Upregulation of Long Noncoding RNA TUG1 Promotes Cervical Cancer Cell Proliferation and Migration. Cancer Medicine, 6, 471-482.
https://doi.org/10.1002/cam4.994