基于机器学习的RNA甲基化修饰位点预测的研究进展
Research Progress of RNA Methylation Modification Site Prediction Based on Machine Learning
DOI: 10.12677/HJCB.2022.122002, PDF, HTML, XML, 下载: 571  浏览: 1,261 
作者: 纪璎珊:辽宁科技大学计算机与软件工程学院,辽宁 鞍山
关键词: RNA甲基化位点预测特征分析机器学习RNA Methylation Site Prediction Feature Analysis Machine Learning
摘要: RNA修饰,特别是RNA甲基化,在人类多种生物活动中起着非常重要的调控作用,最常见的修饰包括N6-腺苷酸甲基化(m6A)、N1-腺苷酸甲基化(m1A)、胞嘧啶羟基化(m5C)等。RNA甲基化修饰位点的准确识别对预测多种人类遗传学疾病以及药物研发发挥着关键作用。随着数据集的大量积累,序列数据的分析需求不断增多,一些基于机器学习的预测方法被开发出来,用于甲基化位点的识别。本工作分别从RNA修饰、数据集来源、预测结果的评估标准以及用于预测的算法模型优缺点等方面进行综述,最后指出了RNA甲基化修饰位点预测未来的研究方向。
Abstract: RNA modification, especially RNA methylation, plays a very important regulatory role in a variety of human biological activities. The most common modifications include N6-adenylate methylation (m6A), N1-adenylate methylation (m1A), cytosine hydroxylation (m5C), etc. Accurate identification of RNA methylation modification sites is crucial for predicting a variety of human genetic diseases and drug development. With the accumulation of a large number of data sets, the requirements of analyzing sequence data are increasing, and some prediction methods based on machine learning have been developed for the identification of methylation sites. This work reviews RNA modification, data set sources, evaluation criteria for prediction results, and advantages and disadvantages of algorithm models used for prediction, and finally presents the research direction of RNA methylation modification site prediction in the future.
文章引用:纪璎珊. 基于机器学习的RNA甲基化修饰位点预测的研究进展[J]. 计算生物学, 2022, 12(2): 9-15. https://doi.org/10.12677/HJCB.2022.122002

1. 引言

RNA修饰是指真核生物和原核生物中RNA的转录后修饰。目前,超过100种不同类型的RNA修饰已在所有生物体中进行了表征。RNA修饰发生在多种RNA分子中,包括mRNA、tRNA、rRNA、lncRNA和snoRNA,在RNA剪接、蛋白质定位和翻译、干细胞多能性和人类疾病中发挥着重要作用。mRNA中最常见的内部修饰包括N6-腺苷酸甲基化(m6A)、N1-腺苷酸甲基化(m1A)、胞嘧啶羟基化(m5C)等。其中最主要的是RNA甲基化,通常被称为表观转录组 [1]。

m6A是6位氮的甲基化腺苷,发生在mRNA加工、核输出、翻译调控及RNA降解的不同阶段,包括ncRNA加工和CircRNA翻译。据估计,m6A甲基化大约存在于四分之一的mRNA上。多项研究证明m6A修饰是动态可逆的,能够起到促进环状RNA翻译、通过促进mRNA降解来调控癌症干细胞的分化,以及调控T细胞分化及免疫稳态等作用 [2]。m1A普遍存在于非编码RNA和mRNA中,是RNA分子腺嘌呤第1位氮原子上的甲基化修饰,研究表明,m1A与呼吸链功能障碍和神经发育退化有关 [3]。影响RNA胞嘧啶碱基的修饰主要包括m5C、5hmC等。m5C被定义为甲基在胞嘧啶的第五个碳原子上的加入,存在于多种RNA中。最近的研究表明,m5C甲基化可促进mRNA的转运,提高核质穿梭的效率,并对mRNA稳定、胚胎发生和肿瘤发生产生积极影响 [4]。5-羟甲基胞嘧啶(5hmC)则是TET介导的m5C氧化产生另一种形式的RNA修饰。

RNA修饰位点的识别主要基于生化实验检测或计算预测,但随着数据集的大量积累,便突出了生化检测高成本且耗时的缺陷,由此,机器学习算法逐步在RNA修饰预测的领域崭露头角。本文介绍了几种RNA甲基化研究的常用数据集,并就常见的RNA甲基化位点介绍几种基于机器学习的预测方法,根据评估标准对比模型之间的性能优势。

2. 基准数据集

训练高效计算模型的一个重要步骤是构建高质量的数据集。在RNA修饰的研究中,基准数据集大多来源于开源数据库Gene Expression Omnibus (GEO) [5]。GEO是2000年由美国国立生物技术信息中心创建,收录了世界各国研究机构所提交的高通量基因表达数据,通过限定检测类型,如:DNA、mRNA、甲基化等检索具体数据。另一种常用的数据库是RMBase,一个整合了表观转录组测序数据的综合数据库,该数据库由屈良鹄教授实验室构建,并于2017年更新了RMBase V2.0 [6],与之前的版本相比,增加了大量的RNA修饰位点数据。这些数据库为基于机器学习的多种模型方法提供基准数据集,训练数据的质量对于模型的预测效果的影响远超模型的选择与构建。

3. 模型性能评估

采用四种性能指标评估模型的性能,即Sn (灵敏度)、Sp (特异性)、ACC (准确性)、MCC (马修斯的相关系数)。在这些指标中,Sn表示该模型在预测阳性样本方面的准确性。Sn越高,说明对阳性样本的预测性能较高。同时,Sp越高,说明对阴性样本的预测性能越高。ACC代表了真阳性和真阴性样本预测的成功率。一个好的预测模型应该同时具有高Sn和Sp。如果Sn很高,Sp很低,则产生高假阳性,而如果Sp很高,Sn很低,则产生高假阴性。此外,MCC可以反映结果的可靠性,这对样本比例的不平衡是稳健的。这四个指标的定义如下

S n = T P T P + F N (1)

S P = T N T N + F P (2)

A C C = T P + T N T N + F P + T P + F N (3)

M C C = T P × T N F P × F N ( T P + F P ) ( T N + F N ) ( T P + F N ) ( T N + F P ) (4)

其中,TP、TN、FP、FN分别为真阳性、真阴性、假阳性、假阴性等值。此外,还使用曲线下面积(AUC)作为评估模型预测性能的有效指标。

4. 预测模型

4.1. N6-Methyladenosine

N6-甲基腺苷(m6A)是一种典型且广泛的转录后RNA修饰,几乎影响所有细胞周期过程,早期发现后,通过高通量实验从不同物种中鉴定出数百或数千个m6A位点,为构建m6A位点识别的计算机方法研究提供了丰富的数据集资源。数据集的充足使预测m6A位点的方法逐步趋于成熟。现有的m6A预测器主要是使用传统的机器学习算法开发的。

iRNA-Methyl [7] 是第一个使用机器学习方法进行m6A位点识别的开创性研究,该模型由Chen等人构建,使用SVM模型。第二年Zhou等人提出了一个名为“SRAMP”预测工具 [8]。在他们提出的方法中,使用了多种类型的特征描述符,包括核苷酸序列的位置二进制编码、k-最近邻编码、核苷酸对频谱编码和二级结构模式,用于训练基于随机森林的m6A集成预测模型。与其他现有预测器相比,他们提出的方法取得了相对更好的性能。M6AMRFS [9] 是一种基于序列的预测器,用于检测多个物种的RNA序列中的m6A位点。他们通过使用二核苷酸二进制编码和局部位置特异性二核苷酸频率对序列进行编码,提出了一种特征表示算法。他们将F-score算法与顺序前向搜索相结合,以优化特征空间并提高表示能力。他们采用XGBoost算法对可用的最佳特征执行模型训练。

近年来,除了传统的机器学习算法,深度学习已成为一种流行且强大的工具,因为它提供了多层网络和非线性映射操作,以数据驱动的方式检测潜在的复杂模式。深度学习方法在解决几个预测问题,如RNA剪接、蛋白质结构和蛋白质修饰等方面已经证明了优于传统机器学习算法的性能。Nazari等人则提出了一种基于卷积神经网络(CNN)的m6A预测模型,名为iN6-Methy (5-step) [10],用于H. sapiens、M. musculus和S. cerevisiae基准物种的m6A位点预测。在他们提出的方法中,他们使用基于自然语言处理的word2vec模型提取特征。在这种方法中,使用k-mer技术将每个序列手动分割成长度为k的序列段。他们将k的值设置为3,并将每个序列段映射到其对应的特征表示。由于模型使用整个基因组进行训练,其计算复杂度很高,而对m6A位点的预测速度很慢。2020年,Alam等人提出了pm6A-CNN [11] 模型,使用one-hot编码和核苷酸化学特性(NCP)的组合作为模型的输入,卷积神经网络作为分类方法。此外,该模型使用网格搜索算法来确定模型的最佳参数。与现有方法相比,他们提出的方法实现了改进的性能。2021年,M6A-NeuralTool [12] 模型使用三个子体系结构来预测N6-甲基腺苷位点的修饰,三个子体系结构分别使用完全连通层、支持向量机和朴素贝叶斯进行分类。目前,性能优于现有用于m6A位点识别的模型。M6A位点预测工具性能总结,如表1所示。

Table 1. Performance of the M6A modification site prediction tool

表1. M6A修饰位点预测工具的性能

4.2. 5-Methylcytosine

确定m5C位点在RNA中的位置对于理解转录后修饰的机制和功能至关重要,而传统鉴定m5C的高通量测序方法当面临大量待测数据时,需要花费大量时间与实验成本,大大影响了检测效率。近年来,已然发展了一些用于识别M5C位点的机器学习方法。M5C-PseDNC [13] 是第一个用于m5C位点预测的模型,采用PseDNC来构造样本,经过特征提取再将特征输入支持向量机进行识别。该模型在H. sapiens基准数据集上获得了90.42%的总体准确率,但由于其未提供Web服务器,可用性低。为满足研究需求,邱等人基于随机森林算法建立了免费的网络服务器iRNAm5C-PseDNC [14],准确率为92.37%,但数据集并未做相似筛选,导致模型高估。PEA-m5C [15] 是另一种基于随机森林的算法,它针对A. thaliana数据集的检验,具有高度不平衡的正/负比率,使其在排除误报的同时保持稳健,在10倍交叉验证中,总体准确率为83.5%。RNAM5CPred [16] 对三种类型的特征进行提取:KNFS (K-核苷酸频率)、pseDNC (伪二核苷酸组成)和KSNPFs (K-间隔核苷酸对频率),也由于对多种特征的提取,该模型的准确率为92.5%。M5C位点预测工具性能总结,如表2所示。

Table 2. Performance of the M5C modification site prediction tool

表2. M5C修饰位点预测工具的性能

4.3. N1-甲基腺苷

目前,存在两个识别N1甲基腺苷位点的机器学习方法,即RAMPred和ISGm1A。RAMPred [17] 使用的特征编码方法是基于物理性质、化学性质和基本累积频率描述的特征的41 nt序列,采用SVM分类器对智人、肌肉支原体和酿酒酵母中的m1A修饰位点识别的模型。ISGm1A [18] 是采用典型的序列特性,即核苷酸的物理和化学特性和累积频率,以及来自基因组注释的75个额外特性,基于随机森林算法的模型。Liu等人通过对特征重要性的分析,发现了基因组特征在位点预测中的重要性,而大部分前人的算法研究大多忽略了基于注释的基因衍生的位点的拓扑信息。该模型在特征提取阶段,整合序列特征和基因组特征,获得了较好的结果。M1A位点预测工具性能总结,如表3所示。

Table 3. Performance of the M1A modification site prediction tool

表3. M1A修饰位点预测工具的性能

5. 结论

随着生物信息领域的发展RNA修饰在调节基因表达和疾病发病机制中的重要性,已被人们所熟知。近年来,对于RNA修饰位点的预测技术在理论深化和算法改进等方面都取得了一定的进展,但发展的过程中也发现了一些存在的问题。在论述研究的过程中,主要的发现是大多数RNA修饰位点是别的方法共享相同的技术、分类算法,但应用在相同或不同位点的识别表现结果均有所差异。其中,模型性能与基准数据集的质量和大小相关。除此之外,目前基于机器学习的预测模型的训练数据集样本长时间未更新,取样的RNA修饰位点数据不够完善导致泛化能力不强,且对于一些实验室的数据集没有明确的衡量基准,不同数据集训练模型的结果对于模型间的性能比较,有失偏颇。其次,所采用的分类算法大体还是以传统分类算法SVM为主,只有部分预测模型,采用了深度学习中的卷积神经网络CNN。再者,从预测结果上看,还有一定的提升空间。

未来的研究工作可围绕着所存在的已知问题开展,扩大数据集规模,建立明确的数据集衡量标准,增加物种数量,利用深度学习算法进一步提高RNA甲基化位点预测精度,为基因组学的研究打下基础。由人工神经网络发展而来的深度学习,其算法模型拥有更强的泛化能力,对未知数据集有更准确的拟合结果,大量数据集的训练下的深度学习算法,可提高RNA甲基化修饰位点的预测准确率。基于深度学习模型的RNA甲基化修饰位点的预测将是未来的研究方向之一。

参考文献

[1] Meyer, K.D. and Jaffrey, S.R. (2014) The Dynamic Epitranscriptome: N6-methyladenosine and Gene Expression Con-trol. Nature Reviews Molecular Cell Biology, 15, 313-326.
https://doi.org/10.1038/nrm3785
[2] Djebali, S., Davis, C.A., Merkel, A., et al. (2012) Landscape of Transcription in Human Cells. Nature, 489, 101-108.
https://doi.org/10.1038/nature11233
[3] Hauenschild, R., Tserovski, L., Schmid, K., Thüring, K., Winz, M.L., Sharma, S., Entian, K.D., Wacheul, L., Lafontaine, D.L. anderson, J., Alfonzo, J., Hildebrandt, A., Jäschke, A., Motorin, Y. and Helm, M. (2015) The Reverse Transcription Signature of N-1-methyladenosine in RNA-Seq Is Sequence De-pendent. Nucleic Acids Research, 43, 9950-9964.
https://doi.org/10.1093/nar/gkv895
[4] Bohnsack, K.E., Höbartner, C. and Bohnsack, M.T. (2019) Eukaryotic 5-methylcytosine (m5C) RNA Methyltransferases: Mechanisms, Cellular Functions, and Links to Disease. Genes, 10, 102.
https://doi.org/10.3390/genes10020102
[5] Barrett, T., Wilhite, S.E., Ledoux, P., Evangelista, C., Kim, I.F., Tomashevsky, M., Marshall, K.A., Phillippy, K.H., Sherman, P.M., Holko, M., Yefanov, A., Lee, H., Zhang, N., Robertson, C.L., Serova, N., Davis, S. and Soboleva, A. (2013) NCBIGEO: Archive for Functional Genomics Data Sets—Update. Nucleic Acids Research, 41, D991-D995.
https://doi.org/10.1093/nar/gks1193
[6] Xuan, J.J., Sun, W.J., Lin, P.H., Zhou, K.R., Liu, S., Zheng, L.L., Qu, L.H. and Yang, J.H. (2018) RMBase v2.0: Deciphering the Map of RNA Modifications from Epitranscriptome Se-quencing Data. Nucleic Acids Research, 46, D327-D334.
https://doi.org/10.1093/nar/gkx934
[7] Chen, W., Feng, P., Ding, H., Lin, H. and Chou, K.C. (2015) iRNA-Methyl: Identifying n6-methyladenosine Sites Using Pseudo Nucleo-tide Composition. Analytical Biochemistry, 490, 26-33.
https://doi.org/10.1016/j.ab.2015.08.021
[8] Zhou, Y., Zeng, P., Li, Y.H., et al. (2016) SRAMP: Prediction of Mammalian N6-methyladenosine (m6A) Sites Based on Se-quence-Derived Features. Nucleic Acids Research, 44, e91.
https://doi.org/10.1093/nar/gkw104
[9] Qiang, X., Chen, H., Ye, X., et al. (2018) M6AMRFS: Robust Prediction of N6-methyladenosine Sites with Sequence-Based Fea-tures in Multiple Species. Frontiers in Genetics, 9, Article No. 495.
https://doi.org/10.3389/fgene.2018.00495
[10] Nazari, I., Tahir, M., Tayara, H., et al. (2019) iN6-Methyl (5-Step): Identifying RNA N6-methyladenosine Sites Using Deep Learning Mode via Chou’s 5-Step Rules and Chou’s General PseKNC. Chemometrics and Intelligent Laboratory Systems, 193, Article ID: 103811.
https://doi.org/10.1016/j.chemolab.2019.103811
[11] Alam, W., Ali, S.D., Tayara, H., et al. (2020) A CNN-Based RNA N6-methyladenosine Site Predictor for Multiple Species Using Heterogeneous Features Representation. IEEE Ac-cess, 8, 138203-138209.
https://doi.org/10.1109/ACCESS.2020.3002995
[12] Rehman, M.U., Hong, K.J., Tayara, H., et al. (2021) m6A-NeuralTool: Convolution Neural Tool for RNA N6-Methy- ladenosine Site Identification in Different Species. IEEE Access, 9, 17779-17786.
https://doi.org/10.1109/ACCESS.2021.3054361
[13] Feng, P., Ding, H., Chen, W., et al. (2016) Identifying RNA 5-methylcytosine Sites via Pseudo Nucleotide Compositions. Molecular BioSystems, 12, 3307-3311.
https://doi.org/10.1039/C6MB00471G
[14] Qiu, W.R., Jiang, S.Y., Xu, Z.C., et al. (2017) iRNAm5C-PseDNC: Identifying RNA 5-methylcytosine Sites by Incorporating Physical-Chemical Properties into Pseudo Dinucleotide Com-position. Oncotarget, 8, 41178-41188.
https://doi.org/10.18632/oncotarget.17104
[15] Chen, Z., Zhao, P., Li, F., et al. (2020) iLearn: An Integrated Plat-form and Meta-Learner for Feature Engineering, Machine-Learning Analysis and Modeling of DNA, RNA and Protein Sequence Data. Briefings in Bioinformatics, 21, 1047-1057.
https://doi.org/10.1093/bib/bbz041
[16] Fang, T., Zhang, Z., Sun, R., et al. (2019) RNAm5CPred: Prediction of RNA 5-methylcytosine Sites Based on Three Different Kinds of Nucleotide Composition. Molecular Therapy-Nucleic Acids, 18, 739-747.
https://doi.org/10.1016/j.omtn.2019.10.008
[17] Chen, W., Feng, P., Tang, H., et al. (2016) RAMPred: Identifying the N1-methyladenosine Sites in Eukaryotic Transcriptomes. Scientific Reports, 6, Article No. 31080.
https://doi.org/10.1038/srep31080
[18] Liu, L., Lei, X., Meng, J., et al. (2020) ISGm1A: Integration of Sequence Features and Genomic Features to Improve the Prediction of Human m1A RNA Methylation Sites. IEEE Access, 8, 81971-81977.
https://doi.org/10.1109/ACCESS.2020.2991070