Classification Technology and Application of Multifunctional Enzymes
作者: 毕鹏丽:云南大学信息学院,云南 昆明
关键词: 生物信息学多功能酶多标签机器学习Bioinformatics Multifunctional Enzyme Multi-Label Machine Learning
摘要: 酶是由活细胞产生的、对其底物具有高度特异性和高度催化效能的蛋白质或RNA,具有多种催化功能的酶被称为多功能酶。细胞是高度精细的复杂有机网络,多功能酶是常见的重要代谢反应的参与者,参与多个细胞代谢网络。在数据挖掘和机器学习领域,对酶的研究可以看作是一项预测任务。本文从机器学习的角度对关于多功能酶的研究作了一个深入的回顾。从方法和应用的角度,讨论的建模方法包括数据预处理、分类算法和模型评估等技术。对于应用方面,对现有的多功能酶应用领域提供了一个全面的分类,然后对各类别的应用进行了详细说明。最后,结合经验和判断,总结了一些建议,为多功能酶领域的进一步研究提供了方向。
Abstract: Enzymes are proteins or RNAs produced by living cells, which are highly specific and highly catalytic for their substrates. Enzymes with multiple catalytic functions are called multifunctional enzymes. Cells are highly sophisticated and complex organic networks, and multifunctional enzymes are common participants in important metabolic reactions and participate in multiple cellular meta-bolic networks. In the field of data mining and machine learning, the research of enzymes can be regarded as a prediction task. The article provides an indepth review of the research on enzymes from the perspective of machine learning. From the perspective of methods and applications, the modeling methods discussed include data preprocessing, classification algorithms, and model evaluation. For application, a comprehensive classification is provided for the existing multifunctional enzyme application fields, and then the application of each category is described in detail. Finally, combined with experience and judgment, some suggestions in the paper are summarized, which provides a direction for further research in the field of multifunctional enzymes.
1. 引言

1999年Jeffery将一类同时具有两种或两种以上功能的蛋白质称为兼职蛋白质 [1],还对兼职蛋白质的概念进行了严格的限定。经过研究表明,功能明确的兼职蛋白质大部分是酶蛋白,即除了已经具备的催化功能外还具有其他的生物学功能,这些功能涵盖了两种情况:一是产生催化混杂的现象 [2],二是与调节作用有关的功能。这类具有多种功能的酶被称为多功能酶。在数据挖掘领域,关于多功能酶的研究是一个预测问题,通常是一个数据分类问题。虽然数据挖掘方法已被广泛应用于建立分类模型来指导预测任务,但对多功能酶这类多标签的分类模型构成了重大的挑战。多标签分类与传统的分类问题相比较,主要难点有以下两个:

1) 类标签的数量不确定,有的样本可能只有一个类标签,而有的样本的类标签可能高达几十个;

2) 类标签之间存在依赖,怎样解决类标签之间的依赖性也是一个难点。

为了解决多功能酶分类问题,在过去人们已经开发了机器学习方法,其中大部分是基于样本技术和集成方法等 [3]。尽管已经发表了一些与多功能酶分类有关的研究 [4] [5] [6],但大都集中于技术方面,而忽略了应用方面的探索,关于多功能酶这个大类的应用研究综述少之又少。对于生物学等领域的研究人员来说,使用先进的学习技术和成熟有效的方法解决多功能酶分类预测的问题可能比使用复杂的算法更为重要。


2. 研究方法和初步统计

2.1. 研究方法

本研究是基于Govindan和Jepsen [7] 的研究方法,采用两阶段检索程序,收集了近年发表的相关论文。在初始阶段,我们使用图书馆数据库进行文献检索和收集,并按照Fahimnia等人(2015) [8] 概述的搜索过程设计搜索词。图1给出了本研究的搜索词。第一阶段的搜索限于多功能酶,我们从多个数据库中搜索带有“多功能酶”字段的文献。第二阶段的搜索分两部分,包含方法和应用。在方法方面,使用了数据挖掘方法中的关键词,如:机器学习、深度学习、多标签学习等,在实际应用方面,使用了应用领域的关键词,如:疾病、癌症、预后、病毒、表达作用。

Figure 1. Two-stage keywords tree structure

图1. 两阶段关键树结构

2.2. 初步统计


Figure 2. Publication trend of multifunctional enzyme research

图2. 多功能酶研究发表趋势


Figure 3. Top 13 journals/conferences on which most multifunctional enzyme research

图3. 多功能酶研究论文发表最多的13种期刊/会议


Figure 4. Word cloud of the title words from the collected paper

图4. 收集论文中标题词的词云

3. 解决多功能酶分类问题的基本策略

3.1. 预处理






3.2. 多功能酶样本的表示


3.2.1. 氨基酸组成(AAC)

蛋白质序列由20种常见的氨基酸组成,氨基酸组成的特征表达就是计算各种氨基酸在待测蛋白质序列中出现的频率 [9]。虽然用AAC可以预测很多蛋白质属性 [10] [11],但是存在一个致命缺点,即如果使用AAC作为唯一的特征提取方法来提取蛋白质信息,则其所有的序列顺序和序列长度信息将丢失。因此为了避免这样的情况发生,Chou [12] 提出了伪氨基酸组成(PseAAC)来代替氨基酸组成(AAC)。

3.2.2. 伪氨基酸组成(PseAAC)

伪氨基酸组成最早是由Chou在2001年提出来的,随后PseAAC的思想广泛应用于蛋白质组学、生物信息学和系统生物学 [13],比如预测蛋白质亚细胞定位 [14],预测DNA结合蛋白质 [15],氨基酸的分类 [16],预测酶家族分类 [17],预测蛋白质四级结构属性 [18],鉴别外膜蛋白 [19]。目前,PseAAC被用来处理DNA领域的问题,例如识别核小体 [20] 和预测重组点 [21]。

3.2.3. SAAC (Split Amino Acid Composition)

根据SAAC方法,一条蛋白质序列分为不同的部分并各自计算每个部分的组成。鉴于 [22] 此,一条蛋白质序列被分为三个部分 [23]:N端、中间段、C段。因为在对多功能酶数据进行筛选时,把氨基酸残基少于50的蛋白质序列已经去除了,所以在SAAC中,N端和C端分别包括25个氨基酸,其余的氨基酸在中间段中,然后分别计算这三段蛋白质序列中各氨基酸出现的频率。一般来说,特征选择的目标是从整个特征空间中选择k个特征的子集,使分类器达到最优性能。处理数据的另一种方法是特征提取。特征提取与降维有关,降维是将数据转换为低维空间。然而,应该注意的是,特征选择技术不同于特征提取技术。特征提取使用函数映射从原始特征创建新特征,而特征选择返回原始特征的子集 [24]。对图像、文本和语音等非结构化数据,特征提取方法的应用越来越多。表1显示了使用特征选择或特征提取的文章。我们发现,特征选择和特征提取经常用于解决现实世界的问题,如疾病诊断、癌症治疗等。

Table 1. Summary of articles employing feature selection or extraction methods

表1. 使用特征选择或提取方法的文章总结

3.3. 分类算法


(一) 问题转换法。基于问题转换的方法中有些考虑类标之间的依赖性,有些不考虑。最常见的不考虑类标之间依赖性的方法是将多标签问题进行分解,将其转换成n个二元分类问题(n是类别个数),将多标签中的每一个标签看作是单标签,然后对每一个标签实施常见的分类算法 [30],表2列举了问题转换方法中的常用方式及其优缺点;

Table 2. Common methods in problem conversion methods

表2. 问题转换方法中的常用方式

(二) 算法适应法。基于算法适应的方法是针对某一特定算法进行扩展 [31],进而改进算法使得能够处理多标签数据。在传统机器学习模型中常见的多标签分类模型如图5所示。表3列出了相关算法的使用情况。

Figure 5. Common multi-label classification models

图5. 常见的多标签分类模型

Table 3. Representative article on classification algorithm

表3. 分类算法的代表文章

3.4. 评价指标

模型选择和模型评价是机器学习中的两个关键过程。因此,性能度量是评价分类器有效性和指导分类器学习的关键指标。多标签学习系统的性能评价不同于传统的单标签学习系统。在单标签系统中常用的评价指标包括:精确率、正确率、召回率和F-Score等 [39],但对于多标签学习系统这些评价指标要

复杂得多,例如: Accuracy = 1 N i = 1 N ( L i L i * L i L i * ) Precision = 1 N i = 1 N ( L i L i * L i * ) Recall = 1 N i = 1 N ( L i L i * L i )

4. 多功能酶的应用


4.1. 应用领域的分类


Table 4. Application domain categories

表4. 应用领域分类

4.2. 各个领域的详细介绍

(一) 多功能酶在疾病领域的研究热点主要包括:预后治疗和控制影响某种疾病的激素,如通过控制胰岛素对糖尿病人进行治疗;

(二) 经过审查,发现有14篇文章与肿瘤癌症有关,主要的应用包含:在各类癌症中表达作用以及临床意义、靶点治疗、在肿瘤细胞中的增殖、凋亡作用。我们单独把癌症肿瘤从疾病这一应用领域分出来,是因为多功能酶在疾病中的应用主要与普通疾病有关,如:白血病、糖尿病等。而在癌症方面的应用相对来说更多,如:肝癌、乳腺癌、前列腺癌、胃癌、宫颈癌、膀胱癌、卵巢癌、食管癌子宫内膜癌等,多功能酶在这些癌症治疗过程中都发挥着靶点治疗的重要作用;

(三) 在病毒这一领域的应用,近年来主要讨论了多功能酶与登革病毒的关系;

(四) 其他应用领域主要包括:生物工程(生物合成、生物燃料等)、畜牧、纺织等,尤其在水产养殖方面有很大的实用价值,不仅提高产量还提高质量。相关研究问题及参考文献见表5

Table 5. Applications in various fields

表5. 各个领域的应用

5. 总结与展望


(一) 方法方面:可以尝试其他的特征选择方法获得我们所需要的实验数据,然后经过特征融合的方法将特征进行融合使我们的实验数据能够更好的表达它的意义;此外作为一种提高弱学习者分类性能的好方法,基于集成的算法目前已被广泛用于解决一些多分类学习任务。Wang and Yao [89] 认为集成模型的性能取决于单个分类器的准确性和所有分类器之间的多样性,未来可以尝试将多标签学习算法中的分类器进行集成,以获得更好的性能。往后可以将重心放在多标签学习两大难点上,开发新的算法去解决标签依赖性以及类标不平衡的问题。

(二) 应用方面:回顾第3节的应用分布,只有2篇文献讨论了多功能酶在病毒研究领域方面的应用,由于新药研发已经进入到了以生物靶标为核心的时代,特别是以计算机模拟结构来设计药物的出现使得药物设计理念得到了进一步的完善,未来可以在这个方面做更多的工作;另一个有价值的研究方向是在其他应用领域中,多功能酶的应用较广,从生物合成到畜牧水产都有涉猎,尤其近年来多功能酶在畜牧、水产、养蜂方面有很大的应用成果。现在人们更加注重健康与营养,怎样提高产品的产量与质量也是一个需要继续攻克的难题。




