多重检验技术在大数据分析中的应用
Application of Multiple Test Techniques in Big Data Analysis
DOI: 10.12677/AAM.2021.1010372, PDF, HTML, XML, 下载: 436  浏览: 8,122  国家自然科学基金支持
作者: 杜 欢, 刘瑞银*, 周志慧:沈阳师范大学数学与系统科学学院,辽宁 沈阳
关键词: 大数据多重假设检验总体错误率错误发现率q值Big Data Multiple Hypothesis Testing Family-Wise Error Rate False Discovery Rate q-Value
摘要: 在对大数据进行假设检验时,为了控制假阳性,需要采用多重检验技术。多重检验技术有多种,本文通过对大数据进行实际分析,比较各种算法的优缺点,给出不同方法的适用场合,从而对数据分析人员给以理论上的指导。文章首先阐述多重检验的必要性以及多重检验的相关概念;其次分别介绍对总体错误率和错误发现率进行控制的两类方法;最后将这几种多重检验方法应用到基因大数据中对基因的表达与否进行判断。实验结果表明,控制错误发现率的方法优于控制总体错误率的方法,在控制错误发现率的方法中,q值法的结果最好。原因在于q值法考虑了原假设的先验信息,能很好地控制错误发现率的大小,因此具有较高的精确性和检验功效。
Abstract: In the hypothesis test of big data, in order to control false positives, multiple test technology needs to be used. There are many kinds of multiple test techniques. This paper makes a practical analysis of big data, compares the advantages and disadvantages of various algorithms, and gives the application occasions of different methods, so as to give theoretical guidance to data analysts. Firstly, this paper expounds the necessity and the related concepts of multiple testing; Secondly, two kinds of methods to control the family-wise error rate and false discovery rate are introduced respectively; Finally, these multiple test methods are applied to gene big data to judge whether the genes are expressed or not. The experimental results show that the method of controlling the false discovery rate is better than the method of controlling the family-wise error rate. Among the methods of controlling the false discovery rate, the q-value method has the best result. The reason is that the q-value method considers the prior information of the original hypothesis and can well control the false discovery rate, so it has high accuracy and power.
文章引用:杜欢, 刘瑞银, 周志慧. 多重检验技术在大数据分析中的应用[J]. 应用数学进展, 2021, 10(10): 3532-3538. https://doi.org/10.12677/AAM.2021.1010372

1. 引言

在当今大数据时代,对于数据的搜集和获得不再是难题,难题出现在对数据的分析上。大数据的出现不仅仅是数据量的增多,它也使得数据分析方法发生了根本的变化,传统的统计分析方法不再适用,统计从业人员需要谨慎的分析数据,并利用合适的方法去分析,以免出现决策性的失误。多重假设检验就是相应于经典的单个假设检验提出的一种适应于大数据的假设检验方法。例如,对基因的选择问题,需要根据基因表达数据对大量的基因进行检测从而筛选出需要的基因。这就需要对大量基因进行检验,即多重检验问题。

在Lobenhofer et al. (2003) [1] 中,作者利用ORIOGEN算法 [2] 对表达的基因进行了挑选。本文利用多重检验技术,对Lobenhofer et al. (2003)中的基因重新进行了挑选,结果显示,在控制错误率的前提下,我们提高了检验的功效。

2. 多重假设检验概述

在N-P假设检验中,单个假设检验问题要求犯第一类错误的概率在可接受的范围内时,使犯第二类错误的概率控制在最小。在同时对多个假设进行检验时,对每个单独的假设检验而言第一类错误都在控制范围内,但对于整体而言犯第一类错误的概率将随着检验次数的增多而增大 [3],超出可控范围。例如,取显著性水平 α = 0.05 ,当进行两次独立检验时,对总体而言犯第一类错误的概率为 1 ( 1 α ) 2 ;进行m次检验时总体犯第一类错误的概率为 1 ( 1 α ) m ,随着检验次数的增加总体错误率增大,如图1,当假设检验的次数超过100时,总体错误率接近于1。因此,在多重假设检验问题中,不能像单个假设检验一样控制第一类错误。

多重假设检验方法有很多种,它们都需要控制总体错误率(FWER)或错误发现率(FDR) [4],才能使得第一类错误整体控制在 α 水平内。考虑m个假设检验 H i , i = 1 , 2 , , m ,当原假设 H 0 为真时,记为 H i = 0 ,否则 H i = 1 。设 m 0 m 1 分别表示m个假设检验中 H 0 H 1 为真的个数。对m个假设检验结果的分类如表1所示。

Figure 1. Relationship between multiple tests on times m and type I error

图1. 多重检验次数m与I型错误的关系

Table 1. Possible results of m multiple tests

表1. m次多重检验可能出现的结果

总体错误率表示在m次检验中,至少出现一次错误拒绝 H 0 的概率,即 FWER = Prob ( V 1 ) FWER α 。错误发现率表示在R次拒绝 H 0 的检验中,错误拒绝所占比例的数学期望,即 FDR = E ( V / R ) ,当 R = 0 时, FDR = 0 FDR α 。针对不同问题,选取的错误率控制指标也不同。在经典的多重检验中,通常m的取值较小,一般采取控制总体错误率的方法;但是在现在的大数据分析中,m的取值较大,此时采用控制总体错误率的话就过于严格,一般选择控制错误发现率的方法。

3. 多重假设检验方法

多重假设检验方法的具体算法可以分为两大类,一类为控制总体错误率的方法,另一类为控制错误发现率的方法,下面分别介绍这两类方法。

3.1. 控制总体错误率的算法

[Bonferroin算法] [5]

给定显著性水平 α ,对m个假设进行检验。采用单步法进行算法流程,每个假设各自的显著性水平选为 α / m ,如果第j个假设检验的p值 p j α / m ,则拒绝 H j 0 j = 1 , 2 , , m 。因此调整过的p值为 p ˜ j = min ( m p j , 1 )

[Homl算法] [6]

Homl算法与Bonferroin算法相比保守降低并且提高了功效。首先将m个假设检验的p值从小到大排序 p ( 1 ) p ( 2 ) p ( m 1 ) p ( m ) ,对应的检验为 { H 0 ( 1 ) , , H 0 ( m ) } 。如果存在

j ^ = min { j : p ( j ) > α m j + 1 }

则拒绝 H 0 ( j ) , j = 1 , , j ^ 。如果不存在 j ^ ,则拒绝所有原假设。Homl过程调整过的p值为:

p ˜ ( i ) = max k = 1 , , i { min ( ( m k + 1 ) p ( k ) , 1 ) }

Homl算法为Bonferroin算法的改进,其他改进方法还包括Hommel、Hochberg算法 [7] [8]。针对大数据问题,我们关注的是在能够允许R次拒绝中发生少量的错误识别时,尽可能多地检验出显著的个体,即在控制错误发现率的同时,尽可能地提高检验的检验功效。

3.2. 控制错误发现率的算法

[BH算法] [9]

在显著性水平 α 下,控制FDR的过程如下:将原来的m个p值从小到大进行排序,即 p ( 1 ) p ( 2 ) p ( m 1 ) p ( m ) 。如果存在

k ^ = max { j : p ( j ) j m α }

则拒绝 H 0 ( j ) , j = 1 , , k ^ ;如果不存在 k ^ ,则不拒绝任何原假设。

BH算法控制FDR时,FDR满足关系: FDR m 0 m α α

[BY算法] [9]

根据BH算法,修改FDR的上界为 m 0 α / ( m i = 1 m 1 i ) ,将原来的m个p值从小到大进行排序,即 p ( 1 ) p ( 2 ) p ( m 1 ) p ( m ) 。如果存在

k ^ = max { j : m 0 α m i = 1 m 1 i }

则拒绝 H 0 ( j ) , j = 1 , , k ^ 。如果不存在 k ^ ,则不拒绝任何原假设。

相对于BH算法而言,BY算法得出的上界值过于保守,所以j值减小,拒绝原假设的个数减少。在表1中表示为假设R值一定时,V值减小,S值增大。BH算法和BY算法的基本思想是给定显著性水平 α ,找到拒绝域,从而将错误水平控制在 α 以下。Storey (2002)提出一种控制FDR的直接方法,其基本思想是先凭借经验给出拒绝域,再估计错误率。

[q值法]

Storey (2002) [10] [11] 将 E ( V / R | R > 0 ) 称为阳性错误拒绝率(pFDR)。设 Γ α 为事先给定的拒绝域,则pFDR可表示为:

pFDR = E [ V ( Γ α ) / R ( Γ α ) | R > 0 ]

其中 V ( Γ α ) = # { H i = 0 : T i = Γ α } 表示错误发现次数, R ( Γ α ) = # { T i Γ α } 表示所有拒绝 H 0 的次数。

定理1 [12] 对m个完全相同的假设进行检验,检验统计量为 T 1 , T 2 , , T m ,显著区域为 Γ 。假设 ( T i , H i ) 是独立同分布的随机变量, T i | H i ~ ( 1 H i ) F 0 + H i F 1 ,其中 F 0 为统计量在原假设的分布, F 1 为统计量在备择假设的分布, H i ~ Bernoulli ( π 1 ) i = 1 , 2 , , m 。则:

pFDR = Prob ( H 0 = 0 | T Γ α ) = π 0 Prob ( T Γ α | H 0 = 0 ) Prob ( T Γ α )

Prob ( T Γ α ) = π 0 Prob ( T Γ α | H 0 = 0 ) + ( 1 π 0 ) Prob ( T Γ α | H 0 = 1 )

其中 π 0 = 1 π 1 = Prob ( H 0 = 0 ) H 0 的先验概率。 pFDR = Prob ( H 0 = 0 | T Γ α ) 反映了在已经拒绝 H 0 的条件下,该假设为真的概率,可认为pFDR是贝叶斯后验p值。

Storey对q值的定义如下:

q ( t ) = pFDR ( Γ α ) = inf Γ α : T Γ α Prob ( H 0 = 0 | T Γ α )

即:统计量落入拒绝域时原假设为真的最小概率。q值不过是p值定义的一个逆过程,q值是在 T Γ α 的条件下 H 0 = 0 的概率。q值法与BH算法恰好相反,即通过选定拒绝域 Γ α 去估计对应的q值,当 q α 时可保证 FDR α 。在文献 [13] 中Storey给出了 π 0 和q值的具体估计算法。

4. 在基因表达数据分析中的应用

在当今的大数据时代,处处需要用到多重检验技术。下面我们以基因大数据为例,介绍几种多重检验方法的具体应用并进行比较,详细列举了每种方法的优缺点,以求能对实际数据工作者以相应的指导。

4.1. 实例

Lobenhofer et al. (2003)的微阵列实验中,评价了17-β对于MCF-7胸癌细胞的影响。该实验分别在6个时间点同时对1900个基因进行观测,每个时间点上有8个观测值。我们需要根据这些观测数据,判断这1900个基因在观测时间内是否表达。

检验问题描述如下:

H 0 : μ C 0 , H 1 : μ i = 1 h C i

其中 C 0 = { μ R 6 : μ 1 = μ 2 = = μ 6 } C 1 = { μ R 6 : μ 1 μ i μ 6 } C i = { μ R 6 : μ 1 μ i μ 6 } i = 2 , 3 , 4 , 5 C i = { μ R 6 : μ 1 μ i μ 6 } i = 6 , 7 , 8 , 9

Peddada et al. (2003)提出了ORIOGEN算法对该实验中的表达基因进行了选择,在该算法中为了降低假阳性,把假设检验中的p值调整为 p ˜ j = h p j j = 1 , 2 , , m ,h为曲线模式的个数。

本文在ORIOGEN算法的基础上,利用多重假设检验技术对基因表达数据进行了分析。具体算法如下:

下面假定对某个选定的基因g进行分析,

第1步:选取所关注的表达曲线模式,将这些曲线形式记为 C 1 , C 2 , , C h

第2步:利用PAVA算法 [14] 求出该基因在每个模式 C i , i = 1 , 2 , , h 下的均值的估计值。

第3步:在每个曲线模式 C i , i = 1 , 2 , , h 下,分别计算 l 模。找到r满足 l g = l g ( r ) = max i l g ( i ) 。(某个模式的 l 模为其中任意两个参数估计值之差的最大值,参见Peddada et al. (2003)。)

第4步:对该基因根据其观测表达数据抽取N个bootstrap样本。对每个抽取的样本进行步骤2和3,从而获得该基因的统计量 l g 在原假设下 H 0 的分布,从而根据样本统计量 l g ( r ) 的值求出该基因的 p g 值。

对所有的基因重复以上步骤,得到1900个p值。

第5步:进行多重假设检验:

H 0 : μ C 0 , H 1 : μ i = 1 h C 0

给定显著性水平 α ,对所有基因进行多重检验,挑选出表达显著的基因。

4.2. 实验结果

本文利用R统计软件,对1900个基因表达数据进行了分析,结果见下表。

Table 2. Analysis results of gene expression data controlled by FWER and FDR

表2. FWER控制和FDR控制的基因表达数据分析结果

根据控制错误率的不同,我们在两类不同的多重假设检验方法下分别进行了分析。表2报告了在 N = 1000000 ,显著性水平 α = 0.05 的情况下,利用上述多种算法控制FWER和FDR,得到的1900个基因中表达的基因个数。在原始的1900个 p i 值中,有423个 p i 值小于0.05。利用ORIOGEN算法识别出170个表达的基因 [15]。对于控制总体错误率,利用多重假设检验算法进行分析,Bonferroin算法识别出了17个表达的基因,Holm、Hochberg、Hommel算法也都识别出了17个表达基因;对于控制错误发现率,BH算法识别出151个表达的基因,由于BY算法的上界值过于保守,仅识别出31个表达的基因,q值法识别出199个表达的基因。显然,在假阳性水平相同的情况下,控制FDR的多重检验算法挑选出的表达基因个数远高于控制FWER的算法,其中q值法挑选出的表达基因最多,比ORIOGEN算法挑出的基因还要多,而且q值法的检验功效比较大。因此,在实际数据分析中,推荐使用q值法进行多重假设检验分析。

5. 总结

在大数据的假设检验分析中,需要使用多重检验技术来控制错误率。从实例数据分析中可以看出,在使用多重检验算法时,控制FWER的意义并不大。研究者更关心的问题是当错误识别个数控制在可以接受的范围内时,尽可能多地识别出显著的基因。因此推荐控制FDR的多重检验算法。在控制FDR的算法中,从本文实例分析的结果可以看出q值法比BH算法的检验功效更大,因为其考虑了先验信息。在当前的大数据时代,数据量的变化也对传统的统计理论提出了挑战。在检验问题中,利用q值法解决大数据的多重检验问题,具有很强的实际意义。

基金项目

国家自然科学基金项目11401393。

辽宁省教育厅自然科学基金项目LJC201914。

NOTES

*通讯作者。

参考文献

[1] Peddada, S.D., Lobenhofer, E.K., Li, L., et al. (2003) Gene Selection and Clustering for Time-Course and Dose-Re- sponse Microarray Experiments Using Order-Restricted Inference. Bioinformatics, 19, 834-841.
https://doi.org/10.1093/bioinformatics/btg093
[2] Simmons, S.J. and Peddada, S.D. (2007) Order-Restricted Inference for Ordered Gene Expression (ORIOGEN) Data under Heteroscedastic Variances. Bioinformatics, 1, 414-419.
https://doi.org/10.6026/97320630001414
[3] © Silicon Genetics. Multiple Testing Corrections.
[4] 杨柳. 多重假设检验中错误率控制过程的分析[D]: [硕士学位论文]. 哈尔滨: 黑龙江大学, 2009.
[5] 刘遵雄, 陈昊. 多重相关检验中错误发现率的控制算法[J]. 井冈山大学学报(自然科学版), 2016, 37(3): 35-40.
[6] Holm, S. (1979) A Simple Sequentially Rejective Multiple Test Procedure. Scandinavian Journal of Statistics, 6, 65- 70.
[7] Hommel, G. (1988) A Stagewise Rejective Multiple Test Procedure Based on a Modified Bonferroni Test. Biometrika, 75, 383-386.
https://doi.org/10.1093/biomet/75.2.383
[8] Hochberg, Y. (1988) A Sharper Bonferroni Procedure for Multiple Tests of Significance. Biometrika, 75, 800-802.
https://doi.org/10.1093/biomet/75.4.800
[9] 裴艳波. 多重假设检验问题中关于三种错误测度-FWER, FDR和pFDR的讨论[D]: [硕士学位论文]. 长春: 东北师范大学, 2005.
[10] Storey, J.D. (2002) A Direct Approach to False Discovery Rates. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 64, 479-498.
https://doi.org/10.1111/1467-9868.00346
[11] Storey, J.D. (2003) The Positive False Discovery Rate: A Bayesian Interpretation and the q-Value. The Annals of Statistics, 31, 2013-2035.
https://doi.org/10.1214/aos/1074290335
[12] 王婷, 曾平, 黄水平, 等. 错误发现率和q值及其微阵列数据分析的应用[J]. 现代预防医学, 2013, 40(5): 811-814.
[13] Storey, J.D., Tibshirani, R., Storey, J.D. and Tibshirani, R. (2003) Statistical Significance for Genomewide Studies. Proceedings of the National Academy of Sciences, 100, 9440-9445.
https://doi.org/10.1073/pnas.1530509100
[14] Robertson, T., Wright, F.T. and Dykstra, R.L. (1990) Order Restricted Statistical Inference. Journal of the American Statal Association, 85, 398-409.
https://doi.org/10.2307/2289813
[15] 刘瑞银. 基于趋势性的剂量反应研究[D]: [博士学位论文]. 长春: 东北师范大学, 2011.